📄Работа №206677

Тема: Прогнозирование вероятности совершения повторной покупки клиентом интернет-магазина

Характеристики работы

Тип работы Дипломные работы, ВКР
Информатика и вычислительная техника
Предмет Информатика и вычислительная техника
📄
Объем: 66 листов
📅
Год: 2020
👁️
Просмотров: 40
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

ВВЕДЕНИЕ 7
1 ОБЗОР МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ 8
1.1 Понятие машинного обучения 8
1.2 Обзор существующих методов решения задачи 8
1.2.1 Логистическая регрессия 9
1.2.2 Случайный лес 10
1.2.3 Градиентный бустинг 14
1.3 Выводы по первому разделу 16
2 ПРЕДОБРАБОТКА ИСХОДНЫХ ДАННЫХ ДЛЯ ПРИМЕНЕНИЯ
АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ 17
2.1 Цели и задачи предобработки исходных данных 17
2.2 Исходные данные 17
2.3 Обработка пропущенных значений 19
2.4 Кодирование категориальных признаков 22
2.5 Формирование обучающей и тестовой выборок 23
2.5.1 Формирование обучающей и тестовой выборок 23
2.5.2 Группировка данных 25
2.6 Результат реализации этапа предобработки исходных данных . 26
2.7 Выводы по второму разделу 27
3 ПРИМЕНЕНИЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ
ПРОГНОЗИРОВАНИЯ ВЕРОЯТНОСТИ СОВЕРШЕНИЯ ПОКУПКИ КЛИЕНТОМ ИНТЕРНЕТ-МАГАЗИНА 28
3.1 Назначение раздела 28
3.2 Оценка значимости признаков 28
3.3 Корреляционный анализ 30
3.4 Метрика ROC AUC (площадь под кривой ошибок) 31
3.4.1 Алгоритм построения ROC-кривой 31
3.4.2 Смысл ROC AUC 34
3.4.3 Способ расчета ROC AUC 34
3.5 Результаты применения алгоритмов 35
3.6 Отбор признаков для логистической регрессии с нормализованными признаками 43
3.7 Выводы по третьему разделу 45
ЗАКЛЮЧЕНИЕ 47
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 49
ПРИЛОЖЕНИЕ 1 Код программы

📖 Аннотация

В данной выпускной квалификационной работе исследуется задача прогнозирования вероятности совершения повторной покупки клиентом интернет-магазина с применением методов машинного обучения. Актуальность исследования обусловлена необходимостью повышения эффективности маркетинговых стратегий через персонализацию взаимодействия и оптимизацию рекламных бюджетов, что позволяет целенаправленно стимулировать лояльность клиентов. В качестве основных результатов были разработаны и сравнены прогностические модели на основе алгоритмов логистической регрессии, случайного леса и градиентного бустинга, при этом наилучшее качество показала модель градиентного бустинга. Научная значимость работы заключается в адаптации и комплексном сравнительном анализе классических алгоритмов машинного обучения для решения задачи прогнозирования потребительского поведения в e-commerce, а практическая – в возможности внедрения полученной модели для автоматизации и повышения рентабельности маркетинговых кампаний конкретного интернет-магазина. Теоретической основой исследования послужили труды таких авторов, как П. Флах, раскрывающий фундаментальные принципы машинного обучения, В.В. Вьюгин, рассматривающий математические основы прогнозирования, а также М. Андреас и Д. Вандерплас, описывающие практические аспекты реализации алгоритмов на Python.

📖 Введение

Актуальной задачей для любого интернет-магазина является прогнозирование поведения клиента, в частности получение значения вероятности совершения покупки для конкретного покупателя в определенный период в будущем.
Решение данной задачи позволит осуществлять более качественный персонализированный подход и автоматизировать маркетинговые и рекламные кампании. Правильно и своевременно стимулировать клиента к покупке любыми доступными способами. Например, если вероятность покупки клиента в ближайшую неделю относительно низкая, то, скорее всего, никакие рентабельные маркетинговые активности не спровоцируют его на покупку. Или, наоборот, если вероятность покупки относительно высокая, то нет смысла организовывать маркетинговое воздействие на клиента, так как он совершит покупку без какого-либо воздействия.
Целью работы является построение моделей на основе машинного обучения, которые будут прогнозировать вероятность совершения покупки конкретного клиента интернет-магазина в определенный период в будущем.
Задачи:
- изучить существующие методы решения подобной задачи;
- провести анализ и предобработку исходных данных;
- изучить существующие методы решения подобной задачи;
- разработать модели машинного обучения на основе следующих алгоритмов: логистическая регрессия, случайный лес и градиентный бустинг;
- сравнить качество прогнозирования полученных моделей для выявления лучшей.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

В ходе реализации проекта было изучено понятие машинного обучения, проведен обзор существующих алгоритмов для решения подобных задач. Среди рассмотренных алгоритмов: логистическая регрессия, случайный лес и градиентный бустинг. Изучен смысл алгоритмов, их достоинства и недостатки.
Изучено краткое резюме исходных дынных. Исходные данные представляют из себя историю заказов интернет-магазина «imkosmetik».
Проведена обработка пропущенных значений следующими способами: удаление пропущенных значений признаков являющихся уникальными идентификаторами объектов прогнозирования; заменой средними значениями по соответствующему региону для «Стоимости доставки» и «Периода доставки»; заменой наиболее часто встречающимся значением в регионе для признаков «ID платежной системы» и «ID способа доставки». Обработано 396005 пропущенных значений, по 8 признакам.
Произведена обработка категориальных признаков: «Область», «ID платежной системы» и «ID способа доставки» с помощью dummy-кодирова-ния.
Сформирована обучающая и тестовая выборка. Данные сгруппированы по идентификаторам объекта определенным образом. Все признаки приведены к необходимому типу.
Подготовленные данные были проанализированы. Проведен факторный анализ, выявлены 20 наиболее значимых признаков, которые впоследствии участвовали в построении модели. Проведен корреляционный анализ, для выявления степени взаимосвязи признаков и целевой переменной. В результате корреляционного анализа не было выявлено признаков, которые в значительной степени самостоятельно объясняли бы значения вектора ответов.
Были построены 5 моделей на основе рассмотренных алгоритмов машинного обучения
Проведена оценка качества прогнозирования построенных моделей с помощью метрики ROC AUC и матрицы ошибок. Наилучшее качество показала модель на основе логистической регрессии, с проведением предвари-тельной нормализации признаков. Значение метрики ROC AUC составило - 0,99 и матрица ошибок показала, что модель выдала 8 ошибочных ответов из 215348.
Модель с наилучшим качеством, построенная на 20 наиболее значимых признаках, показала качество ниже, чем модель, построенная на всех признаках, значение метрики ROC AUC снизилось на 1% (с 99% до 98%), количество ложно спрогнозированных ответов увеличилось.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

1 Андреас, М. Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными / М. Андреас, Г. Сара. - М.: Изд-во Вильямс, 2017. - 393 с.
2 Вьюгин, В.В. Математические основы теории машинного обучения и прогнозирования / В.В. Вьюгин. - М.: Изд-во МЦНМО, 2013. - 387 с.
3 Вандерплас, Д. Python для сложных задач: наука о данных и машинное обучение / Д. Вандерплас. - СПб.: Изд-во Питер, 2018. - 576 с.
4 Кобзарь, А.И. Прикладная математическая статистика / А.И. Кобзарь. - М.: Изд-во Физматлит, 2006. - 628 с.
5 Флах, П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / П. Флах. - М.: Изд-во ДМК Пресс, 2015. - 400 с.
6 Дерево решений [Электронный ресурс]. - URL: https://ru.wikipedia.o rg/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE%D1%80%D 0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9(дата обращения: 22.05. 2020).
7 Знакомство с машинным обучением [Электронный ресурс]. - URL: https://www.google.ru/about/main/machine-learning-qa/(дата обращения: 20.05.2020).
8 Кривая ошибок [Электронный ресурс]. - URL:
http://www.machinelearning.ru/wiki/index.php?title=ROC-
%D0%BA%D1 %80%D0%B8%D0%B2%D0%B0%D1%8F(дата обращения: 26.05.2020).
9 Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей [Электронный ресурс]. - URL: https://habr.com/ru/company/ods/blog/322534/(дата обращения: 20.05.2020).
10 Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей. Дерево решений [Электронный ресурс]. - URL: https://habr.com/ru/company/ods/blog/322534/#derevo-
resheniy(дата обращения: 22.05.2020).
11 Открытый курс машинного обучения. Тема 4. Линейные модели классификации и регрессии [Электронный ресурс]. - URL: https://habr.Com/ru/company/ods/blog/323890/#2-logisticheskaya-regressiya(дата обращения: 22.05.2020).
12 Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес [Электронный ресурс]. - URL:
https://habr.com/ru/company/ods/blog/324402/(дата обращения: 23.05.2020).
13 Открытый курс машинного обучения. Тема 10. Градиентный бустинг [Электронный ресурс]. - URL:https://habr.com/ru/company/ods/blog/327250/(дата обращения: 23.05.2020).
14 Площадь под ROC-кривой (Area Under The ROC Curve) [Электронный ресурс]. - URL:https://wiki.loginom.ru/articles/auc.html(дата обращения: 26.05.2020).
15 Понятие машинного обучения [Электронный ресурс]. - URL:
http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5 (дата обращения:
20.05.2020).
16 AUC ROC (площадь под кривой ошибок) [Электронный ресурс]. - URL: https://dyakonov.org/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%
D1%89%D0%B0%D0%B4%D1 %8C-%D0%BF%D0%BE%D0%B4-%D0%BA% D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D 0%B 1%D0%BE%D0%BA/(дата обращения: 23.05.2020).
17 Classification: ROC Curve and AUC [Электронный ресурс]. - URL: https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc(дата обращения: 26.05.2020).
18 Data Preparation: полет нормальный - что такое нормализация данных и зачем она нужна [Электронный ресурс]. - URL: https://www.bigdaaschool.ru/bigdata/%D0%BD%D0%BE%D1%80%D0%BC%D0%B0%D0%BB% D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F-feature-transformation- data-preparation.html(дата обращения: 26.05.2020).
19 Random forest [Электронный ресурс]. - URL: https://ru.wikipedia.or g/wiki/Random forest(дата обращения: 22.05.2020).
20 Understanding AUC - ROC Curve [Электронный ресурс]. - URL: https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5(дата обращения: 26.05.2020).

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ