🔍 Поиск работ

Прогнозирование вероятности совершения повторной покупки клиентом интернет-магазина

Работа №206677

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы66
Год сдачи2020
Стоимость4320 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
9
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 7
1 ОБЗОР МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ 8
1.1 Понятие машинного обучения 8
1.2 Обзор существующих методов решения задачи 8
1.2.1 Логистическая регрессия 9
1.2.2 Случайный лес 10
1.2.3 Градиентный бустинг 14
1.3 Выводы по первому разделу 16
2 ПРЕДОБРАБОТКА ИСХОДНЫХ ДАННЫХ ДЛЯ ПРИМЕНЕНИЯ
АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ 17
2.1 Цели и задачи предобработки исходных данных 17
2.2 Исходные данные 17
2.3 Обработка пропущенных значений 19
2.4 Кодирование категориальных признаков 22
2.5 Формирование обучающей и тестовой выборок 23
2.5.1 Формирование обучающей и тестовой выборок 23
2.5.2 Группировка данных 25
2.6 Результат реализации этапа предобработки исходных данных . 26
2.7 Выводы по второму разделу 27
3 ПРИМЕНЕНИЕ АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ
ПРОГНОЗИРОВАНИЯ ВЕРОЯТНОСТИ СОВЕРШЕНИЯ ПОКУПКИ КЛИЕНТОМ ИНТЕРНЕТ-МАГАЗИНА 28
3.1 Назначение раздела 28
3.2 Оценка значимости признаков 28
3.3 Корреляционный анализ 30
3.4 Метрика ROC AUC (площадь под кривой ошибок) 31
3.4.1 Алгоритм построения ROC-кривой 31
3.4.2 Смысл ROC AUC 34
3.4.3 Способ расчета ROC AUC 34
3.5 Результаты применения алгоритмов 35
3.6 Отбор признаков для логистической регрессии с нормализованными признаками 43
3.7 Выводы по третьему разделу 45
ЗАКЛЮЧЕНИЕ 47
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 49
ПРИЛОЖЕНИЕ 1 Код программы

Актуальной задачей для любого интернет-магазина является прогнозирование поведения клиента, в частности получение значения вероятности совершения покупки для конкретного покупателя в определенный период в будущем.
Решение данной задачи позволит осуществлять более качественный персонализированный подход и автоматизировать маркетинговые и рекламные кампании. Правильно и своевременно стимулировать клиента к покупке любыми доступными способами. Например, если вероятность покупки клиента в ближайшую неделю относительно низкая, то, скорее всего, никакие рентабельные маркетинговые активности не спровоцируют его на покупку. Или, наоборот, если вероятность покупки относительно высокая, то нет смысла организовывать маркетинговое воздействие на клиента, так как он совершит покупку без какого-либо воздействия.
Целью работы является построение моделей на основе машинного обучения, которые будут прогнозировать вероятность совершения покупки конкретного клиента интернет-магазина в определенный период в будущем.
Задачи:
- изучить существующие методы решения подобной задачи;
- провести анализ и предобработку исходных данных;
- изучить существующие методы решения подобной задачи;
- разработать модели машинного обучения на основе следующих алгоритмов: логистическая регрессия, случайный лес и градиентный бустинг;
- сравнить качество прогнозирования полученных моделей для выявления лучшей.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе реализации проекта было изучено понятие машинного обучения, проведен обзор существующих алгоритмов для решения подобных задач. Среди рассмотренных алгоритмов: логистическая регрессия, случайный лес и градиентный бустинг. Изучен смысл алгоритмов, их достоинства и недостатки.
Изучено краткое резюме исходных дынных. Исходные данные представляют из себя историю заказов интернет-магазина «imkosmetik».
Проведена обработка пропущенных значений следующими способами: удаление пропущенных значений признаков являющихся уникальными идентификаторами объектов прогнозирования; заменой средними значениями по соответствующему региону для «Стоимости доставки» и «Периода доставки»; заменой наиболее часто встречающимся значением в регионе для признаков «ID платежной системы» и «ID способа доставки». Обработано 396005 пропущенных значений, по 8 признакам.
Произведена обработка категориальных признаков: «Область», «ID платежной системы» и «ID способа доставки» с помощью dummy-кодирова-ния.
Сформирована обучающая и тестовая выборка. Данные сгруппированы по идентификаторам объекта определенным образом. Все признаки приведены к необходимому типу.
Подготовленные данные были проанализированы. Проведен факторный анализ, выявлены 20 наиболее значимых признаков, которые впоследствии участвовали в построении модели. Проведен корреляционный анализ, для выявления степени взаимосвязи признаков и целевой переменной. В результате корреляционного анализа не было выявлено признаков, которые в значительной степени самостоятельно объясняли бы значения вектора ответов.
Были построены 5 моделей на основе рассмотренных алгоритмов машинного обучения
Проведена оценка качества прогнозирования построенных моделей с помощью метрики ROC AUC и матрицы ошибок. Наилучшее качество показала модель на основе логистической регрессии, с проведением предвари-тельной нормализации признаков. Значение метрики ROC AUC составило - 0,99 и матрица ошибок показала, что модель выдала 8 ошибочных ответов из 215348.
Модель с наилучшим качеством, построенная на 20 наиболее значимых признаках, показала качество ниже, чем модель, построенная на всех признаках, значение метрики ROC AUC снизилось на 1% (с 99% до 98%), количество ложно спрогнозированных ответов увеличилось.



1 Андреас, М. Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными / М. Андреас, Г. Сара. - М.: Изд-во Вильямс, 2017. - 393 с.
2 Вьюгин, В.В. Математические основы теории машинного обучения и прогнозирования / В.В. Вьюгин. - М.: Изд-во МЦНМО, 2013. - 387 с.
3 Вандерплас, Д. Python для сложных задач: наука о данных и машинное обучение / Д. Вандерплас. - СПб.: Изд-во Питер, 2018. - 576 с.
4 Кобзарь, А.И. Прикладная математическая статистика / А.И. Кобзарь. - М.: Изд-во Физматлит, 2006. - 628 с.
5 Флах, П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / П. Флах. - М.: Изд-во ДМК Пресс, 2015. - 400 с.
6 Дерево решений [Электронный ресурс]. - URL: https://ru.wikipedia.o rg/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE%D1%80%D 0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9(дата обращения: 22.05. 2020).
7 Знакомство с машинным обучением [Электронный ресурс]. - URL: https://www.google.ru/about/main/machine-learning-qa/(дата обращения: 20.05.2020).
8 Кривая ошибок [Электронный ресурс]. - URL:
http://www.machinelearning.ru/wiki/index.php?title=ROC-
%D0%BA%D1 %80%D0%B8%D0%B2%D0%B0%D1%8F(дата обращения: 26.05.2020).
9 Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей [Электронный ресурс]. - URL: https://habr.com/ru/company/ods/blog/322534/(дата обращения: 20.05.2020).
10 Открытый курс машинного обучения. Тема 3. Классификация, деревья решений и метод ближайших соседей. Дерево решений [Электронный ресурс]. - URL: https://habr.com/ru/company/ods/blog/322534/#derevo-
resheniy(дата обращения: 22.05.2020).
11 Открытый курс машинного обучения. Тема 4. Линейные модели классификации и регрессии [Электронный ресурс]. - URL: https://habr.Com/ru/company/ods/blog/323890/#2-logisticheskaya-regressiya(дата обращения: 22.05.2020).
12 Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес [Электронный ресурс]. - URL:
https://habr.com/ru/company/ods/blog/324402/(дата обращения: 23.05.2020).
13 Открытый курс машинного обучения. Тема 10. Градиентный бустинг [Электронный ресурс]. - URL:https://habr.com/ru/company/ods/blog/327250/(дата обращения: 23.05.2020).
14 Площадь под ROC-кривой (Area Under The ROC Curve) [Электронный ресурс]. - URL:https://wiki.loginom.ru/articles/auc.html(дата обращения: 26.05.2020).
15 Понятие машинного обучения [Электронный ресурс]. - URL:
http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5 (дата обращения:
20.05.2020).
16 AUC ROC (площадь под кривой ошибок) [Электронный ресурс]. - URL: https://dyakonov.org/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%
D1%89%D0%B0%D0%B4%D1 %8C-%D0%BF%D0%BE%D0%B4-%D0%BA% D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D 0%B 1%D0%BE%D0%BA/(дата обращения: 23.05.2020).
17 Classification: ROC Curve and AUC [Электронный ресурс]. - URL: https://developers.google.com/machine-learning/crash-course/classification/roc-and-auc(дата обращения: 26.05.2020).
18 Data Preparation: полет нормальный - что такое нормализация данных и зачем она нужна [Электронный ресурс]. - URL: https://www.bigdaaschool.ru/bigdata/%D0%BD%D0%BE%D1%80%D0%BC%D0%B0%D0%BB% D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F-feature-transformation- data-preparation.html(дата обращения: 26.05.2020).
19 Random forest [Электронный ресурс]. - URL: https://ru.wikipedia.or g/wiki/Random forest(дата обращения: 22.05.2020).
20 Understanding AUC - ROC Curve [Электронный ресурс]. - URL: https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5(дата обращения: 26.05.2020).


Работу высылаем на протяжении 30 минут после оплаты.




©2026 Cервис помощи студентам в выполнении работ