Уравнение некоторых методов машинного обучения на примере построения рекомендательных систем-Дипломная работа

Содержание

1. Введение 4
2. Постановка задачи 5
3. Описание данных 5
4. Рекомендация методом логистической регрессии 9
5. Рекомендация методом кластеризации 14
6. Рекомендация с помощью нейронной сети 19
7. Заключение 25
Приложение 1 29
Приложение 2 33
Приложение 3 39

Введение

Задача рекоммендательних систем предсказать желания пользователя и предложить товар, который будет интересен ему.
Свой прогноз система строит на активности клиента: оценки на купленные им продукты, история покупок, схожее поведение с другими пользователями, история поиска в системе и так далее. На основе собранных данных формируется список рекомендаций для клиента, которые будут релевантны для него и смотивируют на покупку или совершение целевого действия, выгодного для бизнеса.
Чем лучше система угадывает желания клиента, тем больше промотируется нужный продукт, выручка значительно увеличивается.
Следовательно, результатом хорошей рекоммендательной системы является:
• повышение лояльности и удовлетворенности клиента;
Персонализированная рекомендация позволяет расположить клиента к компании, потому что он чувствует, что его интересы и желания учитываются.
• увеличение выручки;
Засчет того, что клиенту могут предлагаться товары, которые он сам бы никогда не стал искать.
Применяя рекомендательную систему, бизнес не только увеличивает свой заработок, но и улучшает опыт пользователя от использования продукта. Отсюда следует вывод, что рекомендательные системы нужны в любой сфере от киносервисов до продаж бытовой технки. Именно поэтому задача разработки такой системы с наилучшей точностью рекомендации является важной.
Для ее решения будут исследованы несколько методов машинного обучения, построенных на разных математических моделях, и будет проведено сравнение эффективности исполнения на открытых данных с сайта (1). Все алгоритмы реализованы на языке Python c помощью открытой библиотеки scikit-learn и ее модулей (2), фреймворка PyTorch (3), коды методов представлены в приложениях.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

В работе исследовалась задача построения рекомендательной системы на основе истории действий пользователя.
Изучено три метода машинного обучения: логистическая регрессиия, кластеризация алгоритмом K-means, линейная нейронная сеть — с целью выявить, какой из них покажет наилучшую эффективность рекомендации.
Помимо технической реализации алгоритмов было приведено их теоретическое описание. Были рассмотрены частые пробелемы, возникающие при работе с большими данными, и способы борьбы с ними.
Результативность прогноза оценивалась на одном датасете, состоящим из рейтингов фильмов, проставленных пользователями. С помощью машинного обучения прогнозировались фильмы, которые могут понравиться пользователю, а затем вычислялся процент правильных ответов на тестовой выборке — точность рекомендации.
Регрессия и кластеризация показывают очень хороший результат, а нейронная сеть из-за переобучения может выдавать только два правильных ответа из трех. Такая сеть с двумя скрытыми слоями очень простая, для улучшения результата есть смысл рассматривать более сложные структуры, требующие больше вычислительной мощности, времени обучения и так далее.
Несмотря на то, что у кластеризации точноть ответов выше, отсюда не следует, что этот метод наилучший вариант для рекомендательной системы. В силу особенностей алгоритма K-means добавление новых пользователей приводит либо к полному перезапуску алгоритма и перераспределению кластеров, либо расчету расстояний от нового пользователя ко всем кластерам, чтобы определить, куда его отнести. Оба случая вычислительно затратные.
Таким образом, рекомендательная система методом кластеризации показала наилучший результат, но с точки зрения практического применения разумнее пожертвовать незначительно точностью ответов и остановить выбор на регрессии в рассматриваемой задаче.

Литература

1. MovieLens. — Режим доступа: https://movielens.org (дата обращения: 2022-03-20).
2. Библиотека scikit-learn.—Режим доступа: https://scikit-learn.org/stable/ (дата обращения: 2022-03-20).
3. Модуль PyTorch. — Режим доступа: https://pytorch.org (дата обращения: 2022-03-20).
4. Harper F. Maxwell, A.Konstan. Joseph. The MovieLens datasets: History and context. // ACM Trans. Interact. Intell. Syst. 5. — 2015. — Vol. 4, no. 5.
5. Joint Neural Collaborative Filtering for Recommender Systems / Wanyu Chen, Fei Cai, Honghui Chen, Maarten de Rijke // AACM Trans. Intell. Syst. Tech- nol. — 2019.—Vol. 37, no. 4.
6. Oliveira Samuel E. L., Victor Diniz Anisio Lacerda Luiz Merschmanm, Pappa Gisele L. Is Rank Aggregation Effective in Recommender Systems? An Experimental Analysis // AACM Trans. Intell. Syst. Technol. — 2020. — Vol. 11, no. 2.
7. MovieLens 100K Dataset. — Режим доступа: https://grouplens.org/datasets/ movielens/100k/ (дата обращения: 2022-03-20).
8. Machine Learning With Big Data: Challenges and Approaches / Alexandra L’Heureux, Katarina Grolinger, Hany F. Elyamany, Miriam A. M. Capretz // IEEE ACCESS.-2017.-Vol. 5.-P. 7776-7797.
9. Cramer J.S. The Origins of Logistic Regression // Tinbergen Institute Working Paper. -- 2002.
10. Ratnaparkhi Adwait. A Linear Observed Time Statistical Parser Based on Maximum Entropy Models // Second Conference on Empirical Methods in Natural Language Processing. -- 1997.
11. Lloyd S.P. Least-Squares Quantization In PCM // IEEE Transactions On Information Theory. — 1982. — Vol. 28, no. 2. — P. 129-137.
12. Research issues on K-means Algorithm: An Experimental Trial Using Matlab / Joaquin Ortega, Ma Rocio, Boone Rojas, Maria Garcia // CEUR Workshop Proceedings. - 2009. - 01. -Vol. 534.
13. Kingma Diederik, Ba Jimmy. Adam: A Method for Stochastic Optimization // International Conference on Learning Representations. -- 2014. --12.