Тип работы:
Предмет:
Язык работы:


Сравнение некоторых методов машинного обучения на примере построения рекомендательных систем

Работа №127772

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы49
Год сдачи2022
Стоимость4335 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
13
Не подходит работа?

Узнай цену на написание


Введение 4
2. Постановка задачи 5
3. Описание данных 5
4. Рекомендация методом логистической регрессии 9
5. Рекомендация методом кластеризации 14
6. Рекомендация с помощью нейронной сети 19
7. Заключение 25
Приложение 1 29
Приложение 2 33
Приложение 3 39

Задача рекомендательных систем предсказать желания пользователя и предложить товар, который будет интересен ему.
Свой прогноз система строит на активности клиента: оценки на купленные им продукты, история покупок, схожее поведение с другими пользователями, история поиска в системе и так далее. На основе собранных данных формируется список рекомендаций для клиента, которые будут релевантны для него и смотивируют на покупку или совершение целевого действия, выгодного для бизнеса.
Чем лучше система угадывает желания клиента, тем больше промотируется нужный продукт, выручка значительно увеличивается.
Следовательно, результатом хорошей рекомендательной системы является:
• повышение лояльности и удовлетворенности клиента;
Персонализированная рекомендация позволяет расположить клиента к компании, потому что он чувствует, что его интересы и желания учитываются.
• увеличение выручки;
За счет того, что клиенту могут предлагаться товары, которые он сам бы никогда не стал искать.
Применяя рекомендательную систему, бизнес не только увеличивает свой заработок, но и улучшает опыт пользователя от использования продукта. Отсюда следует вывод, что рекомендательные системы нужны в любой сфере от киносервисов до продаж бытовой техники. Именно поэтому задача разработки такой системы с наилучшей точностью рекомендации является важной.
Для ее решения будут исследованы несколько методов машинного обучения, построенных на разных математических моделях, и будет проведено сравнение эффективности исполнения на открытых данных с сайта (1). Все алгоритмы реализованы на языке Python c помощью открытой библиотеки scikit-learn и ее модулей (2), фреймворка PyTorch (3), коды методов представлены в приложениях.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В работе исследовалась задача построения рекомендательной системы на основе истории действий пользователя.
Изучено три метода машинного обучения: логистическая регрессия, кластеризация алгоритмом K-means, линейная нейронная сеть — с целью выявить, какой из них покажет наилучшую эффективность рекомендации.
Помимо технической реализации алгоритмов было приведено их теоретическое описание. Были рассмотрены частые проблемы, возникающие при работе с большими данными, и способы борьбы с ними.
Результативность прогноза оценивалась на одном датасете, состоящим из рейтингов фильмов, проставленных пользователями. С помощью машинного обучения прогнозировались фильмы, которые могут понравиться пользователю, а затем вычислялся процент правильных ответов на тестовой выборке — точность рекомендации.
Метод Точность рекомендации
Логистическая регрессия 85%
Кластеризация 90%
Нейронная сеть 67%
Таблица 4. Результаты работы алгоритмов

Регрессия и кластеризация показывают очень хороший результат, а нейронная сеть из-за переобучения может выдавать только два правильных ответа из трех. Такая сеть с двумя скрытыми слоями очень простая, для улучшения результата есть смысл рассматривать более сложные структуры, требующие больше вычислительной мощности, времени обучения и так далее.
Несмотря на то, что у кластеризации точность ответов выше, отсюда не следует, что этот метод наилучший вариант для рекомендательной системы. В силу особенностей алгоритма K-means добавление новых пользователей приводит либо к полному перезапуску алгоритма и перераспределению кластеров, либо расчету расстояний от нового пользователя ко всем кластерам, чтобы определить, куда его отнести. Оба случая вычислительно затратные.
Таким образом, рекомендательная система методом кластеризации показала наилучший результат, но с точки зрения практического применения разумнее пожертвовать незначительно точностью ответов и остановить выбор на регрессии в рассматриваемой задаче.



1. MovieLens. — Режим доступа:https://movielens.org (дата обращения: 2022-03-20).
2. Библиотека scikit-learn.—Режим доступа:https://scikit-learn.org/stable/(дата обращения: 2022-03-20).
3. Модуль PyTorch. — Режим доступа:https://pytorch.org (дата обращения: 2022-03-20).
4. Harper F. Maxwell, A.Konstan. Joseph. The MovieLens datasets: History and con¬text. // ACM Trans. Interact. Intell. Syst. 5. — 2015. — Vol. 4, no. 5.
5. Joint Neural Collaborative Filtering for Recommender Systems / Wanyu Chen, Fei Cai, Honghui Chen, Maarten de Rijke // AACM Trans. Intell. Syst. Tech- nol. — 2019.—Vol. 37, no. 4.
6. Oliveira Samuel E. L., Victor Diniz Anisio Lacerda Luiz Merschmanm, Pappa Gisele L. Is Rank Aggregation Effective in Recommender Systems? An Ex¬perimental Analysis // AACM Trans. Intell. Syst. Technol. — 2020. — Vol. 11, no. 2.
7. MovieLens 100K Dataset. — Режим доступа:https://grouplens.org/datasets/movielens/100k/ (дата обращения: 2022-03-20).
8. Machine Learning With Big Data: Challenges and Approaches / Alexan¬dra L’Heureux, Katarina Grolinger, Hany F. Elyamany, Miriam A. M. Capretz // IEEE ACCESS.-2017.-Vol. 5.-P. 7776-7797.
9. Cramer J.S. The Origins of Logistic Regression // Tinbergen Institute Working Pa¬per. -- 2002.
10. Ratnaparkhi Adwait. A Linear Observed Time Statistical Parser Based on Maximum Entropy Models // Second Conference on Empirical Methods in Natural Language Processing. -- 1997.
11. Lloyd S.P. Least-Squares Quantization In PCM // IEEE Transactions On Informa¬tion Theory. — 1982. — Vol. 28, no. 2. — P. 129-137.
12. Research issues on K-means Algorithm: An Experimental Trial Using Matlab / Joaquin Ortega, Ma Rocio, Boone Rojas, Maria Garcia // CEUR Workshop Pro¬ceedings. - 2009. - 01. -Vol. 534.
13. Kingma Diederik, Ba Jimmy. Adam: A Method for Stochastic Optimization // International Conference on Learning Representations. -- 2014. --12.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ