Тип работы:
Предмет:
Язык работы:


Применение гибридных подходов в разработке рекомендательных систем

Работа №136950

Тип работы

Магистерская диссертация

Предмет

математика

Объем работы40
Год сдачи2019
Стоимость4915 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
37
Не подходит работа?

Узнай цену на написание


Введение 2
Постановка задачи 5
Обзор литературы 6
Глава 1. Коллаборативная фильтрация 7
1.1 Функции оценки качества ранжирования 7
1.2 Матричное разложение 8
1.3 Факторизационные машины 9
1.4 Модель LightFM 11
1.5 Обучение ранжированию 12
Глава 2. Контентная модель 15
2.1 Деревья принятия решений 15
2.2 Градиентный бустинг в задаче рекомендации 18
Глава 3. Гибридная рекомендательная система 22
3.1 Гибридизация 22
3.2 Набор данных 23
3.3 Построение решения задачи рекомендации 24
3.4 Результаты 27
Выводы 29
Заключение 30
Список литературы 31
Приложение 33

На сегодняшний день количество информации и сервисов, предоставлющих её, стремительно растут. И пользователь сталкивается с проблемой выбора релевантной для него информации. Эту задачу и решают рекомендательные системы.
Определение. Рекомендательные системы - одно из приложений машинного обучения, задачей которой является предоставление пользователю рекомендаций относительно товаров, которые могли бы ему понравиться.
Приведем несколько примеров рекомендательных систем из разных областей:
• Видеостриминговые сервисы: Netflix, YouTube.
• Музыкальные сервисы: Spotify, Apple Music.
• Новостные сайты: BuzzFeed.
• Социальные сети: Facebook.
Большинство данных сервисов становятся популярными именно благодаря системам рекомендаций. Например, музыкальный сервис Spotify каждый день предлагает множество персонализированных подборок каждый день.
Наиболее популярными являются следующие 2 класса рекомендательных систем:
• Ориентированные на контент. Такие системы ориентируются на характеристики объектов и профиле пользователя.
• Коллаборативная фильтрация. Данный подход учитывает только оценки пользователей относительно объектов, с которыми пользователь уже провзаимодействовал. Основное предположение состоит в следующем: пользователи, которые одинаково оценивали какие-либо объекты, будут давать похожие оценки другим предметам в будущем.
В коллаборативной фильтрации также различают 2 типа оценок пользователя объекту:
• Явная обратная связь. Пользователь явно сообщает свое мнение относительно объекта, в виде, например, рейтинга. Рейтинги бывают либо бинарными (нравится/не нравится), либо в выраженными в некоторой шкале (например, от одной до пяти звёзд).
• Неявная обратная связь. В данном случае пользователь не сообщает явно свое предпочтение, но при этом система логирует взаимодействие пользователя и объекта. Например, человек может полностью посмотреть фильм несколько раз, но при этом явно не сообщать нравится ли ему данный фильм. И система может считать данное взаимодействие положительным.
Минусами неявной обратной связи можно считать тот факт, что мы можем лишь предполагать об истинных предпочтениях пользователя. С другой стороны, неявных откликов намного больше, так как не требуют ничего от пользователя.
В данной работе будут изучены ранжирующие алгоритмы разных типов и все подходы будут исследованы в рамках данных, предоставленным одним онлайн-кинотеатром в рамках соревнования по машинному обучению [15]. Организаторами соревнования были предоставлены данные по просмотрам, проставлениям рейтингов, добавления в избранное фильмов и сериалов. По данным необходимо построить рекомендательную систему и предсказать 20 наиболее релевантных фильмов для каждого пользователя. Функции оценки качества предсказаний будут рассмотрены ниже. Именно решение данной задачи и программная реализация являются основными аспектами данной работы.
Работа состоит из трех глав. В первой главе рассматривается коллаборативная фильтрация. Также изучается обобщение данного подхода - модель факторизационных машин, и конкретная реализация факторизационной модели LightFM [5]. Также рассматривается техника обучения ранжирования (англ. learning to rank). В качестве функции потерь изучается WARP [6].
Во второй главе рассматривается модель деревьев принятия решений и алгоритм градиентного бустинга над деревьями решений. В качестве функции потерь изучается функция LambdaRank [11].
В третьей главе предлагается архитектура гибридной двухуровневой рекомендательной системы на основе факторизационных машин и градиентного бустинга над деревьями решений. Также приводится подробной описание данной архитектуры, изучается структура данных [15], и приводится результат работы данной системы на действительных данных.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


На сегодняшний день существуют множество различных алгоритмов рекомендаций, которые основываются на разных предположениях и используют различную информацию. Каждый алгоритм имеет свои достоинства и недостатки. В данной работе предпринимаются попытки объединить несколько различных подходов в одну гибридную рекомендательную систему. Данная система использует достоинства моделей коллаборативной фильтрации и контентных моделей.
Эксперименты показывают, что гибридная двухуровневая модель рекомендации показывает достаточно высокие результаты в сравнении с от-дельными моделями. При этом вся гибридная архитектура не является ресурсоёмкой. Все эксперименты проводятся на реальных данных историй взаимодействий пользователей в одном онлайн-кинотеатре.



[1] Robin Burke. Hybrid Web Recommender Systems, pages 377-408. Springer Berlin Heidelberg, Berlin, Heidelberg, 2007.
[2] Koren, Yehuda; Bell, Robert; Volinsky, Chris (August 2009). "Matrix Factorization Techniques for Recommender Systems". Computer. 42 (8): 30-37.
[3] T. Hastie, R. Tibshirani, J. Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition. Springer, 2016. 745 p.
[4] S. Rendle. Factorization machines. In Data Mining (ICDM), 2010 IEEE 10th International Conference on, pages 995-1000. IEEE, 2010.
[5] Maciej Kula. Metadata Embeddings for User and Item Cold-start Recommendations. arXiv preprint arXiv:1507.08439, 2015.
[6] J. Weston, S. Bengio, and N. Usunier. WSABIE: Scaling up to large vocabulary image annotation. In IJCAI, volume 11, pages 2764-2770, 2011
[7] J.H. Friedman. Greedy function approximation: A gradient boosting machine. Technical Report, IMS Reitz Lecture, Stanford, 1999; see also Annals of Statistics, 2001.
[8] K. Guolin, M. Qi, et al. LightGBM: A highly efficient gradient boosting decision tree. In NIPS, pages 3149-3157, 2017.
[9] Q. Wu, C.J.C. Burges, K. Svore and J. Gao. Adapting Boosting for Information Retrieval Measures. Journal of Information Retrieval, 2007.
[10] C.J.C. Burges, T. Shaked, E. Renshaw, A. Lazier, M. Deeds, N. Hamilton and G. Hullender. Learning to Rank using Gradient Descent. Proceedings of the Twenty Second International Conference on Machine Learning, 2005.
[11] Tie-Yan Liu (2009), Learning to Rank for Information Retrieval, Foundations and Trends in Information Retrieval: Vol. 3: No 3, с. 225-331
[12] C. J. Burges. From ranknet to lambdarank to lambdamart: An overview. Learning, 11, pp. 23-581, 2010.
[13] Breitinger, Corinna; Gipp, Bela; Langer, Stefan (2015-07-26). Research-paper recommender systems: a literature survey. International Journal on Digital Libraries. 17 (4): 305-338.
[14] Акулич И. Л. Математическое программирование в примерах и задачах. — М.: Высшая школа, 1986. — С. 298-310.
[15] https://boosters.pro/championship/rekko_challenge/
[16] https://github.com/xaphoon/rekko_challenge


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ