Тема: Применение гибридных подходов в разработке рекомендательных систем
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Обзор литературы 6
Глава 1. Коллаборативная фильтрация 7
1.1 Функции оценки качества ранжирования 7
1.2 Матричное разложение 8
1.3 Факторизационные машины 9
1.4 Модель LightFM 11
1.5 Обучение ранжированию 12
Глава 2. Контентная модель 15
2.1 Деревья принятия решений 15
2.2 Градиентный бустинг в задаче рекомендации 18
Глава 3. Гибридная рекомендательная система 22
3.1 Гибридизация 22
3.2 Набор данных 23
3.3 Построение решения задачи рекомендации 24
3.4 Результаты 27
Выводы 29
Заключение 30
Список литературы 31
Приложение 33
📖 Введение
Определение. Рекомендательные системы - одно из приложений машинного обучения, задачей которой является предоставление пользователю рекомендаций относительно товаров, которые могли бы ему понравиться.
Приведем несколько примеров рекомендательных систем из разных областей:
• Видеостриминговые сервисы: Netflix, YouTube.
• Музыкальные сервисы: Spotify, Apple Music.
• Новостные сайты: BuzzFeed.
• Социальные сети: Facebook.
Большинство данных сервисов становятся популярными именно благодаря системам рекомендаций. Например, музыкальный сервис Spotify каждый день предлагает множество персонализированных подборок каждый день.
Наиболее популярными являются следующие 2 класса рекомендательных систем:
• Ориентированные на контент. Такие системы ориентируются на характеристики объектов и профиле пользователя.
• Коллаборативная фильтрация. Данный подход учитывает только оценки пользователей относительно объектов, с которыми пользователь уже провзаимодействовал. Основное предположение состоит в следующем: пользователи, которые одинаково оценивали какие-либо объекты, будут давать похожие оценки другим предметам в будущем.
В коллаборативной фильтрации также различают 2 типа оценок пользователя объекту:
• Явная обратная связь. Пользователь явно сообщает свое мнение относительно объекта, в виде, например, рейтинга. Рейтинги бывают либо бинарными (нравится/не нравится), либо в выраженными в некоторой шкале (например, от одной до пяти звёзд).
• Неявная обратная связь. В данном случае пользователь не сообщает явно свое предпочтение, но при этом система логирует взаимодействие пользователя и объекта. Например, человек может полностью посмотреть фильм несколько раз, но при этом явно не сообщать нравится ли ему данный фильм. И система может считать данное взаимодействие положительным.
Минусами неявной обратной связи можно считать тот факт, что мы можем лишь предполагать об истинных предпочтениях пользователя. С другой стороны, неявных откликов намного больше, так как не требуют ничего от пользователя.
В данной работе будут изучены ранжирующие алгоритмы разных типов и все подходы будут исследованы в рамках данных, предоставленным одним онлайн-кинотеатром в рамках соревнования по машинному обучению [15]. Организаторами соревнования были предоставлены данные по просмотрам, проставлениям рейтингов, добавления в избранное фильмов и сериалов. По данным необходимо построить рекомендательную систему и предсказать 20 наиболее релевантных фильмов для каждого пользователя. Функции оценки качества предсказаний будут рассмотрены ниже. Именно решение данной задачи и программная реализация являются основными аспектами данной работы.
Работа состоит из трех глав. В первой главе рассматривается коллаборативная фильтрация. Также изучается обобщение данного подхода - модель факторизационных машин, и конкретная реализация факторизационной модели LightFM [5]. Также рассматривается техника обучения ранжирования (англ. learning to rank). В качестве функции потерь изучается WARP [6].
Во второй главе рассматривается модель деревьев принятия решений и алгоритм градиентного бустинга над деревьями решений. В качестве функции потерь изучается функция LambdaRank [11].
В третьей главе предлагается архитектура гибридной двухуровневой рекомендательной системы на основе факторизационных машин и градиентного бустинга над деревьями решений. Также приводится подробной описание данной архитектуры, изучается структура данных [15], и приводится результат работы данной системы на действительных данных.
✅ Заключение
Эксперименты показывают, что гибридная двухуровневая модель рекомендации показывает достаточно высокие результаты в сравнении с отдельными моделями. При этом вся гибридная архитектура не является ресурсоёмкой. Все эксперименты проводятся на реальных данных историй взаимодействий пользователей в одном онлайн-кинотеатре.



