1. Введение 4
2. Связанные работы 6
3. Обзор решения 8
4. Входные данные 9
5. Наш подход 12
5.0.1. Фильтрация по времени 12
5.0.2. Фильтрация на основе категорий 13
5.1. Обзор компонентов ранжирования 15
5.1.1. Коллаборативная фильтрация 15
5.1.2. Фильтрация по популярности 16
5.1.3. Фильтрация на основе содежимого (LDA) 17
5.1.4. Фильтрация на основе текущей сессии 18
5.2. Гибридная система 18
6. Оценка качества 19
6.1. Обзор 19
7. Итоги 21
Список литературы 22
Рекомендательная система является важной частью каждого приложения, в котором содержится большое количество контента и действий пользователей. Огромный объем информации приводит к тому, что пользователь не может найти релевантный для себя контент.
Рекомендательные системы используются для рекомендаций фильмов, музыки и книг (7) (9) (8). Рекомендательной системой называется любая система, которая выдает персонализированные рекомендации или направляет пользователя к интересным или полезным объектам в большом пространстве возможных вариантов. Такие системы имеют очевидное преимущество в среде, где объем информации значительно превосходит возможности человека ее исследовать.
Системы рекомендаций теперь являются неотъемлемой частью некоторых сайтов электронной коммерции, таких как Amazon.com и CDNow (12). Критерии «индивидуальности» и «интересности и полезности», отделяют рекомендательную систему от информационно-поисковых систем (1). Семантика поисковой системы - «соответствие»: система должна возвращать все те элементы, которые соответствуют запросу, ранжированные по степени релевантности. Такие методы, как обратная связь по релевантности, позволяют поисковой системе уточнить представление запроса пользователя и представляют собой простую форму рекомендации.
Сфера рекомендаций новостей имеет свою специфику: новости быстро стареют и это нужно учитывать.
Существует три основных типа рекомендаций: на основе памяти, на основе модели и гибридные (10). Методы на основе памяти (6) обычно используют метрики сходства для определения расстояния между двумя пользователями или двумя элементами. Методы, основанные на моделях, используют демографическую, информационную или агрегированную информацию для создания модели, которая генерирует рекомендации. Гибридные методы (3) комбинируют различные типы рекомендателей для повышения качества рекомендаций.
Общие подходы, такие как коллаборативная фильтрация, имеют свои проблемы: холодный старт, масштабируемость и разреженность данных. Контентные подходы страдают от того факта, что мы должны каким-то образом представлять рекомендуемый элемент в пространстве признаков.
В этой статье описана гибридная рекомендательная система.
Для единообразия в ходе работы мы перечисляем некоторые термины с их значениями:
• Рейтинг: скалярное значение, отражающее степень релевантности
• явный (напрямую от пользователя, например, фильм с рейтингом пользователей)
• неявный (выводится из активности пользователя, например, пользователь перестал смотреть фильм через 5 минут)
• Прогноз: оценка рейтинга
• Рекомендация: выбранные ранжированные элементы для пользователя
• Содержимое: атрибуты, текст и т. д .; все о рекомендуемом предмете
Остальная часть диплома организована следующим образом:
• 2 описывает связанные работы
• 3 содержит обзор нашего подхода
• 4 описывает входные данные
• 5 объясняет наш подход
• 6 предоставляет тесты и эксперименты, подтверждающие результаты нашей системы
• 7 представляет выводы.
Система рекомендаций получила широкое распространение в разных сферах. Коллаборативная фильтрация фокусируется на рейтинге, игнорируя особенности самих элементов. Чтобы лучше оценивать предпочтения клиентов в отношении новостей, мы используем модель LDA для рассчёта предпочтения клиентов по новостным темам.
Чтобы прогнозировать рейтинг по новостям, мы принимаем во внимание схожесть клиентов и корреляцию между покупателями и новостями. Эксперимент показывает, что наш гибридный метод рекомендаций, основанный на характеристиках, лучше работает в нашем приложении для социальных сетей.
Мы предлагаем новый гибридный метод рекомендаций, основанный на функциях повышения качества выдачи.
Результаты показывают, что сочетание разных подходов приводит к увеличению вовлеченности пользователей. До внедрения рекомендательной системы пользователь тратил на вкладку новостей около 2 минут. Теперь, когда мы применили гибридную рекомендательную систему, пользователи проводят на вкладке новостей в среднем 5 минут.