Тип работы:
Предмет:
Язык работы:


Персональное ранжирование новостной ленты в социальных сетях

Работа №132635

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы27
Год сдачи2017
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
30
Не подходит работа?

Узнай цену на написание


Введение 4
1. Постановка задачи 5
2. Обзор 6
2.1. Алрогитмы ранжирования 6
2.2. Сравнение наиболее интересных подходов 7
2.3. Метрики 9
2.4. Определение релевантности контента 10
3. Архитектура 12
3.1. Модуль, обрабатывающий данные 12
3.2. Ранжирующий модуль 12
3.3. Модуль, оценивающий точность модели 13
4. Обработка данных 14
4.1. Исходные данные 14
4.2. Признаки релевантности контента 14
4.3. Оценка реакции пользователя на контент 16
4.4. Группировка данных 17
5. Реализация модели 18
5.1. Выбор оптимальной комбинации моделей 18
5.2. Построение модели 22
5.3. Особенности реализации 23
5.4. Использованные технологии 23
6. Апробация 24
6.1. Сравнение результатов моделей 24
6.2. Разбиение пользователей 24
Заключение 25
6.3. Результаты 25
6.4. Выводы 25
6.5. Дальнейшее развитие 25
Список литературы 27

Интернет стремительно растет и развивается, и с каждым днем в нем появляет­ся все больше информации. Но не вся информация интересна всем пользователям, в связи с этим одной из важнейших задач IR в настоящее время является предостав­ление пользователю персонализованного контента. Персонализация - обязательный элемент любой современной интернет-площадки, поскольку предоставляет пользова­телю возможность потреблять наиболее интересный контент, быстро находить нуж­ную информацию по запросу, приобретать наиболее подходящие товары.
Социальные сети в настоящее время являются основной платформой для обще­ния и получения информации. В новостной ленте среднего пользователя социальной сети в день появляется 2000 записей, все из которых он физически не может прочи­тать. Задача любой социальной сети состоит в том, чтобы пользователь получал более интересный для него контент среди огромного количества записей и информацион­ного шума. Для решения этой задачи предлагается ранжировать записи новостной ленты пользователя в порядке релевантности. С внедрением подобной технологии в социальную сеть увеличивается время, проведенное пользователем в социальной се­ти, его удовлетворенность, вероятность что он вернется на ресурс снова. Таким же образом можно ранжировать контекстную рекламу, показываемую пользователю, с целью сделать ее более релевантной и менее раздражающей.
Многие задачи в области Information Retrieval по своей природе являются задача­ми ранжирования, так как именно оно лежит в основе рекомендаций и персонализа­ции. Одна из наиболее интересных в настоящее время задач в области ранжирования заключается в том, чтобы, используя некоторые тренировочные данные, построить ранжирующую модель машинного обучения так, чтобы модель могла отсортировать новые данные по их релевантности. Подобная задача и будет рассматриваться в ра­боте.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


6.3. Результаты
В ходе работы были достигнуты следующие результаты.
1. Проведен анализ существующих решений в области ранжирования документов, выделены наиболее перспективные и представляющие наибольший интерес алгорит­мы.
2. Разработана модульная архитектура ранжирующей системы.
3. Проведена обработка пользовательских данных, включающая в себя выделе­ние признаков для тренировки ранжирующей модели, группировку данных и оценку реакции пользователя.
4. Реализована комбинированная ранжирующая модель на основе алгоритмов RankSVM и ListNet.
5. Проведена апробация реализованной системы, в ходе которой была достигну­та точность NDCG@50 0,7204, что превышает точность остальных рассмотренных в работе моделей.
6.4. Выводы
Из результатов работы можно сделать следующие выводы.
1. Алгоритмы, исполь­зуемые для ранжирования документов, могут использоваться для построения персо- нализованной новостной ленты пользователя социальной сети.
2. Для большинства умеренно активных пользователей персональная модель ра­ботает лучше, в то же время она не может уловить зависимости для малоактивных и гиперактивных пользователей.
3. Комбинация общей модели RankSVM и персональной модели ListNet решает поставленную задачу лучше, чем остальные рассмотренные в работе подходы.
6.5. Дальнейшее развитие
Один из возможных способов улучшения модели - кластеризация пользователей по интересам и по способу взаимодействия с контентом и построение отдельных моделей для получившихся групп пользователей.
В рамках данной работы не были решены задачи настройки временных пара­метров и параметров соотношения постов от групп и от пользователей. Сложность состоит в том, что на настоящее время подобная настройка производится при по­мощи длительных A/B тестов с проверкой таких показателей как количество ежедневно/ежемесячно заходящих пользователей, время, проведенное пользователями на сайте, среднее количество заходов в день, а техники оптимизации по историческим данным нет. Провести же A/B тестирование возможности не было.
Также было бы интересно применить техники NLP и распознавания изображений/видео для выделения семантики записей при наличии данных о содержимом поста.


[1] Burges Christopher J.C. From RankNet to LambdaRank to LambdaMART: An Overview. — 2010.
[2] Fen Xia Tie-Yan Liu Jue Wang Wensheng Zhang Hang Li. Listwise Approach to Learning to Rank - Theory and Algoritm. — 2008.
[3] Kaggle. Mean Average Precision.— URL: https://www.kaggle.com/wiki/ MeanAveragePrecision.
[4] Kaggle. Normalized Discounted Cumulative Gain.— URL: https://www.kaggle. com/wiki/NormalizedDiscountedCumulativeGain.
[5] Project The Lemur. RankLib.— URL: https://sourceforge.net/p/lemur/wiki/ RankLib/.
[6] R. Herbrich K. Obermayer, Graepel T. “Large margin rank boundaries for ordinal regression,” in Advances in Large Margin Classifiers, pp. 115-132. — 2000.
[7] Wikipedia. Chain rule. — URL: https://en.wikipedia.org/wiki/Chain_rule.
[8] Wikipedia. Hinge loss.— URL: https://en.wikipedia.org/wiki/Hinge_loss.
[9] Wikipedia. Kullback-Leibler divergence. — URL: https://en.wikipedia.org/wiki/ Kullback-Leibler_divergence.
[10] Zhe Cao Tao Qin Tie-Yan Liu Ming-Feng Tsai Hang Li. Learning to Rank: From Pairwise Approach to Listwise Approach. — 2007.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ