Введение 3
Глава 1. Обзор подходов к обучению ранжированию и доступные данные...5
1.1 Машинное обучение 5
1.2 Машинное обучение ранжированию 6
1.3 Подходы к машинному обучению ранжированию 8
1.3.1 Точечный подход 8
1.3.2 Попарный подход 10
1.3.3 Списочный подход 10
1.4 Существующие проблемы с данными о кликах 12
1.5 Доступные данные от Яндекса 14
1.6 Вывод к главе 1 16
Глава 2. Разработка алгоритма ранжирования 18
2.1 Модель RankingSVM 18
2.2 Использованный инструментарий 22
2.3 Инфраструктура для обработки логов 25
2.4 Архитектура программного комплекса 27
2.5 Набор признаков с естественным физическим смыслом 28
2.6 Вывод к главе 2 34
Глава 3. Экспериментальная часть 35
3.1 Инструмент SVM-Rank 35
3.2 Оптимизация модели 36
3.3 Оценка качества ранжирования 37
3.4 Результат работы алгоритма на данных Яндекса 38
Заключение 39
Список литературы 40
Внутренний поиск на сайте - важная часть интернет магазина, которая помогает организовать удобную и эффективную навигацию по каталогу, от которой в большой степени зависит конверсия на сайте. Современные сайты не всегда удовлетворяют информационные потребности пользователей. Традиционные поисковые модели, на основе статистики ключевых слов из запроса недостаточно эффективны для оценки релевантности, так как не учитывают опыт взаимодействия пользователя с поисковой выдачей. Большинство существующих алгоритмов ранжирования являются коммерческой тайной. Одним из наиболее интенсивно развивающихся направлений исследований методов поиска документов по запросу является улучшение качества поиска на основе информации о поведении пользователей поисковой системы. В данной дипломной работе будут исследованы подходы на основе машинного обучению ранжированию и их применение с учетом характеристик, полученных из логов поисковых запросов и взаимодействий(кликов) пользователей с результатами поиска.
Цель работы : Разработать алгоритм ранжирования на основе пользовательских кликах.
Поставленные задачи:
1. Выявление существенных признаков, влияющих на качество ранжирования.
2. Сформировать функцию ранжирования, которая на основе выявленных признаках упорядочивает документы по степени соответствия документа запросу.
3. Тестирование функции на данных Яндекса.
Работа состоит из трех глав.
В первой главе рассматриваются теоретические аспекты вопроса использования машинного обучения в задаче ранжирования, доступные данные для обучения и существующие проблемы с этими данными.
Вторая глава посвящена описанию разработанных признаков и инструментарию, с помощью которого данные признаки вычисляются в кластере.
В третьей главе приведены результаты работы алгоритма на предоставленных Яндексом данных.
В данной работе исследованы подходы к машинному обучению ранжированию, разработан новый алгоритм ранжирования документов по запросу на основе данных о кликах пользователей. Особенностью представленного подхода является формирование эффективных признаков ранжирования с естественным физическим смыслом - все разработанные признаки базируются на четко сформулированной гипотезе о связи действий пользователя и релевантности документа.
В экспериментах на реальных данных поведения пользователей в интернет- поисковой системе алгоритм показал высокое качество ранжирования. Алгоритм основан на относительно небольшом числе признаков ранжирования (22 признака) и является довольно простым для реализации. Алгоритм позволяет параллельно обрабатывать логи, что является очень важным с учетом тенденции роста данных о действиях пользователей. Планируется продолжить данное исследование и применить разработанный алгоритм, набор признаков и методику формирования признаков для решения других задач, связанных с анализом поведения пользователя по логам действий.
1. Thorsten Joachims, Laura Granka, Bing Pan, Helene Hembrooke & Geri Gay. Accurately Interpreting Clickthrough Data as Implicit Feedback
URL:https://www.cs.cornell.edu/people/tj/publicatipns/joachims etal 05a.pdf[Электронный ресурс] (Дата обращения: 21.04.2016)
2. Thorsten Joachims. Optimizing Search Engines using Clickthrough Data. URL:https://www.cs.cornell.edu/people/tj/publications/joachims 02c.pdf[Электронный ресурс] (Дата обращения: 25.04.2016)
3. Eugene Agichtein, Eric Brill, Susan Dumais. Improving Web Search Ranking by Incorporating User Behavior Information.
URL:http://www.mathcs.emory.edu/~eugene/papers/sigir2006ranking.pdf[Электронный ресурс] (Дата обращения: 27.04.2016)
4. Fabian L. Wauthier, Michael I. Jordan. Efficient Ranking from Pairwise Comparisons
URL:http: //www.jmlr.org/proceedings/papers/v28/wauthier 13. pdf[Электронный ресурс] (Дата обращения: 27.04.2016)
5. Tie-Yan Liu. Learning to Rank for Information Retrieval / Paperback, 2011. - 304с.
6. Christopher D. Manning, Prabhakar Raghavan, H. Schutze. Introduction to Information Retrieval / Cambridge University Press, 2009. - 496с.
7. Марманис Х., Бабенко Д. Алгоритмы интеллектуального интернета. Передовые методики сбора, анализа и обработки данных. / СПб.: Символ- плюс, 2011. - 480с.
8. Mike Frampton. Mastering Apache Spark. / Paperback, 2015. - 318c.
9. Ethem Alpaydin. Introduction to Machine Learning. / Cambridge University Press, 2014. - 584c.
10. Sunila Gollapudi. Practical Machine Learning. / Paperback, 2016. - 486c.
11. Гулин А., Карпович П., Расковалов Д., Сегалович И. Оптимизация алгоритмов ранжирования методами машинного обучения. Тр. Росс. сем. по оценке методов информационного поиска. / СПб.: НУ ЦСИ, 2009. - 168c.
12. Николенко С.И., Фишков А.А. Обзор моделей поведения пользователей для задачи ранжирования результатов поиска // Тр. Оанкт-Петербургского ин-та информатики и автоматизации / РАН. Вып. 22. СПб.: СПИИРАН, 2012. - 139-175c.
13.. Cao H., Jiang D., Pei J., He Q., Liao Z., Chen E., Li H. Context-aware query suggestion by mining click-through and session data // Proc. of the 14th ACM SIGKDD Int. Conf, on Knowledge Discovery and Data Mining (KDD). New York: ACM, 2008. -875-883c.
14.Craswell N., Zoeter O., Taylor M., Ramsey B. An experimental comparison of click position-bias models // Proc. of the Int. Conf, on Web Search and Web Data Mining (WSDM). New York: ACM, 2008. -87-94c.
15.. Guo Q., Agichtein E. Ready to buy or just browsing?: detecting web searcher goals from interaction data // Proc. of the 33rd Int. ACM SIGIR Conf, on Research and Development in Information Retrieval (SIGIR). New York: ACM, 2010. -130-137c.
16.Salton G., Buckley C. Term-weighting approaches in automatic text retrieval // J. Inf. Processing and Management. 1988 24, N 5. -513-523c.
17. Taylor M., Guiver J., Robertson S., Minka T. SoftRank: optimizing non-smooth rank metrics // Proc. of Int. Conf. on Web Search and Web Data Mining (WSDM). New York: ACM, 2008. -77-86c.
18. Xu J., Liu T.-Y., Lu M., Li H., Ma W.-Y. Directly optimizing evaluation measures in learning to rank // Proc. of the 31st Int. ACM SIGIR Conf. on Research and Development in Information Retrieval (SIGIR). New York: ACM, 2008. -107-114c.
19. Dupret G., Piwowarski B. A user browsing model to predict search engine click data from past observations // Proc. of the 31st Int. ACM SIGIR Conf. on Research and Development in Information Retrieval (SIGIR). New York: ACM, 2008. -331-338c.
20. Armstrong T., Moffat A., Webber W., Zobel J. Improvements that don’t add up: ad-hoc retrieval results since 1998 // Proc. of the 18th Int. ACM Conf. on Information and Knowledge Management (CIKM). New York: ACM, 2009. - 601- 610c.
21. J. Goldberg, M. Stimson, M. Lewenstein, M. Scott, and A. Wichansky. Eye-tracking in web search tasks: design implications. In Proceedings of the Eye tracking Research and Applications Symposium (ETRA), 2002. -51-58c.