Тип работы:
Предмет:
Язык работы:


Оптимизация поисковой выдачи с использованием алгоритмов онлайн-обучения

Работа №131011

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы51
Год сдачи2018
Стоимость5600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
29
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 7
Глава 1. Существующие подходах 13
1.1 Алгоритм «многорукого бандита» 13
1.2 Методы сравнения ранжирований 15
Глава 2. Эволюционный алгоритм оптимизации 22
2.1 Мотивация и предпосылки 22
2.2 Генетический алгоритм и генетические операторы ... 23
Глава 3. Эксперимент 33
3.1 Описание данных 33
3.2 Моделирование пользователя 35
3.3 Оценка качества 37
3.4 Гиперпараметры алгоритмов 38
3.5 Результаты 40
Выводы 44
Заключение 45
Список литературы 47

Онлайн-обучение ранжированию - одна из наиболее развивающихся областей информационного поиска. В первую очередь это связано с обширным использованием различных поисковых систем, таких как Bing, Yahoo, Google и Yandex, которые служат для получения ранжированных наборов документов по некоторому семантическому запросу. Пользователь, ищущий информацию, отправляет запрос в систему, получает отранжированный список результатов поиска и переходит по наиболее подходящим ему ссылкам, исходя из заголовка и краткого содержания документа.
Ранжирующая функция (или функции) - неотъемлемая часть любой поисковой системы, с помощью которой определяется порядок выдачи документов по каждому конкретному запросу. До недавнего времени, большинство таких функций создавалось вручную экспертами в конкретной области поиска. Однако, такой подход, помимо его очевидной дороговизны и смещенности (качество ранжирования целиком и полностью определялось навыками и знаниями экспертной группы), стал неприменим в контексте огромного количества данных, которые на данный момент содержатся в сети Интернет. Объем информации, который необходимо обрабатывать, растет вместе с потребностями пользователей в как можно более удобном и быстром способе осуществлять поиск. Поэтому задача ранжирования поисковой выдачи стала одной из центральных в сфере информационного поиска.
Исходно к данной задаче применялись классические методы машинного обучения, в частности, обучения с учителем, т.е. алгоритмы, которые обучаются на некоторой выборке данных, содержащей сведения об оптимальном ранжировании и релевантности или не-релевантности документа запросу. Подобные выборки составляются экспертными группами, которые вручную размечают пары запрос-документ, что очень дорого и затратно по времени. К тому же, во многих областях, связанных с персонализированным или специализированным поиском получение необходимого объема размеченных данных практически невозможно - оценка релевантности может терять актуальность раньше, чем поисковые системы получают шанс ее использовать.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе рассмотрена проблема улучшения поисковой выдачи с помощью использования методов онлайн-обучения ранжированию. Был рассмотрен основной подход к данной проблеме в контексте современных исследований — метод обучения ранжированию с помощью алгоритма многорукого бандита. Также рассмотрены возможные его модификации, направленные на улучшение качества ранжирования при помощи более качественного сравнения ранжированных списков — методах смешивания и многоуровневого смешивания. В результате обзора существующих алгоритмов предложен новый метод, основанный на семействе методов оптимизации — эволюционных алгоритмах.
Предложенный алгоритм оптимизации поисковой выдачи с помощью генетического алгоритма показал свою эффективность в онлайн-режиме. В целом, гипотеза о том, что смещение в сторону большей степени «исследования» во время оптимизации улучшает онлайн-качество ранжирования, требует дальнейшего изучения и обоснования на более чем одном семействе методов, однако уже сейчас можно видеть, что отход от классического подхода дает существенный прирост в онлайн-качестве.
Кроме того, алгоритм GARank-TDM показывает определенную неустойчивость к шуму в обратной связи (клики пользователей на нерелевантные документы), для устранения которой необходима модификация непосредственно процесса оптимизации либо использование инструментов по очистке обратной связи от такого шума. Такими инструментами, например, могут быть кликовые модели, способные моделировать поведение пользователя в онлайн-режиме [18].
Еще одним важным преимуществом предложенного метода GARank является его независимость от предполагаемой функции релевантности. Это означает, что в ходе дальнейших исследований, если возникнет такая необходимость, алгоритм будет свободно обобщаться на более узкие задачи информационного поиска, например, персонализация поисковой выдачи или узкоспециализированный поиск внутри одной тематики. Это обеспечивается отсутствием необходимости выполнения каких-либо предположений о свойствах оптимизируемой функции при использовании генетического алгоритма.
В итоге, в ходе данной работы был полностью описан и обоснован новый подход к онлайн-обучению ранжированию, решающий поставленную задачу об оптимизации непосредственно поисковой выдачи, предъявляемой пользователю. Данный подход проиллюстрирован численным экспериментом, результаты которого проанализированы в рамках современной методологии проведения экспериментов в области обучения ранжированию, а также приведено полное сравнение с текущим лучшим результатом в данной области.



1. Jarvelin K., Kekalainen J. Cumulated Gain-based Evaluation of IR Techniques // ACM Trans. Inf. Syst. 2002. Vol. 20, no. 4. P. 422-446.
2. Blair D. C. Information Retrieval, 2nd ed. // Journal of the American Society for Information Science. 1979. Vol. 30, no. 6. P. 374-375.
3. Fuhr N. Optimum Polynomial Retrieval Functions Based on the Probability Ranking Principle // ACM Trans. Inf. Syst. 1989. Vol. 7, no. 3. P. 183-204.
4. Ibrahim O. A. S., Landa-Silva D. ES-Rank: Evolution Strategy Learning to Rank Approach // Proceedings of the Symposium on Applied Computing. New York, NY, USA : ACM, 2017. P. 944-950. (SAC ’17).
5. Semenikhin S. V., Denisova L. A. Learning to rank based on modified genetic algorithm // 2016 Dynamics of Systems, Mechanisms and Machines (Dynamics). 2016. P. 1-5.
6. Joachims T. Optimizing Search Engines Using Clickthrough Data // Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Edmonton, Alberta, Canada : ACM, 2002. P. 133-142. (KDD ’02).
7. Radlinski F., Kurup M., Joachims T. How Does Clickthrough Data Reflect Retrieval Quality? // Proceedings of the 17th ACM Conference on Information and Knowledge Management. New York, NY, USA : ACM, 2008. P. 43-52. (CIKM ’08).
8. Yue Y., Joachims T. Interactively Optimizing Information Retrieval Systems As a Dueling Bandits Problem // Proceedings of the 26th Annual International Conference on Machine Learning. New York, NY, USA : ACM, 2009. P. 1201-1208. (ICML ’09).
9. Hofmann K., Whiteson S., Rijke M. de. Balancing exploration and exploitation in listwise and pairwise online learning to rank for information retrieval // Information Retrieval. 2013. Vol. 16, no. 1. P. 63-90.
10. Hofmann K., Whiteson S., Rijke M. de. A Probabilistic Method for Inferring Preferences from Clicks // Proceedings of the 20th ACM International Conference on Information and Knowledge Management. New York, NY, USA : ACM, 2011. P. 249-258. (CIKM ’11).
11. Radlinski F., Craswell N. Optimized Interleaving for Online Retrieval Evaluation // Proceedings of the Sixth ACM International Conference on Web Search and Data Mining. New York, NY, USA : ACM, 2013. P. 245-254. (WSDM ’13).
12. Schuth A., Sietsma F., Whiteson S., Lefortier D., Rijke M. de. Multileaved Comparisons for Fast Online Evaluation // Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management. New York, NY, USA : ACM, 2014. P. 71-80. (CIKM ’14).
13. Schuth A., Bruintjes R.-J., BuUttner F., Doorn J. van, Groenland C., Oosterhuis H., Tran C.-N., Veeling B., Velde J. van der, Wechsler R., Woudenberg D., Rijke M. de. Probabilistic Multileave for Online Retrieval Evaluation // Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA : ACM, 2015. P. 955-958. (SIGIR ’15).
14. Schuth A., Oosterhuis H., Whiteson S., Rijke M. de. Multileave Gradient Descent for Fast Online Learning to Rank // Proceedings of the Ninth ACM International Conference on Web Search and Data Mining. New York, NY, USA : ACM, 2016. P. 457-466. (WSDM ’16).
15. Oosterhuis H., Schuth A., Rijke M. de. Probabilistic Multileave Gradient Descent // Proceedings of ECIR. Springer, 03/20/2016. published.
16. Oosterhuis H., Rijke M. de. Balancing Speed and Quality in Online Learning to Rank for Information Retrieval // Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. New York, NY, USA : ACM, 2017. P. 277-286. (CIKM ’17).
17. Borisov A., Markov I., Rijke M. de, Serdyukov P. A Neural Click Model for Web Search // Proceedings of the 25th International Conference on World Wide Web. Republic, Canton of Geneva, Switzerland : International World Wide Web Conferences Steering Committee, 2016. P. 531-541. (WWW ’16).
18. Guo F., Li L., Faloutsos C. Tailoring Click Models to User Goals // Proceedings of the 2009 Workshop on Web Search Click Data. New York, NY, USA : ACM, 2009. P. 88-92. (WSCD ’09).
19. Chuklin A., Markov I., Rijke M. de. Click Models for Web Search. Morgan & Claypool, 2015.
20. Robertson S., Zaragoza H. The Probabilistic Relevance Framework: BM25 and Beyond // Found. Trends Inf. Retr. 2009. Vol. 3, no. 4. P. 333-389.
21. Kelly D. Methods for Evaluating Interactive Information Retrieval Systems with Users // Found. Trends Inf. Retr. 2009. Vol. 3, 1—, 2. P. 1-224.
22. Schuth A., Hofmann K., Radlinski F. Predicting Search Satisfaction Metrics with Interleaved Comparisons // Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, NY, USA : ACM, 2015. P. 463-472. (SIGIR ’15).
23. Kohavi R., Longbotham R., Sommerheld D., Henne R. M. Controlled Experiments on the Web: Survey and Practical Guide // Data Min. Knowl. Discov. 2009. Vol. 18, no. 1. P. 140-181.
24. Joachims T., Granka L., Pan B., Hembrooke H., Radlinski F., Gay G. Evaluating the Accuracy of Implicit Feedback from Clicks and Query Reformulations in Web Search // ACM Trans. Inf. Syst. 2007. Vol. 25, no. 2.
25. Hofmann K., Whiteson S., Rijke M. D. Fidelity, Soundness, and Efficiency of Interleaved Comparison Methods // ACM Trans. Inf. Syst. 2013. Vol. 31, no. 4. 17:1-17:43.
26. Камалов M. В., Мартынов P. С. Сравнительный анализ алгоритмов онлайн-обучения ранжированию поисковой выдачи // Процессы управления и устойчивости. 2017. т. 4, А5 1. с. 382—388.
27. Chen W., Liu T.-y., Lan Y., Ma Z.-m., Li H. Ranking Measures and Loss Functions in Learning to Rank // Advances in Neural Information Processing Systems 22 / ed. by Y. Bengio, D. Schuurmans, J. D. Lafferty, C. K. I. Williams, A. Culotta. Curran Associates, Inc., 2009.
28. Taylor M., Guiver J., Robertson S., Minka T. SoftRank: Optimizing Non-smooth Rank Metrics // Proceedings of the 2008 International Conference on Web Search and Data Mining. New York, NY, USA : ACM, 2008. P. 77-86. (WSDM ’08).
29. Thede S. M. An Introduction to Genetic Algorithms //J. Comput. Sci. Coll. 2004. Vol. 20, no. 1. P. 115-123.
30. Mitchell M. An Introduction to Genetic Algorithms. Cambridge, MA, USA : MIT Press, 1998.
31. Zhao T., King I. Constructing Reliable Gradient Exploration for Online Learning to Rank // Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. New York, NY, USA : ACM, 2016. P. 1643-1652. (CIKM ’16).
32. Holland J. H. Genetic Algorithms // Scientific American. 1992.
33. Genetic and Evolutionary Computation - GECCO 2003, Genetic and Evolutionary Computation Conference, Chicago, IL, USA, July 12-16, 2003. Proceedings, Part II. Vol. 2724 / ed. by E. CantmPaz, J. A. Foster, K. Deb, L. Davis, R. Roy, U. O’Reilly, H. Beyer, R. K. Standish, G. Kendall, S. W. Wilson, M. Harman, J. Wegener, D. Dasgupta, M. A. Potter, A. C. Schultz, K. A. Dowsland, N. Jonoska, J. F. Miller. Springer, 2003. (Lecture Notes in Computer Science).
34. Introducing LETOR 4.0 Datasets. https://arxiv.org/ftp/arxiv/papers/ 1306/1306.2597.pdf.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ