Тема: Оптимизация поисковой выдачи с использованием алгоритмов онлайн-обучения
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Обзор литературы 7
Глава 1. Существующие подходах 13
1.1 Алгоритм «многорукого бандита» 13
1.2 Методы сравнения ранжирований 15
Глава 2. Эволюционный алгоритм оптимизации 22
2.1 Мотивация и предпосылки 22
2.2 Генетический алгоритм и генетические операторы ... 23
Глава 3. Эксперимент 33
3.1 Описание данных 33
3.2 Моделирование пользователя 35
3.3 Оценка качества 37
3.4 Гиперпараметры алгоритмов 38
3.5 Результаты 40
Выводы 44
Заключение 45
Список литературы 47
📖 Введение
Ранжирующая функция (или функции) - неотъемлемая часть любой поисковой системы, с помощью которой определяется порядок выдачи документов по каждому конкретному запросу. До недавнего времени, большинство таких функций создавалось вручную экспертами в конкретной области поиска. Однако, такой подход, помимо его очевидной дороговизны и смещенности (качество ранжирования целиком и полностью определялось навыками и знаниями экспертной группы), стал неприменим в контексте огромного количества данных, которые на данный момент содержатся в сети Интернет. Объем информации, который необходимо обрабатывать, растет вместе с потребностями пользователей в как можно более удобном и быстром способе осуществлять поиск. Поэтому задача ранжирования поисковой выдачи стала одной из центральных в сфере информационного поиска.
Исходно к данной задаче применялись классические методы машинного обучения, в частности, обучения с учителем, т.е. алгоритмы, которые обучаются на некоторой выборке данных, содержащей сведения об оптимальном ранжировании и релевантности или не-релевантности документа запросу. Подобные выборки составляются экспертными группами, которые вручную размечают пары запрос-документ, что очень дорого и затратно по времени. К тому же, во многих областях, связанных с персонализированным или специализированным поиском получение необходимого объема размеченных данных практически невозможно - оценка релевантности может терять актуальность раньше, чем поисковые системы получают шанс ее использовать.
✅ Заключение
Предложенный алгоритм оптимизации поисковой выдачи с помощью генетического алгоритма показал свою эффективность в онлайн-режиме. В целом, гипотеза о том, что смещение в сторону большей степени «исследования» во время оптимизации улучшает онлайн-качество ранжирования, требует дальнейшего изучения и обоснования на более чем одном семействе методов, однако уже сейчас можно видеть, что отход от классического подхода дает существенный прирост в онлайн-качестве.
Кроме того, алгоритм GARank-TDM показывает определенную неустойчивость к шуму в обратной связи (клики пользователей на нерелевантные документы), для устранения которой необходима модификация непосредственно процесса оптимизации либо использование инструментов по очистке обратной связи от такого шума. Такими инструментами, например, могут быть кликовые модели, способные моделировать поведение пользователя в онлайн-режиме [18].
Еще одним важным преимуществом предложенного метода GARank является его независимость от предполагаемой функции релевантности. Это означает, что в ходе дальнейших исследований, если возникнет такая необходимость, алгоритм будет свободно обобщаться на более узкие задачи информационного поиска, например, персонализация поисковой выдачи или узкоспециализированный поиск внутри одной тематики. Это обеспечивается отсутствием необходимости выполнения каких-либо предположений о свойствах оптимизируемой функции при использовании генетического алгоритма.
В итоге, в ходе данной работы был полностью описан и обоснован новый подход к онлайн-обучению ранжированию, решающий поставленную задачу об оптимизации непосредственно поисковой выдачи, предъявляемой пользователю. Данный подход проиллюстрирован численным экспериментом, результаты которого проанализированы в рамках современной методологии проведения экспериментов в области обучения ранжированию, а также приведено полное сравнение с текущим лучшим результатом в данной области.



