Тема: Анализ кликовых моделей для повышения качества ранжирования результатов поисковой выдачи
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 6
Обзор литературы 7
Оценка качества информационного поиска онлайн 9
Оценка качества информационного поиска оффлайн 11
Базовые кликовые модели 14
Оценка параметров кликовой модели 19
Оценка качества модели 22
Кластеризация пользователей 24
Используемые данные 26
Практические результаты 28
Заключение 33
Список литературы 34
📖 Введение
Поисковым системам необходимо учитывать то, как пользователь воспринимает качество результатов поисковой выдачи. В [1] показано, что пользователи, как правило, предпочитают первый документ на странице результатов поисковой системы последнему, что помогает ранжировать документы наиболее выгодным для пользователей образом. Существуют метрики, основанные на поисковых логах. Обратная связь от пользователей, в том числе в виде кликов, позволяет учитывать предпочтения пользователей. Клики пользователей на результаты веб-поиска являются очень важной информацией для поисковиков. Клики могут дать представление о том, какие результаты заинтересовали пользователя, а какие - нет. Поисковые системы используют данную информацию для того, чтобы оценивать и улучшать качество поиска. Чтобы понять и описать поведение пользователей, были предложены так называемые кликовые модели. Обученная кликовая модель помогает лучше понять, как именно пользователи кликают на ссылки, представленные в результатах поискового запроса, позволяет предсказать клики и т.д.
В алгоритмах машинного обучения ранжированию все чаще используют кликовые модели для определения релевантности документа. Здесь также очень важно качество обученной кликовой модели, т.к. чем точнее модель предсказывает клики, тем правильнее будет определена релевантность документа, что напрямую влияет на результаты работы алгоритма ранжирования.
На первый взгляд идея ранжирования на основе кликовых логов кажется достаточно простой. Чем выше CTR (click-through rate - коэффициент кликабельности) документа, тем выше нужно располагать его на странице поисковой выдачи. Однако клик на документ или его отсутствие не всегда означает релевантность:
1. Документы, расположенные первыми на странице результатов поисковой выдачи кликаются чаще.
2. Поисковые запросы могут быть достаточно многозначными и возникают ситуации, когда один и тот же документ будет релевантным для одного пользователя и нерелевантным для другого.
3. Необходимо также учитывать, что в поисковой сессии может быть несколько запросов. Так, информация, хранящаяся в документе, может быть уже известна пользователю из прошлых запросов.
4. Пользователь принимает решение о клике на основе информации, описанной в сниппете (snippet - описание документа на странице результатов поисковой выдачи). Даже если документ содержит необходимую пользователю информацию, но она никак не отражена в сниппете, скорее всего клика на документ не произойдет. И наоборот, пользователь может заинтересоваться сниппетом и кликнуть на документ, но нужной информации там не найти.
В связи с этим постоянно разрабатывается множество новых алгоритмов ранжирования. Кликовые модели также широко используются в экспериментах при их внедрении. Чем выше качество обученной модели, тем более точно она предсказывает клики, и соответственно, более точными становятся результаты экспериментов.
✅ Заключение
1. Из кликовых логов для каждого пользователя найдены среднее количество кликов в сессию, среднее время между запросами и среднее время между кликами в пределах сессии.
2. Построен граф пользователей, в котором пользователи соединяются ребром, если они кликают на один и тот же документ.
3. Из графа пользователей найдены центральность по близости, по посредничеству и центральность собственного вектора.
4. На основе найденных признаков проведена кластеризация пользователей.
5. На полученных кластерах и на всех пользователях сразу обучено шесть кликовых моделей: RCM, RCTR, DCTR, CM, DCM, SDBN.
6. Вычислены метрики качества кликовых моделей (логарифм правдоподобия, перплексия, условная перплексия) для каждого случая.
Результаты показали, что на группах пользователей значение рассматриваемых метрик лучше, чем на всех пользователях сразу. Таким образом, точность предсказания кликов стала выше, предположение оказалось верным.





