Введение 3
Постановка задачи 6
Обзор литературы 7
Оценка качества информационного поиска онлайн 9
Оценка качества информационного поиска оффлайн 11
Базовые кликовые модели 14
Оценка параметров кликовой модели 19
Оценка качества модели 22
Кластеризация пользователей 24
Используемые данные 26
Практические результаты 28
Заключение 33
Список литературы 34
Учитывая стремительный рост популярности веб-поиска в последние годы, все больше внимания среди информационно-поискового сообщества привлекает задача моделирования поведения пользователей поисковых систем. Развитие таких моделей способствует лучшему пониманию поведения пользователя, что в конечном счете помогает сделать процесс поиска необходимой пользователю информации более эффективным. Модели поведения пользователей могут быть также использованы в качестве элемента системы оценивания «ненаблюдаемых элементов», таких как релевантность документов в поисковой выдаче, способствуя улучшению ранжирования результатов поиска. При этом зачастую проведение экспериментов с реальными пользователями труднореализуемо. Так, например, некоторые исследователи имеют ограниченные возможности взаимодействия с пользователями из-за секретности или коммерческих ограничений. Даже компании, имеющие доступ к миллионам пользователей, не могут позволить себе постоянно проводить эксперименты с их привлечением. На этапе разработки им приходится использовать модели, имитирующие поведение пользователя. Поэтому имитационное моделирование пользователей играет существенную роль в понимании последствий внедрения тех или иных алгоритмов для улучшения качества поиска или представления результатов поисковой выдачи.
Поисковым системам необходимо учитывать то, как пользователь воспринимает качество результатов поисковой выдачи. В [1] показано, что пользователи, как правило, предпочитают первый документ на странице результатов поисковой системы последнему, что помогает ранжировать документы наиболее выгодным для пользователей образом. Существуют метрики, основанные на поисковых логах. Обратная связь от пользователей, в том числе в виде кликов, позволяет учитывать предпочтения пользователей. Клики пользователей на результаты веб-поиска являются очень важной информацией для поисковиков. Клики могут дать представление о том, какие результаты заинтересовали пользователя, а какие - нет. Поисковые системы используют данную информацию для того, чтобы оценивать и улучшать качество поиска. Чтобы понять и описать поведение пользователей, были предложены так называемые кликовые модели. Обученная кликовая модель помогает лучше понять, как именно пользователи кликают на ссылки, представленные в результатах поискового запроса, позволяет предсказать клики и т.д.
В алгоритмах машинного обучения ранжированию все чаще используют кликовые модели для определения релевантности документа. Здесь также очень важно качество обученной кликовой модели, т.к. чем точнее модель предсказывает клики, тем правильнее будет определена релевантность документа, что напрямую влияет на результаты работы алгоритма ранжирования.
На первый взгляд идея ранжирования на основе кликовых логов кажется достаточно простой. Чем выше CTR (click-through rate - коэффициент кликабельности) документа, тем выше нужно располагать его на странице поисковой выдачи. Однако клик на документ или его отсутствие не всегда означает релевантность:
1. Документы, расположенные первыми на странице результатов поисковой выдачи кликаются чаще.
2. Поисковые запросы могут быть достаточно многозначными и возникают ситуации, когда один и тот же документ будет релевантным для одного пользователя и нерелевантным для другого.
3. Необходимо также учитывать, что в поисковой сессии может быть несколько запросов. Так, информация, хранящаяся в документе, может быть уже известна пользователю из прошлых запросов.
4. Пользователь принимает решение о клике на основе информации, описанной в сниппете (snippet - описание документа на странице результатов поисковой выдачи). Даже если документ содержит необходимую пользователю информацию, но она никак не отражена в сниппете, скорее всего клика на документ не произойдет. И наоборот, пользователь может заинтересоваться сниппетом и кликнуть на документ, но нужной информации там не найти.
В связи с этим постоянно разрабатывается множество новых алгоритмов ранжирования. Кликовые модели также широко используются в экспериментах при их внедрении. Чем выше качество обученной модели, тем более точно она предсказывает клики, и соответственно, более точными становятся результаты экспериментов.
Сделано предположение, что использование нескольких кликовых моделей, обученных на кластерах пользователей, вместо одной, обученной на всех пользователях сразу, повышает точность предсказания кликов. Для подтверждения данного предположения:
1. Из кликовых логов для каждого пользователя найдены среднее количество кликов в сессию, среднее время между запросами и среднее время между кликами в пределах сессии.
2. Построен граф пользователей, в котором пользователи соединяются ребром, если они кликают на один и тот же документ.
3. Из графа пользователей найдены центральность по близости, по посредничеству и центральность собственного вектора.
4. На основе найденных признаков проведена кластеризация пользователей.
5. На полученных кластерах и на всех пользователях сразу обучено шесть кликовых моделей: RCM, RCTR, DCTR, CM, DCM, SDBN.
6. Вычислены метрики качества кликовых моделей (логарифм правдоподобия, перплексия, условная перплексия) для каждого случая.
Результаты показали, что на группах пользователей значение рассматриваемых метрик лучше, чем на всех пользователях сразу. Таким образом, точность предсказания кликов стала выше, предположение оказалось верным.