Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Подготовка данных и выбор модели предсказания удовлетворенности 10
1.1. Исходные данные 10
1.2. Выбор подхода 14
Глава 2. Алгоритм прогнозирования 15
2.1. Программа для парсинга 15
2.2. Построение модели регрессии 16
2.3. Предсказание удовлетворенности 20
2.4. Предсказание удобства поискового сервиса 27
Заключение 33
Список литературы 34
Приложение 35
Миллионы пользователей сети интернет ежедневно взаимодействуют с поисковыми системами. Они подают запросы, следуют по ссылкам со страницы результата поиска, перефразируют и переформулируют свои запросы, а так же выполняют другие различные задания. Эти действия могут служить ценным источником для улучшения поисковых систем.
В настоящее время сервисы онлайн карт становятся популярнее среди пользователей благодаря возможности настроить масштаб и сменить локацию карты при поиске желаемого географического объекта. Таким образом на экран поиска вы-водится дополнительная информация. Однако, поисковые си-стемы выдают результаты на основе текущего масштаба кар-ты, в то время как желаемый объект может находиться за ее пределами. Даже если масштаб карты идентичен у некоторых пользователей, они могут искать различную информацию. В связи с этим поднимается вопросы удовлетворенности поиском и удобства пользования сервисом.
К сожалению, опыт показывает, что пользователи довольно редко высказывают желание дать свой ответ на эти вопросы. Однако, необходимую информацию можно извлечь из логов пользователя в поисковых системах. Благодаря тому, что основные поисковые движки обрабатывают миллионы запросов в день, необходимые данные доступны в изобилии.
В условиях того, что подбор необходимой прогнозирующей функции вручную достаточно трудоемок, затратен и непрактичен, исследование в области машинного обучения находит свое применение в этой области задач.
В данной работе рассмотрены модели предсказания удовлетворенности пользователя и успешности при поиске в онлайн- картах при помощи логистической регрессии.Разработана про-грамма парсинга логов пользователей на языке с++. Были предложены различные факторы на основе логов пользователей и интерфейса карты, был произведен выбор значимых факторов. Произведена оценка качества построенных моделей. Для этих целей создана программа на языке R. В рамках предоставленных данных модель с учетом фактора нажатия в область строки запроса показала наилучший результат для предсказания удовлетворенности пользователя при поиске. Для задачи предсказания удобства пользования сервисом поиска наилучшей стала модель с учетом двух факторов: среднего количества символов в запросе и количества запросов с последующим хотя бы одним нажатием клавиши мыши.
1. Allison P. Heath, Ryen W. White. Defection detection: predicting search engine switching //In Proceedings of the 17th international conference on World Wide Web (WWW ’08). 2008.
2. Ryen W. White, Susan T. Dumais. Characterizing and predicting search engine switching behavior // In Proceedings of the 18th ACM conference on Information and knowledge management (CIKM ’09). 2009.
3. Hiramoto R., Sumiya K. Web information retrieval based on user operation on digital maps // GIS ’06 Proceedings of the 14th annual ACM international symposium on Advances in geographic information systems, 2006 P.99-106
4. Chao-Ying J. Peng, K. L. Lee, Gary M. Ingersoll. An introduction to logistic regression analysis and reporting // EBSCO Publishing. 2002.