Введение 3
Постановка задачи 5
Обзор литературы 7
Глава 1. Вероятностная модели 8
1.1 Анализ структуры данных 8
1.2 Конечные цепи Маркова 9
1.3 Экспоненциальное сглаживание 11
1.4 Контекстный прогноз 13
1.5 Скрытые Марсковские цепи 14
1.6 Программная реализация 19
1.7 Результаты вычислений 20
Глава 2. Нейронные сети 22
2.1 Персептронная нейронная сеть 22
2.2 Метод обратного распространения ошибки 23
2.3 Решение задачи рекомендации тега с помощью нейронной сети 25
Глава 3. Ассоциативные правила 27
3.1 Формализация задачи 27
3.2 Алгоритм Apriori 28
3.3 Решение задачи рекомендаци тегов с помощью ассоциативных правил 30
Заключение 31
Список литературы 32
Приложение 33
На сегодняшний день великое множество сервисов (например, предоставляющие некоторые продукты: фильмы, музыку и т.п.) заинтересованы в том, чтобы помочь пользователям в выборе тех или иных действий, имея некоторую информацию о них. Данная проблематика довольно распространена, потому что самостоятельно пользователь может потратить очень много времени на поиск интересуещей его информации.
Например, интернет-сервис продажи товаров Amazon использует информацию о совершившихся покупках, чтобы в дальнейшем предлагать каждому конкретному пользователю товары, в которых они нуждаются и о которых даже не подозревал. Таким образом данный сервис сокращает время покупателей, проведённое за поиском товаров, и увеличивает прибыль.
В данной работе будет рассматриваться онлайн сервис управления проектами Wrike. Данный сервис обеспечивает онлайн-среду для рабочего взаимодействия в команде (позволяет планировать проекты и отслеживать график их выполнения).
При создании некоторой задачи (проекта) автор приписывает ей совокупность ключевых слов (метка, далее мы будем использовать термин "тег"; с англ, tag — ярлык), чтобы обозначить вкратце суть задачи и отнести её к конкретной категории для дальнейшей успешной навигации.
Не редко случается ситуация, что некоторый работник может регулярно создавать некоторую задачу и приписывать ей одни и те же теги. Зачастую такая процедура несет в себе рутинный характер.
В работе рассматривается задача рекомендации тегов (т.е. предсказание действий пользователей, основываясь на истории их поведения в онлайн сервисе управления проектами). В работе изучаются известные методы и алгоритмы, которые рассматриваются в контексте задачи рекомендации тегов. Все рассматриваемые модели были программно реализованы (в некоторых случаях использовались готовые пакеты) и применены к действительным данным. Для каждого метода получена оценка качества.
Работа состоит их трех глав. В первой главе изучается вероятностная модель на основе цепей Маркова, где отдельно изучается конечная цепь Маркова и предлагается идея экспоненциального сглаживания для адаптивного обновления переходник вероятностей. Также в первой главе рассматривается алгоритм контекстного прогноза, структуры скрытой марковской модели (СММ) и алгоритм Баума — Велша для нахождения наиболее вероятных параметров по последовательности наблюдаемых величин. Во второй главе изучается перцептронная сеть и метод обратного распространения ошибки. В третьей главе рассматривается задача поиска ассоциативных правил с применением алгоритма Apriori.
В ходе решения задачи рекомендации тегов задач в одном онлайн сервисе управления проектами были изучено и рассмотрено множество методов, которые оценивал пев по реалвнвхм даннвхм поведения пользователей.
В качестве базовой рекомендателвной системы была рассмотрена модель на основе конечных цепей Маркова. Для модели были изучены и программно реализованы 2 алгоритма. Был предложен подход адаптивного обновления матрицы переходных вероятностей. Данная рекомендательная система обладает неплохой точностью прогноза.
Также были рассмотрены следующие модели решения задачи прогноза: скрытая марковская модель (и алгоритм Баума — Велша [5] в качестве метода обучения) и нейронная сеть с методом обратного распространения ошибки. Был предложен подход сведения задачи прогноза к данным моделям и программно реализована нейронная сеть. Данные модели лучше описывают поведение пользователей, чем базовая рекомендательная система, но для построения моделей необходим большой объём данных.
Также предложен подход поиска ассоциативных правил как дополнительный инструмент для рекомендательной системы.
[1] Буре В. М., Парилина Е. М. Теория вероятностей и математическая статистика: Учебник. - СПб.: Издательство "Лань" 2013. - 416 с.
[2] Кемени Дж., Снелл Дж. Конечные цепи Маркова. М.: Издательство "Наука 1970. - 272 с.
[3] J. Petzold, F. Bagci, W. Trumler, T. Ungerer. Context Prediction Based on Branch Prediction Methods // Technical Report, University of Augsburg, Germany, 2003.
[4] Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов. Учеб, пособие. - М.: Финансы и статистика, 2003. - 416 с.
[5] Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition // Proceedings of the IEEE. 1989 Volume. 77, p. 257-286.
[6] A. Gellert, and L. Vintan. Person Movement Prediction Using Hidden Markov Models // Studies in Informatics and Control 15 (1), 2006, p. 17-30.
[7] T. Hastie, R. Tibshirani, J. Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition. Springer, 2016. - 745 p.
[8] Rumelhart E., David E.; Hinton, Geoffrey E.; Williams, Ronald J. Learning representations by back-propagating errors // Nature. 323 (6088), 1986, p. 533-536.
[9] L. Vintan, A. Gellert, J. Petzold, T. Ungerer. Person Movement Prediction Using Neural Networks // Proceedings of the KI2004 International Workshop on Modeling and Retrieval of Context, At Ulm, Volume: 114, 2004.
[10] Jiawei Han, Micheline Kamber, Jian Pei. Data Mining: Concepts and Techniques, Third Edition. Morgan Kaufmann Publishers, 2011. - 740 p.
[11] Rakesh Agrawal and Ramakrishnan Srikant Fast algorithms for mining association rules in large databases // Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, Santiago, Chile, 1994, p. 487-499.