Ежедневно собираются огромные объемы данных, при постоянном
пополнении которых обработка и выделение требуемой информации
становится нетривиальной задачей. С этой целью создаются специальные
инструменты, предназначенные для организации, поиска и понимания
огромного количества информации.
Тематическое моделирование предоставляет нам методы для
организации, понимания и обобщения больших коллекций текстовой
информации. И таким образом, помогает в обнаружении скрытых
тематических характеристик коллекции. Тематическое моделирование может
быть описано как метод поиска групп слов (тем) из набора документов,
которые наилучшим образом представляют информацию в коллекции. Его
также можно рассматривать как форму интеллектуального анализа текста –
способ получения повторяющихся паттернов слов в текстовом материале.
Существует множество методов, которые используются для получения
тематических моделей. Большинство из них принадлежат классу
вероятностного тематического моделирования. Вероятностная тематическая
модель представляет темы как дискретные распределения на множестве слов,
а документы – как дискретное распределение на множестве тем. При
построении тематической модели ставится задача восстановить эти
распределения по данной коллекции документов. Поскольку документ может
относиться сразу к нескольким темам, говорят, что тематическое
моделирование осуществляет “нечеткую кластеризацию” [1].
Задача извлечения скрытых тематических характеристик текстовой
коллекции тесно связана со многими другими прикладными задачами, в
частности, задачами информационного поиска [2]. Это может быть анализ
данных социальных сетей, классификация и кластеризация документов, для
рекомендательных систем [3], и др.
На сегодняшний день разработано уже достаточно методов для
построения тематических моделей, однако в основном они применимы лишь
для извлечения тем, и слабо пригодны для реальных прикладных задач.
Например, необходимо исследовать, как изменялись темы коллекции с
течением времени. При условии наличия информации о времени создания
документов коллекции можно анализировать информацию о перетекании
одной темы в другую, возникновении абсолютно новых тем, либо
исчезновении старых. К этой задаче можно добавить другую: выявление
трендов определенных тем [4]. Цель данной работы – предложить подход для
решения задачи, описанной выше, а именно задачи прогнозирования трендов
скрытых тематик коллекции.
В рамках данной работы описан ход решения задачи прогнозирования
динамики рейтингов скрытых тем документов. В частности, выполнены
следующие подзадачи:
1. определено оптимальное количество скрытых тем в текстовой коллекции;
2. выявлены скрытые темы в текстовой коллекции;
3. построена прогнозирующая модель для рейтингов выявленных тем.
Было продемонстрировано применение тематического моделирования
для решения реальной прикладной задачи. В ходе работы был сделан ряд
эвристических допущений, например, из-за специфики выбранной коллекции
документов пришлось сделать предположение о совпадении даты оценивания
книги с датой ее публикации. Несмотря на сделанные допущения, способ
нахождения ближайших тем не был окончательно проработан и, безусловно,
требует дополнительного анализа и корректировки в силу нетривиальности
поставленной задачи. В дальнейшем следует использовать дополнительные
источники информации для получения более точного представления о дате
выставления рейтинга. Так же следует более полно исследовать вопрос
фильтрации выделенных тем.
1. Коршунов Антон, Гомзин Андрей. Тематическое моделирование текстов
на естественном языке // Труды Института системного программирования
РАН, 2012. Т. 23. С. 215–244.
2. Yi X., Allan J. A comparative study of utilizing topic models for information
retrieval // Advances in Information Retrieval. Springer Berlin Heidelberg, 2009.
Vol. 5478 of Lecture Notes in Computer Science. P. 29–41.
3. Yeh J.-h., Wu M.-l. Recommendation based on latent topics and social network
analysis // Proceedings of the 2010 Second International Conference on
Computer Engineering and Applications. IEEE Computer Society, 2010. Vol. 1. P. 209–213.
4. Zhang J., Song Y., Zhang C., Liu S. Evolutionary hierarchical Dirichlet
processes for multiple correlated time-varying corpora // Proceedings of the 16th
ACM SIGKDD international conference on Knowledge discovery and data
mining, 2010. P. 1079–1088.
5. Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd
annual international ACM SIGIR conference on Research and development in
information retrieval. New York, NY, USA: ACM, 1999. P. 50–57.
6. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of
Machine Learning Research, 2003.Vol. 3. P. 993–1022.
7. Wang Y. Distributed Gibbs sampling of latent dirichlet allocation: The gritty details, 2008.
8. К. В. Воронцов. Вероятностное тематическое моделирование, 2013.
http://www.machinelearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf
9. David M. Blei, Thomas Griffiths, Michael Jordan, Joshua Tenenbaum //
Hierarchical topic models and the nested Chinese restaurant process. NIPS, 2003.
10. Chinese restaurant process on Wikipedia.
https://en.wikipedia.org/wiki/Chinese_restaurant_process
11. К. В. Воронцов, А. И. Фрей, М. А. Апишев, А. А. Потапенко. Тематическое
моделирование в BigARTM: теория, алгоритмы, приложения, 2015.
http://www.machinelearning.ru/wiki/images/b/bc/Voron-2015-BigARTM.pdf
12. Kullback S., Leibler R.A. On information and sufficiency. // Annals of
Mathematical Statistics, 1951 P. 79–86.
13. Jensen-Shannon divergence on Wikipedia.
https://en.wikipedia.org/wiki/Jensen%E2%80%93Shannon_divergence
14. BigARTM. http://bigartm.org/
15. A comprehensive guide to create a Time Series Forecast.
https://www.analyticsvidhya.com/blog/2016/02/time-series-forecasting-codes-python/
...