Ежедневно собираются огромные объемы данных, при постоянном
пополнении которых обработка и выделение требуемой информации
становится нетривиальной задачей. С этой целью создаются специальные
инструменты, предназначенные для организации, поиска и понимания
огромного количества информации.
Тематическое моделирование предоставляет нам методы для
организации, понимания и обобщения больших коллекций текстовой
информации. И таким образом, помогает в обнаружении скрытых
тематических характеристик коллекции. Тематическое моделирование может
быть описано как метод поиска групп слов (тем) из набора документов,
которые наилучшим образом представляют информацию в коллекции. Его
также можно рассматривать как форму интеллектуального анализа текста –
способ получения повторяющихся паттернов слов в текстовом материале.
Существует множество методов, которые используются для получения
тематических моделей. Большинство из них принадлежат классу
вероятностного тематического моделирования. Вероятностная тематическая
модель представляет темы как дискретные распределения на множестве слов,
а документы – как дискретное распределение на множестве тем. При
построении тематической модели ставится задача восстановить эти
распределения по данной коллекции документов. Поскольку документ может
относиться сразу к нескольким темам, говорят, что тематическое
моделирование осуществляет “нечеткую кластеризацию” [1].
Задача извлечения скрытых тематических характеристик текстовой
коллекции тесно связана со многими другими прикладными задачами, в
частности, задачами информационного поиска [2]. Это может быть анализ
данных социальных сетей, классификация и кластеризация документов, для
рекомендательных систем [3], и др.
На сегодняшний день разработано уже достаточно методов для
построения тематических моделей, однако в основном они применимы лишь
для извлечения тем, и слабо пригодны для реальных прикладных задач.
Например, необходимо исследовать, как изменялись темы коллекции с
течением времени. При условии наличия информации о времени создания
документов коллекции можно анализировать информацию о перетекании
одной темы в другую, возникновении абсолютно новых тем, либо
исчезновении старых. К этой задаче можно добавить другую: выявление
трендов определенных тем [4]. Цель данной работы – предложить подход для
решения задачи, описанной выше, а именно задачи прогнозирования трендов
скрытых тематик коллекции.
В рамках данной работы описан ход решения задачи прогнозирования
динамики рейтингов скрытых тем документов. В частности, выполнены
следующие подзадачи:
1. определено оптимальное количество скрытых тем в текстовой коллекции;
2. выявлены скрытые темы в текстовой коллекции;
3. построена прогнозирующая модель для рейтингов выявленных тем.
Было продемонстрировано применение тематического моделирования
для решения реальной прикладной задачи. В ходе работы был сделан ряд
эвристических допущений, например, из-за специфики выбранной коллекции
документов пришлось сделать предположение о совпадении даты оценивания
книги с датой ее публикации. Несмотря на сделанные допущения, способ
нахождения ближайших тем не был окончательно проработан и, безусловно,
требует дополнительного анализа и корректировки в силу нетривиальности
поставленной задачи. В дальнейшем следует использовать дополнительные
источники информации для получения более точного представления о дате
выставления рейтинга. Так же следует более полно исследовать вопрос
фильтрации выделенных тем.