Тема: Автоматическое выделение информативных тем документов с использованием латентного размещения Дирихле
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи ....................................................................................... 4
Глава 1. Вероятностные тематические модели ......................................... 5
1.1. Предварительная обработка данных ............................................. 5
1.2. Вероятностное моделирование ...................................................... 6
1.3. Классическая PLSA модель ........................................................... 8
1.4. ЕМ-алгоритм ................................................................................... 8
1.5. Классическая LDA модель ............................................................. 9
1.6. Иерархическая LDA модель ........................................................ 10
1.7. Подход ARTM ............................................................................... 12
1.8. LDA в ARTM ................................................................................. 13
1.9. Оценка качества модели ............................................................... 13
Глава 2. Прогнозирование ......................................................................... 15
2.1. Дивергенция Йенсена-Шеннона .................................................. 15
2.3. Модель ARIMA ............................................................................. 16
Глава 3. Эксперимент ................................................................................ 18
Заключение ................................................................................................. 28
Список литературы .................................................................................... 29
📖 Введение
пополнении которых обработка и выделение требуемой информации
становится нетривиальной задачей. С этой целью создаются специальные
инструменты, предназначенные для организации, поиска и понимания
огромного количества информации.
Тематическое моделирование предоставляет нам методы для
организации, понимания и обобщения больших коллекций текстовой
информации. И таким образом, помогает в обнаружении скрытых
тематических характеристик коллекции. Тематическое моделирование может
быть описано как метод поиска групп слов (тем) из набора документов,
которые наилучшим образом представляют информацию в коллекции. Его
также можно рассматривать как форму интеллектуального анализа текста –
способ получения повторяющихся паттернов слов в текстовом материале.
Существует множество методов, которые используются для получения
тематических моделей. Большинство из них принадлежат классу
вероятностного тематического моделирования. Вероятностная тематическая
модель представляет темы как дискретные распределения на множестве слов,
а документы – как дискретное распределение на множестве тем. При
построении тематической модели ставится задача восстановить эти
распределения по данной коллекции документов. Поскольку документ может
относиться сразу к нескольким темам, говорят, что тематическое
моделирование осуществляет “нечеткую кластеризацию” [1].
Задача извлечения скрытых тематических характеристик текстовой
коллекции тесно связана со многими другими прикладными задачами, в
частности, задачами информационного поиска [2]. Это может быть анализ
данных социальных сетей, классификация и кластеризация документов, для
рекомендательных систем [3], и др.
На сегодняшний день разработано уже достаточно методов для
построения тематических моделей, однако в основном они применимы лишь
для извлечения тем, и слабо пригодны для реальных прикладных задач.
Например, необходимо исследовать, как изменялись темы коллекции с
течением времени. При условии наличия информации о времени создания
документов коллекции можно анализировать информацию о перетекании
одной темы в другую, возникновении абсолютно новых тем, либо
исчезновении старых. К этой задаче можно добавить другую: выявление
трендов определенных тем [4]. Цель данной работы – предложить подход для
решения задачи, описанной выше, а именно задачи прогнозирования трендов
скрытых тематик коллекции.
✅ Заключение
динамики рейтингов скрытых тем документов. В частности, выполнены
следующие подзадачи:
1. определено оптимальное количество скрытых тем в текстовой коллекции;
2. выявлены скрытые темы в текстовой коллекции;
3. построена прогнозирующая модель для рейтингов выявленных тем.
Было продемонстрировано применение тематического моделирования
для решения реальной прикладной задачи. В ходе работы был сделан ряд
эвристических допущений, например, из-за специфики выбранной коллекции
документов пришлось сделать предположение о совпадении даты оценивания
книги с датой ее публикации. Несмотря на сделанные допущения, способ
нахождения ближайших тем не был окончательно проработан и, безусловно,
требует дополнительного анализа и корректировки в силу нетривиальности
поставленной задачи. В дальнейшем следует использовать дополнительные
источники информации для получения более точного представления о дате
выставления рейтинга. Так же следует более полно исследовать вопрос
фильтрации выделенных тем.





