В современном мире в интернете на один информационный повод появляются десятки статей. Если же событие долгосрочное и масштабное (например, выход Великобритании из Европейского союза), то количество публикаций на различных ресурсах будет превышать десятки тысяч.
Но многие статьи могут затрагивать несколько новостей, или авторы могут искажать некоторые факты.
Выделяя ключевые слова из статьи, можно получить краткую информацию об инфоповоде, если же проанализировать несколько ресурсов, то можно получить более обобщенный и точный анализ темы.
Однако, чтобы извлечь такую информацию необходимо анализировать внушительные объёмы текстовых данных. Для решения этой проблемы в NLP существует тематическое моделирование. Это способ построения модели на основе коллекции текстовых документов, который определяет, к каким темам относится конкретный документ в коллекции [1].
Анализ новостных статей - это задача, которая в огромном масштабе выполняется информационными агентствами по всему миру. Е[олученные результаты могут использоваться для: агрегации новостей, поиска по ключевым словам и т.д.
Е(елью данной исследовательской работы является анализ и визуализация новостей с использованием следующих тематических моделей и их сравнение:
• Латентно-семантический анализ (LSA).
• Латентное размещение Дирихле (LDA).
• Иерархический процесс Дирихле (HDP).
Для достижения поставленной цели в работе решаются следующие задачи:
• Анализ существующих методов тематического моделирования.
• Оценка качества тематических моделей.
• Анализ и визуализация проанализированных данных.
Объектом исследования является анализ коллекции коротких текстовых документов на естественном языке, которые относятся к выходу Британии из Евросоюза.
Предметом исследования являются тематические модели.
В результате выполнения данной работы были завершены следующие задачи:
• Анализ существующих методов тематического моделирования: LSA, LDA, HDP
• Проанализированы методы когерентности тематических моделей: UCI, UMass, NPMI, CV, CW2C.
• Сравнение метрик когерентности проанализированных моделей.
• Анализ и визуализация проанализированных данных.
По итогам сравнения моделей была выявлена модель, обладающая наилучшими показателями на всех метриках когерентности - LDA.
После анализа датасета с помощью LDA был сделан вывод, что тематическое моделирование позволяет отслеживать тенденцию популярности той или иной темы с течением времени.
Цель работы была достигнута. Данная работа размещена в GitLab, с ней можно ознакомиться по ссылке:
http://gititis.kpfu.ru/Ismagilov/brexit-news-topic-modeling-comprassion