Тема: АНАЛИЗ НОВОСТНОЙ КОЛЛЕКЦИИ С ПОМОЩЬЮ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 4
1. Обзор предметной области 6
1. LSA 6
2. HDP 9
3. LDA 12
2. Предобработка данных 16
3. Метрики для определения качества модели 18
1. Метрика UCI 18
2. Метрика UMass 19
3. Метрика NPMI 20
4. Метрика CV 21
5. Метрика CW2C 22
4. Анализ и визуализация новостной коллекции 23
1. Анализ 23
2. Визуализация 28
Заключение 40
Список использованной литературы 41
Приложение 43
📖 Введение
Но многие статьи могут затрагивать несколько новостей, или авторы могут искажать некоторые факты.
Выделяя ключевые слова из статьи, можно получить краткую информацию об инфоповоде, если же проанализировать несколько ресурсов, то можно получить более обобщенный и точный анализ темы.
Однако, чтобы извлечь такую информацию необходимо анализировать внушительные объёмы текстовых данных. Для решения этой проблемы в NLP существует тематическое моделирование. Это способ построения модели на основе коллекции текстовых документов, который определяет, к каким темам относится конкретный документ в коллекции [1].
Анализ новостных статей - это задача, которая в огромном масштабе выполняется информационными агентствами по всему миру. Е[олученные результаты могут использоваться для: агрегации новостей, поиска по ключевым словам и т.д.
Е(елью данной исследовательской работы является анализ и визуализация новостей с использованием следующих тематических моделей и их сравнение:
• Латентно-семантический анализ (LSA).
• Латентное размещение Дирихле (LDA).
• Иерархический процесс Дирихле (HDP).
Для достижения поставленной цели в работе решаются следующие задачи:
• Анализ существующих методов тематического моделирования.
• Оценка качества тематических моделей.
• Анализ и визуализация проанализированных данных.
Объектом исследования является анализ коллекции коротких текстовых документов на естественном языке, которые относятся к выходу Британии из Евросоюза.
Предметом исследования являются тематические модели.
✅ Заключение
• Анализ существующих методов тематического моделирования: LSA, LDA, HDP
• Проанализированы методы когерентности тематических моделей: UCI, UMass, NPMI, CV, CW2C.
• Сравнение метрик когерентности проанализированных моделей.
• Анализ и визуализация проанализированных данных.
По итогам сравнения моделей была выявлена модель, обладающая наилучшими показателями на всех метриках когерентности - LDA.
После анализа датасета с помощью LDA был сделан вывод, что тематическое моделирование позволяет отслеживать тенденцию популярности той или иной темы с течением времени.
Цель работы была достигнута. Данная работа размещена в GitLab, с ней можно ознакомиться по ссылке:
http://gititis.kpfu.ru/Ismagilov/brexit-news-topic-modeling-comprassion



