Тип работы:
Предмет:
Язык работы:


АНАЛИЗ НОВОСТНОЙ КОЛЛЕКЦИИ С ПОМОЩЬЮ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ

Работа №48181

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы48
Год сдачи2019
Стоимость4770 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
116
Не подходит работа?

Узнай цену на написание


Глоссарий 2
Введение 4
1. Обзор предметной области 6
1. LSA 6
2. HDP 9
3. LDA 12
2. Предобработка данных 16
3. Метрики для определения качества модели 18
1. Метрика UCI 18
2. Метрика UMass 19
3. Метрика NPMI 20
4. Метрика CV 21
5. Метрика CW2C 22
4. Анализ и визуализация новостной коллекции 23
1. Анализ 23
2. Визуализация 28
Заключение 40
Список использованной литературы 41
Приложение 43

В современном мире в интернете на один информационный повод появляются десятки статей. Если же событие долгосрочное и масштабное (например, выход Великобритании из Европейского союза), то количество публикаций на различных ресурсах будет превышать десятки тысяч.
Но многие статьи могут затрагивать несколько новостей, или авторы могут искажать некоторые факты.
Выделяя ключевые слова из статьи, можно получить краткую информацию об инфоповоде, если же проанализировать несколько ресурсов, то можно получить более обобщенный и точный анализ темы.
Однако, чтобы извлечь такую информацию необходимо анализировать внушительные объёмы текстовых данных. Для решения этой проблемы в NLP существует тематическое моделирование. Это способ построения модели на основе коллекции текстовых документов, который определяет, к каким темам относится конкретный документ в коллекции [1].
Анализ новостных статей - это задача, которая в огромном масштабе выполняется информационными агентствами по всему миру. Е[олученные результаты могут использоваться для: агрегации новостей, поиска по ключевым словам и т.д.
Е(елью данной исследовательской работы является анализ и визуализация новостей с использованием следующих тематических моделей и их сравнение:
• Латентно-семантический анализ (LSA).
• Латентное размещение Дирихле (LDA).
• Иерархический процесс Дирихле (HDP).
Для достижения поставленной цели в работе решаются следующие задачи:
• Анализ существующих методов тематического моделирования.
• Оценка качества тематических моделей.
• Анализ и визуализация проанализированных данных.
Объектом исследования является анализ коллекции коротких текстовых документов на естественном языке, которые относятся к выходу Британии из Евросоюза.
Предметом исследования являются тематические модели.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В результате выполнения данной работы были завершены следующие задачи:
• Анализ существующих методов тематического моделирования: LSA, LDA, HDP
• Проанализированы методы когерентности тематических моделей: UCI, UMass, NPMI, CV, CW2C.
• Сравнение метрик когерентности проанализированных моделей.
• Анализ и визуализация проанализированных данных.
По итогам сравнения моделей была выявлена модель, обладающая наилучшими показателями на всех метриках когерентности - LDA.
После анализа датасета с помощью LDA был сделан вывод, что тематическое моделирование позволяет отслеживать тенденцию популярности той или иной темы с течением времени.
Цель работы была достигнута. Данная работа размещена в GitLab, с ней можно ознакомиться по ссылке:
http://gititis.kpfu.ru/Ismagilov/brexit-news-topic-modeling-comprassion



1. Ramage D. et al. Topic modeling for the social sciences //NIPS 2009 workshop on applications for topic models: text and beyond. - 2009. - T. 5. - C. 27.
2. Cvitanic T. et al. Lda v. Isa: A comparison of two computational text analysis tools for the functional categorization of patents //International Conference on Case-Based Reasoning. - 2016.
3. Ramos J. et al. Using tf-idf to determine word relevance in document queries //Proceedings of the first instructional conference on machine learning. - 2003. - T. 242.-C. 133-142.
4. Кураленок И. E., Некрестьянов И. С. Автоматическая классификация документов на основе латентно-семантического анализа //Труды первой всероссийской научно-методической конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции”. СПб, - 1999.-С. 89-96.
5. Joyce Xu. Topic Modeling with LSA, PLSA, LDA & lda2Vec [Электронный ресурс] // medium.com. URL :
https://medium.com/nanonets/topic-modeling-with-lsa-psla-lda-and-lda2vec-555ff 65Ь0Ь05 (Дата обращения 25.01.2019)
6. Williamson S. et al. The IBP compound Dirichlet process and its application to focused topic modeling //Proceedings of the 27th international conference on machine learning (ICML-10). - 2010. - C. 1151-1158.
7. Teh Y. W. et al. Sharing clusters among related groups: Hierarchical Dirichlet processes //Advances in neural information processing systems. - 2005. - C. 1385-1392.
8. Yau С. К. et al. Clustering scientific documents with topic modeling //Scientometrics. - 2014. - T. 100. - №. 3. - C. 767-786.
9. Teh Y. W., Newman D., Welling M. A collapsed variational Bayesian inference algorithm for latent Dirichlet allocation //Advances in neural information processing systems. - 2007. - C. 1353-1360.
10. Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation //Advances in neural information processing systems. - 2002. - C. 601-608.
11. Воронцов К. В. Вероятностное тематическое моделирование //Москва. - 2013.
12. Keith Stevens, Philip Kegelmeyer, David Andrzejewski, David Buttler. Exploring Topic Coherence over many models and many topics //Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. - 2012. - C. 952-961.
13. Lau J. H., Newman D., Baldwin T. Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality //Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. - 2014. - C. 530-539.
14. Syed S., Weber С. T. Using machine learning to uncover latent research topics in fishery models //Reviews in Fisheries Science & Aquaculture. - 2018. - T. 26. - №. 3.-C. 319-336.
15. Performing Model Selection Using Topic Coherence [Электронный ресурс] //github.com. URL :
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/topic coherencemodelselection.ipynb (Дата обращения 25.02.2019)
16. Brexit timeline: key dates in the UK’s divorce from the EU [Электронный ресурс] //ft.com URL :
https://www.ft.com/content/64e7f218-4ad4- 11е7-919а-1е 14ce4af89b (Дата обращения 25.03.2019)
17. PyLDAvis [Электронный ресурс] //github.com. URL : https://github.com/bmabey/pyLDAvis (Дата обращения 03.03.2019)
18. Итоги деятельности Терезы Мэй на посту премьер-министра Великобритании [Электронный ресурс] //tass.ru URL : https://tass.ru/info/6468441 (Дата обращения 10.03.2019)
19. Скотленд-Ярд объявил взрыв в лондонском метро терактом [Электронный ресурс] //bbc.com URL :
https://www.bbc.com/russian/news-41278720 (Дата обращения 10.03.2019)
20. Нападение у британского парламента: что нам известно [Электронный ресурс] //bbc.com URL : https://www.bbc.com/russian/features-39356255 (Дата обращения 10.03.2019)


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ