📄Работа №48181

Тема: АНАЛИЗ НОВОСТНОЙ КОЛЛЕКЦИИ С ПОМОЩЬЮ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ

📝

Тип работы Дипломные работы, ВКР

📚

Предмет Информатика и вычислительная техника

📄

Объем: 48 листов

📅

Год: 2019

👁️

4770 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Глоссарий 2
Введение 4
1. Обзор предметной области 6
1. LSA 6
2. HDP 9
3. LDA 12
2. Предобработка данных 16
3. Метрики для определения качества модели 18
1. Метрика UCI 18
2. Метрика UMass 19
3. Метрика NPMI 20
4. Метрика CV 21
5. Метрика CW2C 22
4. Анализ и визуализация новостной коллекции 23
1. Анализ 23
2. Визуализация 28
Заключение 40
Список использованной литературы 41
Приложение 43

📖 Введение

В современном мире в интернете на один информационный повод появляются десятки статей. Если же событие долгосрочное и масштабное (например, выход Великобритании из Европейского союза), то количество публикаций на различных ресурсах будет превышать десятки тысяч.
Но многие статьи могут затрагивать несколько новостей, или авторы могут искажать некоторые факты.
Выделяя ключевые слова из статьи, можно получить краткую информацию об инфоповоде, если же проанализировать несколько ресурсов, то можно получить более обобщенный и точный анализ темы.
Однако, чтобы извлечь такую информацию необходимо анализировать внушительные объёмы текстовых данных. Для решения этой проблемы в NLP существует тематическое моделирование. Это способ построения модели на основе коллекции текстовых документов, который определяет, к каким темам относится конкретный документ в коллекции [1].
Анализ новостных статей - это задача, которая в огромном масштабе выполняется информационными агентствами по всему миру. Е[олученные результаты могут использоваться для: агрегации новостей, поиска по ключевым словам и т.д.
Е(елью данной исследовательской работы является анализ и визуализация новостей с использованием следующих тематических моделей и их сравнение:
• Латентно-семантический анализ (LSA).
• Латентное размещение Дирихле (LDA).
• Иерархический процесс Дирихле (HDP).
Для достижения поставленной цели в работе решаются следующие задачи:
• Анализ существующих методов тематического моделирования.
• Оценка качества тематических моделей.
• Анализ и визуализация проанализированных данных.
Объектом исследования является анализ коллекции коротких текстовых документов на естественном языке, которые относятся к выходу Британии из Евросоюза.
Предметом исследования являются тематические модели.

✅ Заключение

В результате выполнения данной работы были завершены следующие задачи:
• Анализ существующих методов тематического моделирования: LSA, LDA, HDP
• Проанализированы методы когерентности тематических моделей: UCI, UMass, NPMI, CV, CW2C.
• Сравнение метрик когерентности проанализированных моделей.
• Анализ и визуализация проанализированных данных.
По итогам сравнения моделей была выявлена модель, обладающая наилучшими показателями на всех метриках когерентности - LDA.
После анализа датасета с помощью LDA был сделан вывод, что тематическое моделирование позволяет отслеживать тенденцию популярности той или иной темы с течением времени.
Цель работы была достигнута. Данная работа размещена в GitLab, с ней можно ознакомиться по ссылке:
http://gititis.kpfu.ru/Ismagilov/brexit-news-topic-modeling-comprassion

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Ramage D. et al. Topic modeling for the social sciences //NIPS 2009 workshop on applications for topic models: text and beyond. - 2009. - T. 5. - C. 27.
2. Cvitanic T. et al. Lda v. Isa: A comparison of two computational text analysis tools for the functional categorization of patents //International Conference on Case-Based Reasoning. - 2016.
3. Ramos J. et al. Using tf-idf to determine word relevance in document queries //Proceedings of the first instructional conference on machine learning. - 2003. - T. 242.-C. 133-142.
4. Кураленок И. E., Некрестьянов И. С. Автоматическая классификация документов на основе латентно-семантического анализа //Труды первой всероссийской научно-методической конференции “Электронные библиотеки: перспективные методы и технологии, электронные коллекции”. СПб, - 1999.-С. 89-96.
5. Joyce Xu. Topic Modeling with LSA, PLSA, LDA & lda2Vec [Электронный ресурс] // medium.com. URL :
https://medium.com/nanonets/topic-modeling-with-lsa-psla-lda-and-lda2vec-555ff 65Ь0Ь05 (Дата обращения 25.01.2019)
6. Williamson S. et al. The IBP compound Dirichlet process and its application to focused topic modeling //Proceedings of the 27th international conference on machine learning (ICML-10). - 2010. - C. 1151-1158.
7. Teh Y. W. et al. Sharing clusters among related groups: Hierarchical Dirichlet processes //Advances in neural information processing systems. - 2005. - C. 1385-1392.
8. Yau С. К. et al. Clustering scientific documents with topic modeling //Scientometrics. - 2014. - T. 100. - №. 3. - C. 767-786.
9. Teh Y. W., Newman D., Welling M. A collapsed variational Bayesian inference algorithm for latent Dirichlet allocation //Advances in neural information processing systems. - 2007. - C. 1353-1360.
10. Blei D. M., Ng A. Y., Jordan M. I. Latent dirichlet allocation //Advances in neural information processing systems. - 2002. - C. 601-608.
11. Воронцов К. В. Вероятностное тематическое моделирование //Москва. - 2013.
12. Keith Stevens, Philip Kegelmeyer, David Andrzejewski, David Buttler. Exploring Topic Coherence over many models and many topics //Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. - 2012. - C. 952-961.
13. Lau J. H., Newman D., Baldwin T. Machine reading tea leaves: Automatically evaluating topic coherence and topic model quality //Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. - 2014. - C. 530-539.
14. Syed S., Weber С. T. Using machine learning to uncover latent research topics in fishery models //Reviews in Fisheries Science & Aquaculture. - 2018. - T. 26. - №. 3.-C. 319-336.
15. Performing Model Selection Using Topic Coherence [Электронный ресурс] //github.com. URL :
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/topic coherencemodelselection.ipynb (Дата обращения 25.02.2019)
16. Brexit timeline: key dates in the UK’s divorce from the EU [Электронный ресурс] //ft.com URL :
https://www.ft.com/content/64e7f218-4ad4- 11е7-919а-1е 14ce4af89b (Дата обращения 25.03.2019)
17. PyLDAvis [Электронный ресурс] //github.com. URL : https://github.com/bmabey/pyLDAvis (Дата обращения 03.03.2019)
18. Итоги деятельности Терезы Мэй на посту премьер-министра Великобритании [Электронный ресурс] //tass.ru URL : https://tass.ru/info/6468441 (Дата обращения 10.03.2019)
19. Скотленд-Ярд объявил взрыв в лондонском метро терактом [Электронный ресурс] //bbc.com URL :
https://www.bbc.com/russian/news-41278720 (Дата обращения 10.03.2019)
20. Нападение у британского парламента: что нам известно [Электронный ресурс] //bbc.com URL : https://www.bbc.com/russian/features-39356255 (Дата обращения 10.03.2019)

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (210037)

Статьи

»» Все статьи

Вход в личный кабинет