Аннотация 2
Abstract 3
Введение 5
Глава 1 Анализ методов тематического моделирования 7
Глава 2 Анализ алгоритмов тематического моделирования 20
2.1 Вероятностные тематические модели 20
2.2 Описание алгоритмов тематического моделирования 23
Глава 3 Программная реализация и сравнение алгоритмов тематического моделирования 34
Заключение 48
Список используемой литературы и используемых источников 50
Когда мы ведем с кем-то дискуссию в реальной жизни, мы говорим на любую тему, чтобы выявить какой-то внутренний смысл. Точно так же подлежащее в NLP обозначает группу слов, которые каким-то образом связаны.
Тематическая модель автоматически находит темы в наборе документов. После этого можно использовать обученную модель, чтобы определить, какие из этих тем появляются в новых статьях. Модель также может определять, относятся ли части документа к конкретным темам.
Анализ текста на основе искусственного интеллекта использует широкий спектр методов или алгоритмов для естественной обработки языка, одним из которых является тематический анализ, используемый для автоматического определения тем в текстах.
Тематическое моделирование - это метод анализа текстов, который позволяет извлечь темы и подтемы из текстовых данных. Он используется в разных областях, таких как машинное обучение, информационный поиск и анализ данных. Тематическое моделирование основывается на представлении текстов в виде мешка слов и нахождении частых комбинаций слов, которые связываются в темы. Этот метод может раскрывать скрытые связи и смыслы, которые являются нетривиальными для выявления, работая с большими объемами информации, такими как текстовые документы, блоги, новости, твиты и т.д.
Исследование и особенности практического применения алгоритмов тематического моделирования представляет актуальность и научно-практический интерес.
В данной бакалаврской работе объектом исследования является тематическое моделирование.
Предметом исследования бакалаврской работы являются алгоритмы тематического моделирования...
В ходе выполнения выпускной квалификационной работы на тему «Исследование алгоритмов тематического моделирования для новостных статей», проведено исследование, объектом которого являлись тематические модели, различные методы и алгоритмы тематического моделирования. Также были рассмотрены основы тематического моделирования, базовые модели.
Цель бакалаврской работы - исследование и реализация алгоритмов тематического моделирования.
В ходе данной работы поставлены и выполнены следующие задачи:
- выполнена постановка задачи исследования и проанализированы
методы тематического моделирования: LSA, NMF, LDA, PLSA и ARTM. LSA не всегда достаточно точен в поиске семантических связей, так что два значения, которые являются близкими в контексте текста, могут быть несколько отделены друг от друга в новом пространстве. NMF требует тщательной предварительной обработки данных, так как может производить ошибки в анализе, если данные содержат шумы, выбросы или пропущенные значения. PLSA может справляться со многими проблемами, с которыми сталкиваются другие методы, такие как разреженность, шум и многомерность. LDA может автоматически определять темы в документах, не требуя от пользователя
предварительно заданных тем (в отличие от других методов
тематического моделирования). ARTM использует тот же формат мешка слов, что и LDA, но включает регуляризацию, что делает его более гибким и точным.;
- проанализированы алгоритмы тематического моделирования: LDA, PLSA и ARTM. Дано математическое описание алгоритмов. PLSA использует EM-алгоритм для оценки параметров модели. LDA использует алгоритм Гиббса с дополнительным расчетом уровня перплексии для оценки параметров модели. ARTM позволяет структурировать модель и задавать дополнительные ограничения (регуляризации) на ее параметры.;
- выполнена программная реализация и тестирование алгоритмов тематического моделирования. Выполнена реализация данных алгоритмов на языке Python. Как показали результаты тестирования темы в PLSA менее интерпретируемы, чем LDA, а ARTM позволяет включать в модель различные типы ограничений и достигать более точной интерпретации тем. PLSA лучше учитывает контекст и порядок слов в тексте, что делает его более точным, чем LDA. Однако PLSA имеет ограничения в том, что он не учитывает отрицательные взаимодействия между темами. ARTM учитывает не только контекст и порядок слов в тексте, но также взаимодействия между темами.
Алгоритм LDA, как правило, является отправной точкой для тематического моделирования во многих случаях использования. BigARTM можно использовать как современную альтернативу.
Не существует идеального решения, объединяющего достоинства всех подходов, поскольку оптимизация одних характеристик может приводить к ухудшению других. Выбор компромиссного решения зависит от требований по времени адаптации под конкретную задачу, времени обучения моделей, вычислительным ресурсам, гибкости, масштабируемости и
отказоустойчивости.
Результаты бакалаврской работы представляют научно-практический интерес и могут быть рекомендованы для анализа и программной реализации методов и алгоритмов тематического моделирования.
1. Апишев М.А. «Эффективные реализации алгоритмов тематического моделирования» // Труды ИСП РАН. 2020. № 32:1. С. 137-152.
2. Бенгфорт Б., Билбро Р., Охеда Т. Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка. СПб.: Питер, 2019. 368 с.
3. Булатов В. Г., Ирхин И. А., Воронцов К. В., «Аддитивная регуляризация тематических моделей с быстрой векторизацией текста», Компьютерные исследования и моделирование, 12:6 (2020), 1515-1528
4. Воронцов К.В., Потапенко А.А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. 2013. T. 1, № 6. С. 657-686.
5. Коршунов А., Гомзин А. Тематическое моделирование текстов на естественном языке // Труды ИСП РАН. 2012 [Электронный ресурс]. URL: https://cyberleninka.ru/article/nZtematicheskoe-modelirovanie-tekstov-na- estestvennom-yazyke (дата обращения: 02.03.2023).
6. Митрофанова О.А. Моделирование тематики специальных текстов на основе алгоритма LDA. // Санкт-Петербург, 11—16 марта 2013 г.: Избранные труды. СПб.: Филологический факультет СПбГУ, а. 2014.-С. 220-233.
7. Сухарева А. В, Воронцов К. В., «Построение полного набора тем вероятностных тематических моделей», Интеллектуальные системы. Теория и приложения, 23:4, 2019, 7-23
8. Черкасов И.Е. «Сравнение алгоритмов тематического моделирования при определении тематик постов людей в социальной сети «ВКонтакте»» 2020, 45-49.
9. Bassiou N., Kotropoulos C. Online PLSA: Batch updating techniques including out-of-vocabulary words // Neural Networks and Learning Systems, IEEE Transactions on. 2014. Vol. 25, No. 11. P. 1953-1966.
10. Berry M. W., Browne M. Email surveillance using non-negative matrix factorization. Computational and Mathematical Organization Theory. 2005. Vol. 11, P. 249-264.
11. Blei D., Carin L., Dunson D. Probabilistic Topic Models: A focus on graphical model design and applications to document and image analysis, IEEE signal. processing magazine. 2010. 27:6, 55.
12. Blei D., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003.Vol. 3. P. 993-1022.
13. Carson, Sievert., Kenneth, E., Shirley. LDAvis: A method for visualizing and interpreting topics. (2014).63-70. doi: 10.3115/V1/W14-3110.
14. Chen Y., Zhang H., Liu R., Ye Z., Lin, J. Experimental explorations on short text topic mining between LDA and NMF based Schemes // Knowledge-Based Systems. 2019. Vol. 163. P. 1-13.
15. David Blei «Introduction to Probabilistic Topic Models)» //Communications of the ACM. 2012. P. 77-84...28