Аннотация 2
Abstract 3
Введение 5
Глава 1 Анализ методов тематического моделирования 7
Глава 2 Анализ алгоритмов тематического моделирования 20
2.1 Вероятностные тематические модели 20
2.2 Описание алгоритмов тематического моделирования 23
Глава 3 Программная реализация и сравнение алгоритмов тематического моделирования 34
Заключение 48
Список используемой литературы и используемых источников 50
Когда мы ведем с кем-то дискуссию в реальной жизни, мы говорим на любую тему, чтобы выявить какой-то внутренний смысл. Точно так же подлежащее в NLP обозначает группу слов, которые каким-то образом связаны.
Тематическая модель автоматически находит темы в наборе документов. После этого можно использовать обученную модель, чтобы определить, какие из этих тем появляются в новых статьях. Модель также может определять, относятся ли части документа к конкретным темам.
Анализ текста на основе искусственного интеллекта использует широкий спектр методов или алгоритмов для естественной обработки языка, одним из которых является тематический анализ, используемый для автоматического определения тем в текстах.
Тематическое моделирование - это метод анализа текстов, который позволяет извлечь темы и подтемы из текстовых данных. Он используется в разных областях, таких как машинное обучение, информационный поиск и анализ данных. Тематическое моделирование основывается на представлении текстов в виде мешка слов и нахождении частых комбинаций слов, которые связываются в темы. Этот метод может раскрывать скрытые связи и смыслы, которые являются нетривиальными для выявления, работая с большими объемами информации, такими как текстовые документы, блоги, новости, твиты и т.д.
Исследование и особенности практического применения алгоритмов тематического моделирования представляет актуальность и научно-практический интерес.
В данной бакалаврской работе объектом исследования является тематическое моделирование.
Предметом исследования бакалаврской работы являются алгоритмы тематического моделирования...
В ходе выполнения выпускной квалификационной работы на тему «Исследование алгоритмов тематического моделирования для новостных статей», проведено исследование, объектом которого являлись тематические модели, различные методы и алгоритмы тематического моделирования. Также были рассмотрены основы тематического моделирования, базовые модели.
Цель бакалаврской работы - исследование и реализация алгоритмов тематического моделирования.
В ходе данной работы поставлены и выполнены следующие задачи:
- выполнена постановка задачи исследования и проанализированы
методы тематического моделирования: LSA, NMF, LDA, PLSA и ARTM. LSA не всегда достаточно точен в поиске семантических связей, так что два значения, которые являются близкими в контексте текста, могут быть несколько отделены друг от друга в новом пространстве. NMF требует тщательной предварительной обработки данных, так как может производить ошибки в анализе, если данные содержат шумы, выбросы или пропущенные значения. PLSA может справляться со многими проблемами, с которыми сталкиваются другие методы, такие как разреженность, шум и многомерность. LDA может автоматически определять темы в документах, не требуя от пользователя
предварительно заданных тем (в отличие от других методов
тематического моделирования). ARTM использует тот же формат мешка слов, что и LDA, но включает регуляризацию, что делает его более гибким и точным.;
- проанализированы алгоритмы тематического моделирования: LDA, PLSA и ARTM. Дано математическое описание алгоритмов. PLSA использует EM-алгоритм для оценки параметров модели. LDA использует алгоритм Гиббса с дополнительным расчетом уровня перплексии для оценки параметров модели. ARTM позволяет структурировать модель и задавать дополнительные ограничения (регуляризации) на ее параметры.;
- выполнена программная реализация и тестирование алгоритмов тематического моделирования. Выполнена реализация данных алгоритмов на языке Python. Как показали результаты тестирования темы в PLSA менее интерпретируемы, чем LDA, а ARTM позволяет включать в модель различные типы ограничений и достигать более точной интерпретации тем. PLSA лучше учитывает контекст и порядок слов в тексте, что делает его более точным, чем LDA. Однако PLSA имеет ограничения в том, что он не учитывает отрицательные взаимодействия между темами. ARTM учитывает не только контекст и порядок слов в тексте, но также взаимодействия между темами.
Алгоритм LDA, как правило, является отправной точкой для тематического моделирования во многих случаях использования. BigARTM можно использовать как современную альтернативу.
Не существует идеального решения, объединяющего достоинства всех подходов, поскольку оптимизация одних характеристик может приводить к ухудшению других. Выбор компромиссного решения зависит от требований по времени адаптации под конкретную задачу, времени обучения моделей, вычислительным ресурсам, гибкости, масштабируемости и
отказоустойчивости.
Результаты бакалаврской работы представляют научно-практический интерес и могут быть рекомендованы для анализа и программной реализации методов и алгоритмов тематического моделирования.