Тема: СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ ТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ДЛЯ КЛАСТЕРИЗАЦИИ ВЫСКАЗЫВАНИЙ ПОЛЬЗОВАТЕЛЕЙ В СОЦИАЛЬНЫХ МЕДИА
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 6
1 Обработка естественного языка 8
2 Тематическое моделирование 12
3 Используемые алгоритмы 15
3.1 Латентно семантический анализ 15
3.2 Неотрицательная матричная факторизация 17
3.3 Латентное размещение Дирихле 18
4 Подготовка данных 21
4.1 Система “Крибрум”. Сбор данных 21
4.2 Описание данных 22
4.3 Методика обработки социальных высказываний 25
4.4 Реализация обработки данных и получение итогового набора
данных 26
5 Реализация алгоритмов 32
5.1 Выбор инструментов 32
5.2 Обучение моделей 32
6 Сравнительный анализ 36
6.1 Внутренняя оценка 36
6.2 Внешняя оценка 36
6.3 Итог сравнительного анализа 38
ЗАКЛЮЧЕНИЕ 41
ЛИТЕРАТУРА 43
📖 Введение
По этим причинам на сегодняшний день набирает популярность направление NLP, Natural Language Processing, или же Обработка Естественных языков. Все больше специалистов в области обработки данных и специалисты смежных областей, понимают важность этого направления. При достижении новых результатов в данной области, будут продвигаться и исследования в областях, к которым были приложены новые методы. Особенно это касается сферы социальных, психологических и лингвистических исследований, так как получение информации из неструктурированных текстов очень актуально для данных областей.
Из-за роста информации внутри социальных медиа трудно уследить за изменением трендов в той или иной сфере. Данную проблему можно попробовать решить с помощью методов из области NLP.
Одно из наиболее узких направлений в NLP - это тематическое моделирование, оно может позволить из большого количества текстовой информации выделить кластеры тем, которые описываются ключевыми словами.
Но в современной области тематического моделирования существует большая проблема в оценке и сравнении моделей, исследователи описывают и применяют разные методы. На данный момент нет общего подхода в сравнении результатов работы алгоритмов тематического моделирования.
Исходя из данных проблем, мы ставим своей целью обучить модели с помощью алгоритмов тематического моделирования на наборе социальных высказываний. В нашем случае собраны высказывания по теме “Изменение климата”. Затем подобрать набор критериев и оценок, чтобы сравнить полученные результаты.
При подготовке к данной работе мы изучили множество научных источников и ознакомились с различными подходами к оценке тематических моделей. В своих работах исследователи используют разные подходы, внутренние и внешние оценки, но от работы к работе меняется набор этих оценок.
Также был проведен небольшой социальный опрос среди участников тематического форума, которые занимаются тематическим моделированием. По результатам опроса было установлено, что большинство специалистов склоняются к использованию только субъективной экспертной оценке.
Из-за разнообразия подходов к оценке трудно определить, какой набор оценок оптимальный, но в работе [7], автор описывает множество критериев качества тематических моделей. Эта работа дала понимание полной картины подходов в оценке. На основе описанных в работе критериев, составлялся собственный подход к сравнению результатов работы алгоритмов.
✅ Заключение
При изучении итоговых результатов было установлено, что для обработки собранного набора, наиболее подходящим вариантом является обучение модели с помощью алгоритма LDA на корпусе текстов обработанного с помощью TF-IDF. Также мы установили, что наиболее релевантной оценкой является словесная интрузия, так как, по нашему мнению, она наиболее правдоподобно отражает интерпретируемость результатов тематической модели.
А также, при изучении результатов работы моделей, полученных тем, было установлено, что проведенная обработка данных и очищение их от информационного шума оказалась недостаточной, так как не все полученные темы является интерпретируемыми и в некоторых из них появляются неинформативные ключевые слова.
Для развития данной работы необходимо улучшить качество обработки социальных высказываний, возможно с помощью добавления новых методов обработки текста к тем, что использовались нами. Чтобы убедиться в корректности использования такого набора оценок необходимо провести подобное исследование с другим набором моделей и с другим набором данных, а для того, чтобы учесть важность той или ной оценки в наборе необходимо подобрать вес для каждой из оценок, для того чтобы вклад наиболее релевантного критерия был выше.
Таким образом, в рамках данной дипломной работы был проведен литературный обзор, собраны и обротаны социальные высказывания, подобран набор критериев и оценок для проведения сравнительного анализа тематических моделей, с помощью выбранных алгоритмов обучены несколько тематических моделей и проведен сравнительный анализ по подобранной методике.
Результаты работы были представлены на Международной молодежной научной конференции «Математическое и программное обеспечение информационных, технических и экономических систем» 26 - 28 мая 2022 г.





