АННОТАЦИЯ 3
ВВЕДЕНИЕ 6
1 Обработка естественного языка 8
2 Тематическое моделирование 12
3 Используемые алгоритмы 15
3.1 Латентно семантический анализ 15
3.2 Неотрицательная матричная факторизация 17
3.3 Латентное размещение Дирихле 18
4 Подготовка данных 21
4.1 Система “Крибрум”. Сбор данных 21
4.2 Описание данных 22
4.3 Методика обработки социальных высказываний 25
4.4 Реализация обработки данных и получение итогового набора
данных 26
5 Реализация алгоритмов 32
5.1 Выбор инструментов 32
5.2 Обучение моделей 32
6 Сравнительный анализ 36
6.1 Внутренняя оценка 36
6.2 Внешняя оценка 36
6.3 Итог сравнительного анализа 38
ЗАКЛЮЧЕНИЕ 41
ЛИТЕРАТУРА 43
В современном мире накопление и появление новой информации происходит с огромной скоростью. Специалисты в области информатики и компьютерных наук постоянно развивают методы хранения данных, работы с ними, передачу данных и их защиту. Помимо этого, происходит расширение возможностей по обработке и анализу информации. Сейчас с помощью компьютерных технологий мы можем работать с различными видами информации: числа, изображения, звуковые записи, а также текстовой информацией. Но до сих пор одним из основных способов обмена информацией в сети это текстовые сообщения, которые являются неструктурированной информацией. Люди в интернете ежедневно обмениваются новостями, публикуют собственные мысли, а также проводят дискуссии по поводу того или иного высказывания.
По этим причинам на сегодняшний день набирает популярность направление NLP, Natural Language Processing, или же Обработка Естественных языков. Все больше специалистов в области обработки данных и специалисты смежных областей, понимают важность этого направления. При достижении новых результатов в данной области, будут продвигаться и исследования в областях, к которым были приложены новые методы. Особенно это касается сферы социальных, психологических и лингвистических исследований, так как получение информации из неструктурированных текстов очень актуально для данных областей.
Из-за роста информации внутри социальных медиа трудно уследить за изменением трендов в той или иной сфере. Данную проблему можно попробовать решить с помощью методов из области NLP.
Одно из наиболее узких направлений в NLP - это тематическое моделирование, оно может позволить из большого количества текстовой информации выделить кластеры тем, которые описываются ключевыми словами.
Но в современной области тематического моделирования существует большая проблема в оценке и сравнении моделей, исследователи описывают и применяют разные методы. На данный момент нет общего подхода в сравнении результатов работы алгоритмов тематического моделирования.
Исходя из данных проблем, мы ставим своей целью обучить модели с помощью алгоритмов тематического моделирования на наборе социальных высказываний. В нашем случае собраны высказывания по теме “Изменение климата”. Затем подобрать набор критериев и оценок, чтобы сравнить полученные результаты.
При подготовке к данной работе мы изучили множество научных источников и ознакомились с различными подходами к оценке тематических моделей. В своих работах исследователи используют разные подходы, внутренние и внешние оценки, но от работы к работе меняется набор этих оценок.
Также был проведен небольшой социальный опрос среди участников тематического форума, которые занимаются тематическим моделированием. По результатам опроса было установлено, что большинство специалистов склоняются к использованию только субъективной экспертной оценке.
Из-за разнообразия подходов к оценке трудно определить, какой набор оценок оптимальный, но в работе [7], автор описывает множество критериев качества тематических моделей. Эта работа дала понимание полной картины подходов в оценке. На основе описанных в работе критериев, составлялся собственный подход к сравнению результатов работы алгоритмов.
В результате работы было изучено множество литературных источников, которые описывают область тематического моделирования и оценку тематических моделей, а также проведен социальный опрос специалистов, занимающихся тематическим моделированием. После анализа полученных сведений был сделан вывод, о том, что в данной области не существует “золотого стандарта” которого бы, придерживались специалисты при оценке результатов своих работ. Поэтому был подобран собственный набор оценок, по которому мы провели сравнительный анализ полученных нами моделей. Сравниваемые модели обучались на собранном наборе данных, который содержит социальные высказывания на тему “Изменение климата”.
При изучении итоговых результатов было установлено, что для обработки собранного набора, наиболее подходящим вариантом является обучение модели с помощью алгоритма LDA на корпусе текстов обработанного с помощью TF-IDF. Также мы установили, что наиболее релевантной оценкой является словесная интрузия, так как, по нашему мнению, она наиболее правдоподобно отражает интерпретируемость результатов тематической модели.
А также, при изучении результатов работы моделей, полученных тем, было установлено, что проведенная обработка данных и очищение их от информационного шума оказалась недостаточной, так как не все полученные темы является интерпретируемыми и в некоторых из них появляются неинформативные ключевые слова.
Для развития данной работы необходимо улучшить качество обработки социальных высказываний, возможно с помощью добавления новых методов обработки текста к тем, что использовались нами. Чтобы убедиться в корректности использования такого набора оценок необходимо провести подобное исследование с другим набором моделей и с другим набором данных, а для того, чтобы учесть важность той или ной оценки в наборе необходимо подобрать вес для каждой из оценок, для того чтобы вклад наиболее релевантного критерия был выше.
Таким образом, в рамках данной дипломной работы был проведен литературный обзор, собраны и обротаны социальные высказывания, подобран набор критериев и оценок для проведения сравнительного анализа тематических моделей, с помощью выбранных алгоритмов обучены несколько тематических моделей и проведен сравнительный анализ по подобранной методике.
Результаты работы были представлены на Международной молодежной научной конференции «Математическое и программное обеспечение информационных, технических и экономических систем» 26 - 28 мая 2022 г.
1. Воложанин С. С. Применение искусственного интеллекта / С. С.
Воложанин // Язык в сфере профессиональной коммуникации: сборник материалов международной научно-практической конференции преподавателей, аспирантов и студентов (Екатеринбург, 28 мая 2020 г.). — Екатеринбург: ООО «Издательский Дом «Ажур», 2020. — С. 492-499.
2. Аверкин А.Н., Гаазе-Рапопорт М.Г., Поспелов Д.А. Толковый словарь по искусственному интеллекту. - М.: Радио и связь, 1992. - 256 с.
3. Суюнбаева А. Ж. Знаковый характер языка: естественные и искусственные языки // Вестник Челябинского государственного университета. — 2015. — Выпуск 98. — С. 175-178.
4. Автоматическая обработка текстов на естественном языке и анализ данных: учеб. пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. — М.: Изд-во НИУ ВШЭ, 2017. — 269 с.
5. Chien J.-T., Chang Y.-L. Bayesian sparse topic model // Journal of Signal Processessing Systems. — 2013. — Vol. 74. — Pp. 375-389.
6. Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China. — 2010. — Vol. 4, no. 2. — Pp. 280-301.
7. Булатов В.Г. Методы оценивания качества и многокритериальной оптимизации тематических моделей в библиотеке TopicNet: дис. ... канд. техн. наук: 05.13.18 / Булатов Виктор Геннадьевич. - В., 2020. - 147 с.
8. G. Lisowsky and L. Rost. Konkordanz zum hebraischen Alten Testament.
Deutsche Bibelgesellschaft, 1958
9. Антон Коршунов, Андрей Гомзин Тематическое моделирование на естественном языке // Труды института системного программирования РАН. — 2012. — 23. — С. 215-244.
10. Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка. — СПб.: Питер, 2019. — 368 с.
11. David M. Blei Probalistic topic models // Communications of the ACM, April 2012, Vol. 55 No. 4, Pages 77-84.
12. Parhomenko P.A., Grigorev A.A., Astrakhantsev N.A. A survey and an experimental comparison of methods for text clustering: application to scientific articles. Trudy ISP RAN/Proc. ISP RAS, 2017, vol. 29, issue 2, pp. 161-200 (in Russian). DOI: 10.15514/ISPRAS-2017-29(2)-6
13. Глушков, Н. А. Анализ методов тематического моделирования текстов на естественном языке / Н. А. Глушков. — Текст: непосредственный // Молодой ученый. — 2018. — № 19 (205). — С. 101-103. — URL: https://moluch.ru/archive/205/50247/ (дата обращения: 28.03.2022).
14. Paatero P., Tapper U. Positive matrix factorization: A non-negative factor model with optimal utilization of error estimates of data
values // Environmetrics. — 1994. — Т. 5, vol.
2. — doi:10.1002/env.3170050203
15. Lee D.D., Seung H.S. Algorithms for Non-negative Matrix Factorization // Proc. 13th Int. Conf. Neural Information Processing Systems. Cambridge, MA, USA: MIT Press, 2000.
..23