Тип работы:
Предмет:
Язык работы:


Мультимодальное тематическое моделирование многоязычного корпуса общественно-политических текстов

Работа №127666

Тип работы

Бакалаврская работа

Предмет

лингвистика

Объем работы78
Год сдачи2022
Стоимость4200 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
35
Не подходит работа?

Узнай цену на написание


Введение 5
Глава 1. Интеграция процедур семантической компрессии в мультимодальных тематических моделях 12
Глава 2. Эксперимент по построению мультимодальной тематической модели корпуса параллельных текстов резолюций ООН 31
Заключение 73
Список использованной литературы 74
Список электронных ресурсов 79

Современная компьютерная лингвистика занимается разными аспектами анализа и обработки текстов на естественных языках. В числе актуальных направлений исследований в области компьютерной лингвистики присутствует автоматическое определение тематики документов, исследование лексического состава тем, кластеризации документов по темам, и т.д.
Тематическое моделирование - это способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов. Существует два крупных класса тематических моделей: алгебраические (основанные на счетных векторных моделях текстов) и вероятностные (описываемые вероятностными распределениями) [Blei, Ng, and Jordan 2003; Daud et al. 2010; Lee, Song, Kim 2010; Коршунов, Гомзин 2012].
Вероятностное тематическое моделирование - построение тематической модели с использованием вероятностных методов описания корпусов документов, к числу которых относятся вероятностный латентный семантический анализ PLSA (Probabilistic Latent Semantic Analysis), латентное размещение Дирихле LDA (Latent Dirichlet Allocation) и ряд других. [Hofmann 1999; Jelodar et al. 2019; Воронцов, Потапенко 2012; Potapenko, Vorontsov 2013; Blei 2012].
Алгоритм построения тематической модели получает на входе корпус текстовых документов. На выходе для каждого документа выдаётся числовой вектор, значениями координат которого являются оценки принадлежности данного документа каждой из тем. Размерность этого вектора равняется числу тем и может либо задаваться пользователем в начале процесса моделирования, либо определяться моделью автоматически. Основной принцип работы таких алгоритмов состоит в том, что тема описывается вероятностным распределением на множестве всех слов текста.
Стандартная тематическая модель учитывает только распределение слов по документам, слов по темам и тем по документам. Добавление дополнительных параметров, характеризующих корпус, позволяет осуществить переход от стандартной тематической модели к мультимодальной. [Andrews et al. 2009; Roller, Im Walde 2013; Nokel, Loukachevitch 2015]. Это происходит, например, в моделях, учитывающих разные типы n-грамм (n-граммная тематическая модель), авторство текстов (автор-тематическая модель, Author-Topic Model, ATM), хронологические рамки корпуса (динамическая тематическая модель, Dynamic Topic Model, DTM), языки корпуса (многоязычные тематические модели) и т.д. [Rosen-Zvi et al. 2012; Sha et al. 2020; Vulic et al. 2013; Zosa et al. 2019].
Большинство современных тематических моделей способны находить в корпусе скрытые темы разной степени значимости, однако связи между словами и документами внутри корпуса представлены не во всей полноте в силу ограниченности базовых тематических моделей. Так, темы обычно представлены униграммами, то есть отдельными, наиболее значимыми для понимания текста словами, но не словосочетаниями [Воронцов 2013; Daud et al. 2009]. Это не всегда помогает точно отразить содержание той или иной темы в документе, особенно если речь идет о специализированных текстах, изобилующих терминами и терминосочетаниями, или о художественных текстах, в которых зачастую используются фразеологизмы, метафоры, имена собственные и устойчивые сочетания, которые нельзя разделять и рассматривать как отдельные слова. При создании тематической модели стоит учитывать, что словосочетания, к какому бы типу они не относились (лексико-грамматические конструкции, коллокации, идиомы и т.д.) играют большую роль в представлении семантической и синтаксической структуры связного текста.
В противовес униграммным моделям существуют, например, биграммные модели [Wallach 2006; Yan et al. 2013; Huang et al. 2020], но и они, в свою очередь, не могут претендовать на репрезентативность в отношении словарного наполнения корпуса, поскольку генерируемые ими темы состоят исключительно из словосочетаний и не включают отдельные слова.
Для решения данной проблемы были созданы специальные алгоритмы построения мультимодальных тематических моделей, учитывающие биграммы и сочетания нескольких слов как полноценные единицы анализа; результатом работы этих алгоритмов является обобщенная n-граммная тематическая модель [Седова, 2017].
Под n-граммной тематической моделью мы будем понимать модель коллекции текстовых документов, содержащую в себе не только отдельные слова, характерные для данного текста, но и сочетания двух и более слов, представляющих одно понятие или предмет. В алгоритмах такого типа строится общая тематическая модель, объединяющая два метода представления данных - униграммый и n-граммный. В результате в темах присутствуют как отдельные слова, так и словосочетания, которые могут являться, например, ключевыми выражениями, что положительно влияет на репрезентативность модели. Алгоритмы построения n-граммных тематических моделей можно разделить на две группы по признаку последовательности выделения биграммных сочетаний: это делается либо на этапе выделения тем, либо на этапе предобработки текста. [Hu et al. 2008; Wang, McCallum, Wei 2007; Lau, Baldwin, Newman 2013; Нокель, Лукашевич 2015 ].
В данной работе была предпринята попытка создания мультимодальной n-граммной тематической модели для многоязычного параллельного корпуса текстов.
Тематическое моделирование параллельных многоязычных текстов опирается на алгоритм построения тематических моделей на наборе эквивалентных текстовых данных. Такие тематические модели могут рассматриваться в качестве дополнительного ресурса для систем машинного перевода, и в некоторых случаях могут являться прототипом многоязычного машинного словаря.
Многоязычные тематические модели позволяют эффективно изучать структуру параллельных корпусов текстовых данных, выявлять переводные эквиваленты специфических слов и выражений, а также определять меру расхождения между языками и находить различия в приоритетности тем для анализируемых языков.[УиИе, De Smet, Moens 2011; Mimno et al. 2009].
Тем самым, мультимодальность тематических моделей, созданных в рамках данного исследования, проявляется а) в комбинировании униграмм и n-грамм (коллокаций, ключевых выражений) внутри тем, б) в построении параллельных тем для многоязычного корпуса текстов.
Материалом исследования послужил параллельный многоязычный корпус текстов резолюций ООН от 2000 года, находящийся в открытом доступе и созданный для проведения исследований по машинному обучению и автоматической обработке текстов. Наше внимание сосредоточено на английском и русском корпусах в составе данного многоязычного ресурса. Объем корпуса русскоязычных текстов составляет 2 424 172 словоупотребления, объем англоязычного корпуса - 2 716 043 словоупотребления.
Цель настоящего исследования состоит в практической реализации и экспериментальной оценке мультимодального алгоритма вероятностного тематического моделирования, комбинирующего униграммную модель латентного размещения Дирихле (LDA), алгоритмы выделения n-грамм и алгоритмы автоматического выделения ключевых выражений RAKE, и применяемого для анализа параллельного корпуса текстов резолюций ООН на русском и английском языках.
Для достижения данной цели требуется решить следующие задачи:
1) исследовать теоретические основания процедур семантической компрессии текста, прежде всего, вероятностного тематического моделирования и автоматического выделения ключевых выражений;
2) обосновать выбор LDA как базового алгоритма вероятностного тематического моделирования, исследовать реализацию LDA в библиотеке scikit-learn;
3) обосновать выбор линейки алгоритмов автоматического выделения n-грамм - ключевых выражений и коллокаций в тексте, исследовать их реализации на языке Python;
4) сформулировать комбинированную методику расширения стандартной униграммной модели LDA до n-граммной, что предполагает введение в состав униграммных тем биграммных и триграммных лексических конструкций - ключевых выражений, а также n-грамм - коллокаций;
5) подготовить лингвистические данные для проведения
экспериментов: произвести предобработку находящихся в свободном
доступе корпусов текстов ООН на русском и английском языках.
6) произвести планирование и проведение экспериментов:
a) проведение частеречной разметки корпуса текстов на русском языке;
b) автоматическое выделение ключевых выражений из исследовательских корпусов, сравнение списков ключевых выражений, выделенных для разных языков;
c) разметка выделенных ключевых выражений в корпусах;
d) построение комбинированных n-граммных моделей для корпусов;
7) провести анализ результатов экспериментов.
Объектом исследования является тематическое моделирование русскоязычных и англоязычных параллельных текстов общественно-политического характера, предметом исследования - алгоритмы построения мультимодальных n-граммных многоязычных тематических моделей. В работе используются разнообразные методы количественного и лингвистического анализа данных.
Новизна исследования заключается в том, что в данной работе впервые реализован эксперимент по обучению многоязычных n-граммных тематических моделей, совмещающих два способа формирования n-грамм (с учетом коллокаций и с учетом ключевых выражений) и предполагающих выравнивание тем, содержащих словосочетания - кандидаты в переводные эквиваленты.
Теоретическая значимость данной работы состоит в исследовании и суммаризации доступных на сегодняшний день инструментов обработки естественных языков, выявлении особенностей работы этих инструментов с разными языками, а также в изучении комбинированных алгоритмов тематического моделирования применительно многоязычным корпусам текстов.
Практическая значимость результатов работы состоит в создании и описании метода построения репрезентативных n-граммных тематических моделей, способных отразить тематическое содержание объемных лингвистических данных, что является актуальной задачей обработки текстов на естественных языках и отвечает современной потребности крупных организаций в структурировании и компрессии данных. Полученный алгоритм может применяться в задачах изучения параллельных корпусов текстов, машинного перевода, а также в задачах, касающихся обработки и интерпретации больших текстовых данных, например, семантической компрессии текстов, извлечения и исследования текстовой информации

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Данное исследование было посвящено изучению и практической реализации алгоритма мультимодального тематического моделирования в задаче семантической компрессии, осуществимого на материале корпуса параллельных текстов резолюций Организации Объединенных Наций за 2000 год.
Для этого были изучены и описаны процедуры семантической компрессии, а также ее реализация на более глобальном уровне - тематическое моделирование. Было исследовано мультимодальное тематическое моделирование, соединяющее в себе несколько алгоритмов выделения n-грамм и ключевых выражений, и основывающееся на работе с многоязычной коллекцией текстовых данных.
Был обоснован выбор алгоритма выделения ключевых слов и выражений и описана специфика его работы на многоязычном корпусе языковых данных. Далее была сформирована комбинированная методика расширения тематической модели LDA n-граммами и ключевыми выражениями, полученными на этапе предобработки или непосредственно во время построения тематической модели.
Была произведена предобработка лингвистических данных и проведен эксперимент по построению тематической модели на корпусе параллельных текстов на русском и английском языках с применением различных вариантов реализации алгоритма тематического моделирования LDA.
Оценка результатов показала, что разные тематические модели могут применяться в разных целях: для поиска кандидатов в переводные эквиваленты, в качестве источников для многоязычных словарей, в задаче расширения тематической модели биграммами и непосредственно моделирования тематической структуры корпуса текстов.



1) Белякова А.Ю., Беляков Ю.Д. Обзор задачи автоматической
суммаризации текста // Инженерный вестник Дона. 10(70). 2020. С. 142-159.
2) Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова
О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие. М.: МИЭМ, 2011.
3) Браславский П., Соколов Е. Сравнение пяти методов извлечения
терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной
Международной конференции «Диалог» (Бекасово, 4-8 июня 2008 г.). М., 2008. С. 67-74.
4) Вознесенская Т. В., Леднов Д.А. Система автоматического
аннотирования текстов с помощью стохастической модели // Машинное обучение и анализ данных. 2018. Т. 4. № 4. С. 266-279.
5) Воронцов К.В. Вероятностное тематическое моделирование.
Электронный учебник. 2013. URL:
http: //www.machinelearning.ru/wiki/images/2/22/V oron-2013 -ptm.pdf
6) Добров А.В. Автоматическая рубрикация новостных сообщений
средствами синтаксической семантики. Дис. ... канд. филол. наук. СПб, 2014.
7) Добров А.В. Автоматическая рубрикация текстов средствами
комплексного лингвистического анализа // Структурная и прикладная лингвистика. Вып. 9. СПб., 2012. С. 135-147.
8) Добровольский Д.О., Кретов А.А., Шаров С.А. Корпус параллельных
текстов: архитектура и возможности использования //
Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М., 2005. С. 263-296.
9) Захаров В.П. Хохлова М.В. Анализ эффективности статистических
методов выявления коллокаций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии. Том 9 (16). М., 2010. С. 137-143.
10) Ирхин И.А., Булатов В.Г., Воронцов К.В. Аддитивная регуляризация тематических моделей с быстрой векторизацией текста // Компьютерные исследования и моделирование. 2020. Т. 12. №. 6. С. 1515-1528.
11) Москвина А.Д., Митрофанова О.А., Ерофеева А.Р., Харабет Я.К. Автоматическое выделение ключевых слов и словосочетаний из русскоязычных корпусов текстов с помощью алгоритма RAKE // Труды Международной конференции “Корпусная лингвистика-2017 . СПб., 2017.
12) Нестерова Н.М., Герте Н.А. Реферирование как способ извлечения и представления основного содержания текста // Вестник Пермского университета. Российская и зарубежная филология. 4(24). 2013. С. 127-132.
13) Нокель М.А. Методы улучшения вероятностных тематических моделей текстовых коллекций на основе лексико¬терминологической информации: Дис. ... канд. физ-мат. наук. М.,
2016.
14) Нокель М.А., Лукашевич Н.В. Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами // Вычислительные методы и программирование. 2000. Т. 6.
15) Седова А.Г., Митрофанова О.А. Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции // Компьютерная лингвистика и вычислительные онтологии. СПб., 2017.
16) Ягунова Е.В., Пивоварова Л.М. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Научно-техническая информация. Серия 2. 2010. С. 30-40.
17) Bird S., Klein E., Loper E. Natural language processing with Python: analyzing text with the natural language toolkit. O'Reilly Media, Inc., 2009.
18) Blei D.M, Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003. Vol. 3.
19) Campos R., Mangaravite V., Pasquali A., Jorge A., Nunes C., Jatowt A. A Text Feature Based Automatic Keyword Extraction Method for Single Documents // Proceedings of the 40th European Conference on Information Retrieval (ECIR'18), Grenoble, France, 2018.
20) Campos R., Mangaravite V., Pasquali A., Jorge A., Nunes C., Jatowt A. YAKE! Collection-independent Automatic Keyword Extractor // Proceedings of the 40th European Conference on Information Retrieval (ECIR'18), Grenoble, France, 2018.
21) Hofmann T. Probabilistic latent semantic analysis // Proceedings of the 15th Annual Conference on Uncertainty in Artificial Intelligence (UAI), Stockholm, Sweden, July 30-August 1, 1999.
22) Huang J. et al. Improving biterm topic model with word embeddings // World Wide Web . 23.6. 2020. P. 3099-3124.
23) Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Khachay, M., Konstantinova, N., Panchenko, A., Ignatov, D., Labunets, V. (eds.) Analysis of Images, Social Networks and Texts. AIST 2015. Communications in Computer and Information Science. Vol 542. Springer, 2015.
24) Lau J.H., Baldwin T., Newman D. On Collocations and Topic Models // ACM 131 Transactions on Speech and Language Processing. ACM Press. Vol. 10, №3. 2013.
25) Loukachevitch N., Nokel M., Ivanov K. Combining Thesaurus Knowledge and Probabilistic Topic Models // International Conference on Analysis of Images, Social Networks and Texts. Springer, Cham,
2017. P. 59-71.
26) Nokel M., Loukachevich N. Accounting ngramms and multi-word terms can improve topic models // Proceedings of the 12th Workshop on Multiword Expressions, Berlin, Germany, August 7-12, 2016. P. 44-49.
27) Roller S., Im Walde S. A multimodal LDA model integrating textual, cognitive and visual modalities // Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. 2013.
28) Rose S. et al. Automatic keyword extraction from individual documents // Text mining: applications and theory. 1 (2010). P. 1-20.
29) Rose S.J., Cowley W.E., Crow V.L., Cramer N.O. Rapid Automatic Keyword Extraction for Information Retrieval and Analysis. 2009. URL: http: //www.google.co.ve/patents/U S8131735
30) Rosen-Zvi M. et al. The author-topic model for authors and documents // arXiv preprint arXiv: 1207.4169 (2012).
31) Segalovich I. A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. MLMTA'03, June 23 -26, 2003. Las Vegas, Nevada, USA, 2003.
32) Sha H. et al. Dynamic topic modeling of the COVID-19 Twitter narrative among US governors and cabinet executives // arXiv preprint arXiv:2004.11692 (2020).
33) Sokolova E.V., Moskvina A.D. Mitrofanova O.A. Keyphrase extraction
from the Russian corpus on Linguistics by means of KEA and RAKE algorithms // Data Analytics and Management in Data Intensive Domains: Proceedings of the XX International Conference.
DAMDID/RCDL’2018, October 9-12, 2018, Moscow. P. 369-372.
34) Vulic I. et al. Probabilistic topic modeling in multilingual settings: An overview of its methodology and applications // Information Processing & Management. 51(1). 2015. P. 111-147.
35) Wallach H.M. Topic modeling: beyond bag-of-words // Proceedings of the 23rd International conference on Machine learning. 2006.
36) Witten I.H., Paynter G.W., Frank E., Gutwin C., Nevill-Manning C.G.
KEA: Practical Automatic Keyphrase Extraction // Proceedings of the 4th ACM conference on Digital libraries. 1999. URL: http: //www.cs.waikato .ac. nz/~eibe/pubs/chap_W it ten- et-
al_Windows.pdf
37) Yan X. et al. A biterm topic model for short texts // Proceedings of the 22nd international conference on World Wide Web. 2013.
38) Ziemski M., Junczys-Dowmunt M., Pouliquen B. The United Nations
Parallel Corpus v1.0. // Proceedings of the Tenth International
Conference on Language Resources and Evaluation (LREC'16), Portoroz, Slovenia. European Language Resources Association (ELRA). 2016. P. 3530-3534.
39) Zosa E., Granroth-Wilding M. Multilingual dynamic topic model // RANLP 2019-Natural Language Processing a Deep Learning World Proceedings. 2019.
Список электронных ресурсов
1) Универсальная научно-популярная энциклопедия «Кругосвет» (https: //www.krugosvet.ru/)
2) Образовательный портал по машинному обучению «Machine Learning Plus» (https://www.machinelearningplus.com/)
3) Сайт по научной литературе «Science Direct» (https://www.sciencedirect.com/)
4) Сообщество IT-специалистов «Хабр» (https://habr.com/ru/)
5) Студенческий практикум программистов при Московском Авиационном Институте «Лямбда» (https://lambda-it.ru/about)
6) Портал о машинном обучении
(http://www.machineleaming.ru/wiki/index.php?title=%D0%97%D0%B0%D0%B 3%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0%D 1 %8F_%D 1 %81 %D 1 %82 %D 1 %80%D0%B0%D0%BD%D0%B8%D 1 %86%D0%B0)


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ