Тема: Мультимодальное тематическое моделирование многоязычного корпуса общественно-политических текстов
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Интеграция процедур семантической компрессии в мультимодальных тематических моделях 12
Глава 2. Эксперимент по построению мультимодальной тематической модели корпуса параллельных текстов резолюций ООН 31
Заключение 73
Список использованной литературы 74
Список электронных ресурсов 79
📖 Введение
Тематическое моделирование - это способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов. Существует два крупных класса тематических моделей: алгебраические (основанные на счетных векторных моделях текстов) и вероятностные (описываемые вероятностными распределениями) [Blei, Ng, and Jordan 2003; Daud et al. 2010; Lee, Song, Kim 2010; Коршунов, Гомзин 2012].
Вероятностное тематическое моделирование - построение тематической модели с использованием вероятностных методов описания корпусов документов, к числу которых относятся вероятностный латентный семантический анализ PLSA (Probabilistic Latent Semantic Analysis), латентное размещение Дирихле LDA (Latent Dirichlet Allocation) и ряд других. [Hofmann 1999; Jelodar et al. 2019; Воронцов, Потапенко 2012; Potapenko, Vorontsov 2013; Blei 2012].
Алгоритм построения тематической модели получает на входе корпус текстовых документов. На выходе для каждого документа выдаётся числовой вектор, значениями координат которого являются оценки принадлежности данного документа каждой из тем. Размерность этого вектора равняется числу тем и может либо задаваться пользователем в начале процесса моделирования, либо определяться моделью автоматически. Основной принцип работы таких алгоритмов состоит в том, что тема описывается вероятностным распределением на множестве всех слов текста.
Стандартная тематическая модель учитывает только распределение слов по документам, слов по темам и тем по документам. Добавление дополнительных параметров, характеризующих корпус, позволяет осуществить переход от стандартной тематической модели к мультимодальной. [Andrews et al. 2009; Roller, Im Walde 2013; Nokel, Loukachevitch 2015]. Это происходит, например, в моделях, учитывающих разные типы n-грамм (n-граммная тематическая модель), авторство текстов (автор-тематическая модель, Author-Topic Model, ATM), хронологические рамки корпуса (динамическая тематическая модель, Dynamic Topic Model, DTM), языки корпуса (многоязычные тематические модели) и т.д. [Rosen-Zvi et al. 2012; Sha et al. 2020; Vulic et al. 2013; Zosa et al. 2019].
Большинство современных тематических моделей способны находить в корпусе скрытые темы разной степени значимости, однако связи между словами и документами внутри корпуса представлены не во всей полноте в силу ограниченности базовых тематических моделей. Так, темы обычно представлены униграммами, то есть отдельными, наиболее значимыми для понимания текста словами, но не словосочетаниями [Воронцов 2013; Daud et al. 2009]. Это не всегда помогает точно отразить содержание той или иной темы в документе, особенно если речь идет о специализированных текстах, изобилующих терминами и терминосочетаниями, или о художественных текстах, в которых зачастую используются фразеологизмы, метафоры, имена собственные и устойчивые сочетания, которые нельзя разделять и рассматривать как отдельные слова. При создании тематической модели стоит учитывать, что словосочетания, к какому бы типу они не относились (лексико-грамматические конструкции, коллокации, идиомы и т.д.) играют большую роль в представлении семантической и синтаксической структуры связного текста.
В противовес униграммным моделям существуют, например, биграммные модели [Wallach 2006; Yan et al. 2013; Huang et al. 2020], но и они, в свою очередь, не могут претендовать на репрезентативность в отношении словарного наполнения корпуса, поскольку генерируемые ими темы состоят исключительно из словосочетаний и не включают отдельные слова.
Для решения данной проблемы были созданы специальные алгоритмы построения мультимодальных тематических моделей, учитывающие биграммы и сочетания нескольких слов как полноценные единицы анализа; результатом работы этих алгоритмов является обобщенная n-граммная тематическая модель [Седова, 2017].
Под n-граммной тематической моделью мы будем понимать модель коллекции текстовых документов, содержащую в себе не только отдельные слова, характерные для данного текста, но и сочетания двух и более слов, представляющих одно понятие или предмет. В алгоритмах такого типа строится общая тематическая модель, объединяющая два метода представления данных - униграммый и n-граммный. В результате в темах присутствуют как отдельные слова, так и словосочетания, которые могут являться, например, ключевыми выражениями, что положительно влияет на репрезентативность модели. Алгоритмы построения n-граммных тематических моделей можно разделить на две группы по признаку последовательности выделения биграммных сочетаний: это делается либо на этапе выделения тем, либо на этапе предобработки текста. [Hu et al. 2008; Wang, McCallum, Wei 2007; Lau, Baldwin, Newman 2013; Нокель, Лукашевич 2015 ].
В данной работе была предпринята попытка создания мультимодальной n-граммной тематической модели для многоязычного параллельного корпуса текстов.
Тематическое моделирование параллельных многоязычных текстов опирается на алгоритм построения тематических моделей на наборе эквивалентных текстовых данных. Такие тематические модели могут рассматриваться в качестве дополнительного ресурса для систем машинного перевода, и в некоторых случаях могут являться прототипом многоязычного машинного словаря.
Многоязычные тематические модели позволяют эффективно изучать структуру параллельных корпусов текстовых данных, выявлять переводные эквиваленты специфических слов и выражений, а также определять меру расхождения между языками и находить различия в приоритетности тем для анализируемых языков.[УиИе, De Smet, Moens 2011; Mimno et al. 2009].
Тем самым, мультимодальность тематических моделей, созданных в рамках данного исследования, проявляется а) в комбинировании униграмм и n-грамм (коллокаций, ключевых выражений) внутри тем, б) в построении параллельных тем для многоязычного корпуса текстов.
Материалом исследования послужил параллельный многоязычный корпус текстов резолюций ООН от 2000 года, находящийся в открытом доступе и созданный для проведения исследований по машинному обучению и автоматической обработке текстов. Наше внимание сосредоточено на английском и русском корпусах в составе данного многоязычного ресурса. Объем корпуса русскоязычных текстов составляет 2 424 172 словоупотребления, объем англоязычного корпуса - 2 716 043 словоупотребления.
Цель настоящего исследования состоит в практической реализации и экспериментальной оценке мультимодального алгоритма вероятностного тематического моделирования, комбинирующего униграммную модель латентного размещения Дирихле (LDA), алгоритмы выделения n-грамм и алгоритмы автоматического выделения ключевых выражений RAKE, и применяемого для анализа параллельного корпуса текстов резолюций ООН на русском и английском языках.
Для достижения данной цели требуется решить следующие задачи:
1) исследовать теоретические основания процедур семантической компрессии текста, прежде всего, вероятностного тематического моделирования и автоматического выделения ключевых выражений;
2) обосновать выбор LDA как базового алгоритма вероятностного тематического моделирования, исследовать реализацию LDA в библиотеке scikit-learn;
3) обосновать выбор линейки алгоритмов автоматического выделения n-грамм - ключевых выражений и коллокаций в тексте, исследовать их реализации на языке Python;
4) сформулировать комбинированную методику расширения стандартной униграммной модели LDA до n-граммной, что предполагает введение в состав униграммных тем биграммных и триграммных лексических конструкций - ключевых выражений, а также n-грамм - коллокаций;
5) подготовить лингвистические данные для проведения
экспериментов: произвести предобработку находящихся в свободном
доступе корпусов текстов ООН на русском и английском языках.
6) произвести планирование и проведение экспериментов:
a) проведение частеречной разметки корпуса текстов на русском языке;
b) автоматическое выделение ключевых выражений из исследовательских корпусов, сравнение списков ключевых выражений, выделенных для разных языков;
c) разметка выделенных ключевых выражений в корпусах;
d) построение комбинированных n-граммных моделей для корпусов;
7) провести анализ результатов экспериментов.
Объектом исследования является тематическое моделирование русскоязычных и англоязычных параллельных текстов общественно-политического характера, предметом исследования - алгоритмы построения мультимодальных n-граммных многоязычных тематических моделей. В работе используются разнообразные методы количественного и лингвистического анализа данных.
Новизна исследования заключается в том, что в данной работе впервые реализован эксперимент по обучению многоязычных n-граммных тематических моделей, совмещающих два способа формирования n-грамм (с учетом коллокаций и с учетом ключевых выражений) и предполагающих выравнивание тем, содержащих словосочетания - кандидаты в переводные эквиваленты.
Теоретическая значимость данной работы состоит в исследовании и суммаризации доступных на сегодняшний день инструментов обработки естественных языков, выявлении особенностей работы этих инструментов с разными языками, а также в изучении комбинированных алгоритмов тематического моделирования применительно многоязычным корпусам текстов.
Практическая значимость результатов работы состоит в создании и описании метода построения репрезентативных n-граммных тематических моделей, способных отразить тематическое содержание объемных лингвистических данных, что является актуальной задачей обработки текстов на естественных языках и отвечает современной потребности крупных организаций в структурировании и компрессии данных. Полученный алгоритм может применяться в задачах изучения параллельных корпусов текстов, машинного перевода, а также в задачах, касающихся обработки и интерпретации больших текстовых данных, например, семантической компрессии текстов, извлечения и исследования текстовой информации
✅ Заключение
Для этого были изучены и описаны процедуры семантической компрессии, а также ее реализация на более глобальном уровне - тематическое моделирование. Было исследовано мультимодальное тематическое моделирование, соединяющее в себе несколько алгоритмов выделения n-грамм и ключевых выражений, и основывающееся на работе с многоязычной коллекцией текстовых данных.
Был обоснован выбор алгоритма выделения ключевых слов и выражений и описана специфика его работы на многоязычном корпусе языковых данных. Далее была сформирована комбинированная методика расширения тематической модели LDA n-граммами и ключевыми выражениями, полученными на этапе предобработки или непосредственно во время построения тематической модели.
Была произведена предобработка лингвистических данных и проведен эксперимент по построению тематической модели на корпусе параллельных текстов на русском и английском языках с применением различных вариантов реализации алгоритма тематического моделирования LDA.
Оценка результатов показала, что разные тематические модели могут применяться в разных целях: для поиска кандидатов в переводные эквиваленты, в качестве источников для многоязычных словарей, в задаче расширения тематической модели биграммами и непосредственно моделирования тематической структуры корпуса текстов.



