Тип работы:
Предмет:
Язык работы:


Мультимодальное тематическое моделирование многоязычного корпуса общественно-политических текстов

Работа №143482

Тип работы

Бакалаврская работа

Предмет

лингвистика

Объем работы79
Год сдачи2022
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
34
Не подходит работа?

Узнай цену на написание


Аннотация
Введение 5
Глава 1. Интеграция процедур семантической компрессии в мультимодальных тематических моделях 12
Глава 2. Эксперимент по построению мультимодальной тематической модели корпуса параллельных текстов резолюций ООН 31
Заключение 73
Список использованной литературы 74
Список электронных ресурсов 79

Современная компьютерная лингвистика занимается разными аспектами анализа и обработки текстов на естественных языках. В числе актуальных направлений исследований в области компьютерной лингвистики присутствует автоматическое определение тематики документов, исследование лексического состава тем, кластеризации документов по темам, и т.д.
Тематическое моделирование - это способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов. Существует два крупных класса тематических моделей: алгебраические (основанные на счетных векторных моделях текстов) и вероятностные (описываемые вероятностными распределениями) [Blei, Ng, and Jordan 2003; Daud et al. 2010; Lee, Song, Kim 2010; Коршунов, Гомзин 2012].
Вероятностное тематическое моделирование - построение тематической модели с использованием вероятностных методов описания корпусов документов, к числу которых относятся вероятностный латентный семантический анализ PLSA (Probabilistic Latent Semantic Analysis), латентное размещение Дирихле LDA (Latent Dirichlet Allocation) и ряд других. [Hofmann 1999; Jelodar et al. 2019; Воронцов, Потапенко 2012; Potapenko, Vorontsov 2013; Blei 2012].
Алгоритм построения тематической модели получает на входе корпус текстовых документов. На выходе для каждого документа выдаётся числовой вектор, значениями координат которого являются оценки принадлежности данного документа каждой из тем. Размерность этого вектора равняется числу тем и может либо задаваться пользователем в начале процесса моделирования, либо определяться моделью автоматически. Основной принцип работы таких алгоритмов состоит в том, что тема описывается вероятностным распределением на множестве всех слов текста.
Стандартная тематическая модель учитывает только распределение слов по документам, слов по темам и тем по документам. Добавление дополнительных параметров, характеризующих корпус, позволяет
осуществить переход от стандартной тематической модели к мультимодальной. [Andrews et al. 2009; Roller, Im Walde 2013; Nokel,
Loukachevitch 2015]. Это происходит, например, в моделях, учитывающих разные типы n-грамм (n-граммная тематическая модель), авторство текстов (автор-тематическая модель, Author-Topic Model, ATM), хронологические рамки корпуса (динамическая тематическая модель, Dynamic Topic Model, DTM), языки корпуса (многоязычные тематические модели) и т.д. [Rosen-Zvi et al. 2012; Sha et al. 2020; Vulic et al. 2013; Zosa et al. 2019].
Большинство современных тематических моделей способны находить в корпусе скрытые темы разной степени значимости, однако связи между словами и документами внутри корпуса представлены не во всей полноте в силу ограниченности базовых тематических моделей. Так, темы обычно представлены униграммами, то есть отдельными, наиболее значимыми для понимания текста словами, но не словосочетаниями [Воронцов 2013; Daud et al. 2009]. Это не всегда помогает точно отразить содержание той или иной темы в документе, особенно если речь идет о специализированных текстах, изобилующих терминами и терминосочетаниями, или о художественных текстах, в которых зачастую используются фразеологизмы, метафоры, имена собственные и устойчивые сочетания, которые нельзя разделять и рассматривать как отдельные слова. При создании тематической модели стоит учитывать, что словосочетания, к какому бы типу они не относились (лексико-грамматические конструкции, коллокации, идиомы и т.д.) играют большую роль в представлении семантической и синтаксической структуры связного текста....

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Данное исследование было посвящено изучению и практической реализации алгоритма мультимодального тематического моделирования в задаче семантической компрессии, осуществимого на материале корпуса параллельных текстов резолюций Организации Объединенных Наций за 2000 год.
Для этого были изучены и описаны процедуры семантической компрессии, а также ее реализация на более глобальном уровне - тематическое моделирование. Было исследовано мультимодальное тематическое моделирование, соединяющее в себе несколько алгоритмов выделения n-грамм и ключевых выражений, и основывающееся на работе с многоязычной коллекцией текстовых данных.
Был обоснован выбор алгоритма выделения ключевых слов и выражений и описана специфика его работы на многоязычном корпусе языковых данных. Далее была сформирована комбинированная методика расширения тематической модели LDA n-граммами и ключевыми выражениями, полученными на этапе предобработки или непосредственно во время построения тематической модели.
Была произведена предобработка лингвистических данных и проведен эксперимент по построению тематической модели на корпусе параллельных текстов на русском и английском языках с применением различных вариантов реализации алгоритма тематического моделирования LDA.
Оценка результатов показала, что разные тематические модели могут применяться в разных целях: для поиска кандидатов в переводные эквиваленты, в качестве источников для многоязычных словарей, в задаче расширения тематической модели биграммами и непосредственно моделирования тематической структуры корпуса текстов.


1) Белякова А.Ю., Беляков Ю.Д. Обзор задачи автоматической
суммаризации текста // Инженерный вестник Дона. 10(70). 2020. С. 142-159.
2) Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова
О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие. М.: МИЭМ, 2011.
3) Браславский П., Соколов Е. Сравнение пяти методов извлечения
терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной
Международной конференции «Диалог» (Бекасово, 4-8 июня 2008 г.). М., 2008. С. 67-74.
4) Вознесенская Т. В., Леднов Д.А. Система автоматического
аннотирования текстов с помощью стохастической модели // Машинное обучение и анализ данных. 2018. Т. 4. № 4. С. 266-279.
5) Воронцов К.В. Вероятностное тематическое моделирование.
Электронный учебник. 2013. URL:
http: //www.machinelearning.ru/wiki/images/2/22/V oron-2013 -ptm.pdf
6) Добров А.В. Автоматическая рубрикация новостных сообщений
средствами синтаксической семантики. Дис. ... канд. филол. наук. СПб, 2014.
7) Добров А.В. Автоматическая рубрикация текстов средствами
комплексного лингвистического анализа // Структурная и прикладная лингвистика. Вып. 9. СПб., 2012. С. 135-147.
8) Добровольский Д.О., Кретов А.А., Шаров С.А. Корпус параллельных
текстов: архитектура и возможности использования //
Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М., 2005. С. 263-296.
9) Захаров В.П. Хохлова М.В. Анализ эффективности статистических
методов выявления коллокаций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии. Том 9 (16). М., 2010. С. 137-143.
10) Ирхин И.А., Булатов В.Г., Воронцов К.В. Аддитивная регуляризация тематических моделей с быстрой векторизацией текста // Компьютерные исследования и моделирование. 2020. Т. 12. №. 6. С. 1515-1528.
11) Москвина А.Д., Митрофанова О.А., Ерофеева А.Р., Харабет Я.К. Автоматическое выделение ключевых слов и словосочетаний из русскоязычных корпусов текстов с помощью алгоритма RAKE // Труды Международной конференции “Корпусная лингвистика-2017 . СПб., 2017.
12) Нестерова Н.М., Герте Н.А. Реферирование как способ извлечения и представления основного содержания текста // Вестник Пермского университета. Российская и зарубежная филология. 4(24). 2013. С. 127-132.
13) Нокель М.А. Методы улучшения вероятностных тематических моделей текстовых коллекций на основе лексико­терминологической информации: Дис. ... канд. физ-мат. наук. М.,
2016.
14) Нокель М.А., Лукашевич Н.В. Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами // Вычислительные методы и программирование. 2000. Т. 6.
15) Седова А.Г., Митрофанова О.А. Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции // Компьютерная лингвистика и вычислительные онтологии. СПб., 2017.....39


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ