📄Работа №143482

Тема: Мультимодальное тематическое моделирование многоязычного корпуса общественно-политических текстов

📝

Тип работы Бакалаврская работа

📚

Предмет лингвистика

📄

Объем: 79 листов

📅

Год: 2022

👁️

4600 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

Аннотация
Введение 5
Глава 1. Интеграция процедур семантической компрессии в мультимодальных тематических моделях 12
Глава 2. Эксперимент по построению мультимодальной тематической модели корпуса параллельных текстов резолюций ООН 31
Заключение 73
Список использованной литературы 74
Список электронных ресурсов 79

📖 Введение

Современная компьютерная лингвистика занимается разными аспектами анализа и обработки текстов на естественных языках. В числе актуальных направлений исследований в области компьютерной лингвистики присутствует автоматическое определение тематики документов, исследование лексического состава тем, кластеризации документов по темам, и т.д.
Тематическое моделирование - это способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документов. Существует два крупных класса тематических моделей: алгебраические (основанные на счетных векторных моделях текстов) и вероятностные (описываемые вероятностными распределениями) [Blei, Ng, and Jordan 2003; Daud et al. 2010; Lee, Song, Kim 2010; Коршунов, Гомзин 2012].
Вероятностное тематическое моделирование - построение тематической модели с использованием вероятностных методов описания корпусов документов, к числу которых относятся вероятностный латентный семантический анализ PLSA (Probabilistic Latent Semantic Analysis), латентное размещение Дирихле LDA (Latent Dirichlet Allocation) и ряд других. [Hofmann 1999; Jelodar et al. 2019; Воронцов, Потапенко 2012; Potapenko, Vorontsov 2013; Blei 2012].
Алгоритм построения тематической модели получает на входе корпус текстовых документов. На выходе для каждого документа выдаётся числовой вектор, значениями координат которого являются оценки принадлежности данного документа каждой из тем. Размерность этого вектора равняется числу тем и может либо задаваться пользователем в начале процесса моделирования, либо определяться моделью автоматически. Основной принцип работы таких алгоритмов состоит в том, что тема описывается вероятностным распределением на множестве всех слов текста.
Стандартная тематическая модель учитывает только распределение слов по документам, слов по темам и тем по документам. Добавление дополнительных параметров, характеризующих корпус, позволяет
осуществить переход от стандартной тематической модели к мультимодальной. [Andrews et al. 2009; Roller, Im Walde 2013; Nokel,
Loukachevitch 2015]. Это происходит, например, в моделях, учитывающих разные типы n-грамм (n-граммная тематическая модель), авторство текстов (автор-тематическая модель, Author-Topic Model, ATM), хронологические рамки корпуса (динамическая тематическая модель, Dynamic Topic Model, DTM), языки корпуса (многоязычные тематические модели) и т.д. [Rosen-Zvi et al. 2012; Sha et al. 2020; Vulic et al. 2013; Zosa et al. 2019].
Большинство современных тематических моделей способны находить в корпусе скрытые темы разной степени значимости, однако связи между словами и документами внутри корпуса представлены не во всей полноте в силу ограниченности базовых тематических моделей. Так, темы обычно представлены униграммами, то есть отдельными, наиболее значимыми для понимания текста словами, но не словосочетаниями [Воронцов 2013; Daud et al. 2009]. Это не всегда помогает точно отразить содержание той или иной темы в документе, особенно если речь идет о специализированных текстах, изобилующих терминами и терминосочетаниями, или о художественных текстах, в которых зачастую используются фразеологизмы, метафоры, имена собственные и устойчивые сочетания, которые нельзя разделять и рассматривать как отдельные слова. При создании тематической модели стоит учитывать, что словосочетания, к какому бы типу они не относились (лексико-грамматические конструкции, коллокации, идиомы и т.д.) играют большую роль в представлении семантической и синтаксической структуры связного текста....

✅ Заключение

Данное исследование было посвящено изучению и практической реализации алгоритма мультимодального тематического моделирования в задаче семантической компрессии, осуществимого на материале корпуса параллельных текстов резолюций Организации Объединенных Наций за 2000 год.
Для этого были изучены и описаны процедуры семантической компрессии, а также ее реализация на более глобальном уровне - тематическое моделирование. Было исследовано мультимодальное тематическое моделирование, соединяющее в себе несколько алгоритмов выделения n-грамм и ключевых выражений, и основывающееся на работе с многоязычной коллекцией текстовых данных.
Был обоснован выбор алгоритма выделения ключевых слов и выражений и описана специфика его работы на многоязычном корпусе языковых данных. Далее была сформирована комбинированная методика расширения тематической модели LDA n-граммами и ключевыми выражениями, полученными на этапе предобработки или непосредственно во время построения тематической модели.
Была произведена предобработка лингвистических данных и проведен эксперимент по построению тематической модели на корпусе параллельных текстов на русском и английском языках с применением различных вариантов реализации алгоритма тематического моделирования LDA.
Оценка результатов показала, что разные тематические модели могут применяться в разных целях: для поиска кандидатов в переводные эквиваленты, в качестве источников для многоязычных словарей, в задаче расширения тематической модели биграммами и непосредственно моделирования тематической структуры корпуса текстов.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1) Белякова А.Ю., Беляков Ю.Д. Обзор задачи автоматической
суммаризации текста // Инженерный вестник Дона. 10(70). 2020. С. 142-159.
2) Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова
О.В., Ягунова Е.В. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие. М.: МИЭМ, 2011.
3) Браславский П., Соколов Е. Сравнение пяти методов извлечения
терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной
Международной конференции «Диалог» (Бекасово, 4-8 июня 2008 г.). М., 2008. С. 67-74.
4) Вознесенская Т. В., Леднов Д.А. Система автоматического
аннотирования текстов с помощью стохастической модели // Машинное обучение и анализ данных. 2018. Т. 4. № 4. С. 266-279.
5) Воронцов К.В. Вероятностное тематическое моделирование.
Электронный учебник. 2013. URL:
http: //www.machinelearning.ru/wiki/images/2/22/V oron-2013 -ptm.pdf
6) Добров А.В. Автоматическая рубрикация новостных сообщений
средствами синтаксической семантики. Дис. ... канд. филол. наук. СПб, 2014.
7) Добров А.В. Автоматическая рубрикация текстов средствами
комплексного лингвистического анализа // Структурная и прикладная лингвистика. Вып. 9. СПб., 2012. С. 135-147.
8) Добровольский Д.О., Кретов А.А., Шаров С.А. Корпус параллельных
текстов: архитектура и возможности использования //
Национальный корпус русского языка: 2003-2005. Результаты и перспективы. М., 2005. С. 263-296.
9) Захаров В.П. Хохлова М.В. Анализ эффективности статистических
методов выявления коллокаций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии. Том 9 (16). М., 2010. С. 137-143.
10) Ирхин И.А., Булатов В.Г., Воронцов К.В. Аддитивная регуляризация тематических моделей с быстрой векторизацией текста // Компьютерные исследования и моделирование. 2020. Т. 12. №. 6. С. 1515-1528.
11) Москвина А.Д., Митрофанова О.А., Ерофеева А.Р., Харабет Я.К. Автоматическое выделение ключевых слов и словосочетаний из русскоязычных корпусов текстов с помощью алгоритма RAKE // Труды Международной конференции “Корпусная лингвистика-2017 . СПб., 2017.
12) Нестерова Н.М., Герте Н.А. Реферирование как способ извлечения и представления основного содержания текста // Вестник Пермского университета. Российская и зарубежная филология. 4(24). 2013. С. 127-132.
13) Нокель М.А. Методы улучшения вероятностных тематических моделей текстовых коллекций на основе лексикотерминологической информации: Дис. ... канд. физ-мат. наук. М.,
2016.
14) Нокель М.А., Лукашевич Н.В. Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами // Вычислительные методы и программирование. 2000. Т. 6.
15) Седова А.Г., Митрофанова О.А. Тематическое моделирование русскоязычных текстов с опорой на леммы и лексические конструкции // Компьютерная лингвистика и вычислительные онтологии. СПб., 2017.....39

🖼 Скриншоты

рис.1 Содержание

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (209234)

Статьи

»» Все статьи

Вход в личный кабинет