Тип работы:
Предмет:
Язык работы:


Выравнивание русских предложных конструкций и их эквивалентов в агглютинативных языках при создании параллельных корпусов

Работа №128556

Тип работы

Магистерская диссертация

Предмет

лингвистика

Объем работы79
Год сдачи2021
Стоимость5400 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
11
Не подходит работа?

Узнай цену на написание


Введение 4
Глава 1. Проблема выравнивания 8
1.1. Выравнивание в контексте обработки естественного языка 8
1.2. Определение выравнивания 11
1.3. Уровни выравнивания 12
1.3.1. Выравнивание на уровне морфем 12
1.3.2. Выравнивание на уровне лексем 14
1.3.3. Выравнивание на уровне словосочетаний 15
1.3.4. Выравнивание на уровне предложений 17
1.4. Сложности при выравнивании 18
1.5. Системы выравнивания параллельных текстов 19
1.6. Статистические модели выравнивания 21
1.6.1. Giza++ 22
1.6.2. fast_align 23
1.6.3. eflomal 24
1.7. Нейронные модели выравнивания 24
1.8. Выводы по главе 1 26
Глава 2. Описание изучаемых языков 27
2.1. Роль словоизменительных и словообразовательных особен­ностей языков в выравнивании 27
2.2. Словоизменение и словообразование в русском языке 27
2.3. Предлоги и предложные конструкции в русском языке 30
2.4. Словообразование и словоизменение в венгерском языке 35
2.5. Способы классификации русских предложных конструкций и их эквивалентов в венгерском языке 39
2.6. Выводы по главе 2 42
Глава 3. Создание системы выравнивания русских предложных конструкций и их эквивалентов в венгерском 44
3.1. Описание системы для выравнивания русских предложных конструкций и их эквивалентов в венгерском 44
3.2. Сбор и составление русско-венгерского параллельного корпуса 47
3.3. Предварительная обработка корпуса 48
3.4. Применение алгоритма сжатия цветков для выравнивания параллельных словосочетаний 57
3.5. Результаты анализа и проблемы метода 66
3.6. Выводы по главе 3 72
Заключение 74
Список литературы 76

В дисциплине корпусной лингвистики в последние годы набирают большую популярность параллельные корпусы, которые позволяют прово­дить различные лингвистические исследования на основе многоязычного текстового материала. В публичном доступе имеются многочисленные па­раллельные корпусы, например, в составе Национального корпуса русского языка, Чешского национального корпуса, системы Sketch Engine и др., тем не менее, составление многоязычных параллельных корпусов является бо­лее сложной задачей, чем составление одноязычных корпусов. Кроме типич­ных задач, решаемых при составлении корпусов, таких как сбор текстовых данных, лингвистическая разметка и мета-разметка материала, также встают такие задачи, как выравнивание предложений и выравнивание словосочета­ний, слов или морфем внутри предложений.
Проблема автоматического выравнивания параллельных текстов явля­ется одной из более важных задач современной компьютерной лингвистики, потому что высококачественное выполнение этой задачи является предвари­тельным условием проведении большинства компаративных исследований: для изучения того, как те или иные лингвистические явления передаются раз­ными языками, необходимо определить, какие конструкции в одном языке ка­ким конструкциям другого соответствуют. Соответственно, для большинства многоязычных морфологических и синтаксических исследований, выравни­вание - ахиллесова пята: от качества выравнивания зависит успех последу­ющих шагов. Кроме теоретических задачах, выравнивание играет большую роль и во многих практических задач, например, в статистическом машинном переводе.
Для выравнивания параллельных текстов существует ряд распростра­нённых методов, но эффективность и надёжность этих методов в большой мере зависит от морфо-синтаксического сходства и близости изучаемых язы­ков. Для пар языков из одной и той же семьи языков, как, например, немецкий и голландский, настоящие методы достигают удовлетворительной точности и полноты, но для более далёких друг от друга языков, как русский и венгер­ский, проблема выравнивания параллельных текстов до сих пор не решена.
Целью настоящей работы является создание и выравнивание двуязычного, русско-венгерского параллельного корпуса, на основе которого появляется возможность провести компаративное исследование русских предложно-падежных конструкций и эквивалентных им конструкций в венгерском языке. Для достижения данной цели необходимо решать следующие задачи:
• изучить особенности, способы и проблемы задачи выравнивания па­раллельных текстов;
• изучить морфо-синтаксические особенности русского и венгерского языка с точки зрения задачи выравнивания параллельных текстов;
• создать эффективный метод для выравнивания русских предложно-падежных конструкций и их эквивалентов в венгерском языке;
• оценить эффективность выработанного метода и сравнить её с резуль­татами уже существующих методов;
• создать классификацию русских предложных конструкций и их экви­валентов в венгерском языке на основе выровненных текстов в парал­лельном корпусе.
Таким образом, объектом данной работы являются предложно­падежные конструкции в русском языке и способы передачи значения дан­ных конструкций в венгерском, являющийся агглютинативным языком, в ко­тором нет предлогов. Предметом работы является процедурный морфосин­таксический подход к русским предложно-падежным конструкциям и их ана­логам в венгерском языке.
Тема предложно-падежных конструкций русского языка в контексте корпусной лингвистики является актуальным, но мало исследованным мор­фосинтаксическим вопросом, который в фокусе исследовательского внима­ния может выявлять до сих пор неизвестные закономерности русского языка и других языков, в нашем случае, венгерского языка. Изучение данной те­мы может содействовать появлению альтернативных решений многочислен­ных прикладных задач обработки естественного языка, в том числе, состав­ления параллельных корпусов, выравнивания параллельных текстов, машин­ного перевода и т. д.
Однако, для изучения предложно-падежных конструкций русского язы­ка и их эквивалентов в иностранных языках, необходимо создать подходя­щий, выравненный параллельный корпус, который позволяет проводить нуж­ные исследования на основе высоко-качественного лингвистического мате­риала. Для исследуемых языков, русского и венгерского, существует несколь­ко параллельных корпусов (например, HunOr [33] и InterCorp [18]), но в них не выделены русские предложные конструкции, и даже если тексты вырав­нены, выравнивание является ненадёжным. По этим причинам для прове­дения данного исследования необходимо составление подходящего русско- венгерского параллельного корпуса. Материалом данной работы служат па­раллельные тексты на русском и венгерском языках в жанрах художествен­ной, научной и популярной литературы и разговорной речи (субтитры филь­мов и сериалов).
Научная новизна нашей работы заключается в выявлении соответ­ствий между русскими предложными конструкциями и их эквивалентами в венгерском языке. Подробное исследование для данной пары языков ещё не было проведено, поэтому данная работа может выявить до сих пор неизвест­ные аспекты исследуемых языков.
Теоретическая значимость данной работы состоит в применении сравнительных исследований на основе параллельных корпусов для изуче­ния словоизменительных и словообразовательных характеристик принципи­ально разных языков с точки зрения морфологии и синтаксиса. Более того - создание классификации параллельных конструкций в разных языках может привести к развитию теории не только в области лингвистики, но и в области педагогики ино странных языков.
Практическая значимость заключается в создании и применения ме­тода, основанного на теории графов для выравнивания русско-венгерских текстов при сохранении границ предложных конструкций и выделении их эк­вивалентов в венгерском языке. С созданием новых методов выявления и вы­равнивания лингвистических конструкций в разных языках даётся возмож­ность дальше усовершенствовать методику проведения лингвистических ис­следований, кроме того, наш метод также может быть применен для практи­ческих задач, например, для автоматического машинного перевода.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Данная работа посвящена изучению и раработке методов автоматиче­ского выравнивания русских предложно-падежных конструкций и их экви­валентов в венгерском языке.
В рамках настоящей работы были изучены особенности, проблемы и методы автоматического выравнивания параллельных текстов на разных уровнях и были представлены разные системы выравнивания - 3 на основе статистических и 1 на основе нейронных моделей выравнивания.
Были рассмотрены главные словоизменительные и словообразователь­ные процессы русского и венгерского языка с точки зрения задачи автомати­ческого выравнивания параллельных текстов и была создана классификация соответствия русских предложных конструкций и их эквивалентов в венгер­ском языке.
Был создан русско-венгерский параллельный корпус, позволяющий изучать русские предложные конструкции и их эквиваленты в венгерском языке и был вручную размечен тестовый подкорпус, на основе которого мож­но оценить и сравнить разные методы выравнивания параллельных текстов. Корпус является подмножеством параллельных корпусов InterCorp, который содержит тексты литературного, научного и разговорного языка.
В рамках данной работы была создана система выравнивания на основе теории графов, которая с высокой эффективностью решает проблему вырав­нивания русских предложных конструкций и их эквивалентов в венгерском языке. Была проведена оценка метода и сравнение с уже существующими ме­тодами, которая показала его эффективность. Данная система была примене­на для вычета распределения венгерских переводных эквивалентов русских предложных конструкций и результаты были представлены в виде матрицы.
Таким образом, основные задачи настоящей работы были выполнены и в результате проведенного исследования можно заключить, что созданный в рамках данной работы метод выравнивания выполняет задачу выравнивания русских предложных конструкций и их эквивалентов в венгерском языке с высокой эффективностью.
Наш метод выравнивания достигает 81.3 процент точности, то есть, по сравнению с уже существующими, универсальными системами выравнива­ния, данный специализированный для работы с русским и венгерским языка­ми метод более чем 2 с половиной раза эффективнее альтернативных мето­дов. Для получения таких высоких показателей были использованы морфо­синтаксические параметры для выделения русских предложных конструкций и их эквивалентов в венгерском, был создан двудольный взвешенный граф из выделенных словосочетаний. Был применён алгоритм теории графов, алго­ритм сжатия цветков для определения наибольших паросочетаний на графах.
Несмотря на высокие показатели оценки метода, у него также суще­ствует некое ограничение: данный метод был создан для работы с русским и венгерским языками, то есть, его применение за рамками изучения данных языков является ограниченным.
Планируется расширения метода для большего числа языков, для то­го чтобы его можно было бы использовать для решения ряда теоретических и практических задач компьютерной лингвистики, в том числе для изучения определённых конструкций в разных языках и для улучшения методов авто­матического машинного перевода.


1. Берж К. Теория графов и её применение. — Москва : Издательство ино­странной литературы, 1962.
2. Виноградов В. В. Русский язык. — Москва, Россия, 1972.
3. Всеволодова М. В., Кукушкиеа О. В., Поликарпов А. А. Русские предлоги и средства предложного типа. Т. 1. — Москва, 2018. — ISBN 978-5-9710-5505-1.
4. Гарабик Р., Захаров В. П. Параллельный русско-словацкий корпус // Труды международной конференции Корпусная лингвистика. — Санкт- Петербург, Россия, 2006. — С. 81—87.
5. Зализняк А. А. О понимании термина «падеж» в лингвистических описа­ниях // Проблемы грамматического моделирования. — Москва, Россия, 1973. — С. 53—87.
6. Зализняк А. А. Словоизменение // Большая российская энциклопедия. Т. 30. — Москва, Россия, 2015. — С. 445.
7. Захаров В. П., Михайлова В. Д. Контекстная грамматика предложных конструкций русского языка // Компьютерная лингвистика и вычисли­тельные онтологии. — 2017. — С. 57—71.
8. Золотова Г. А. Синтаксический словарь: Репертуар элементарных еди­ниц русского синтаксиса. — Москва, Россия : Эдиториал УРСС, 2006. — ISBN 5-354-01147-7.
9. Коновалова Т. Е. Специфика предлогов широкой семантики и её отраже­ние в словах // Вопросы романо-германского языкознания. — Саратов, Россия : Издательство Саратовского университета, 1988. — С. 60—67.
10. Кубрякова Е. С. Словообразование // Лингвистический энциклопедиче­ский словарь. — Москва, Россия : Советская энциклопедия, 1990. — С. 467—469.
11. Лопатин В. В., Улуханов И. С. Восточнославянские языки. Русский язык // Языки мира. Славянские языки. — Москва, Россия : Academia, 2005. — С. 444—513. — ISBN 5-87444-216-2.
12. Потемкин С. Б., Кедрова Г. Е. Выравнивание неразмеченного корпуса параллельных текстов [Электронный ресурс]. — 2008. — URL: http:// www.dialog-21.ru/digests/dialog2008/materials/html/67.htm0 (дата обр. 03.12.2020).
13. Русская грамматика. — Москва, Россия, 1980.
14. Скорик П. Я. О соотношении агглютинации и инкоропорации // Морфологическая типология и проблема классификации языков. — 1965.
15. Шальга А. Венгерский язык в зеркале русского языка. — Будапешт, Венгрия : Танкёньвкиадо, 1984. — ISBN 963-17-7601-8.
...


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ