Тема: Выравнивание русских предложных конструкций и их эквивалентов в агглютинативных языках при создании параллельных корпусов
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Проблема выравнивания 8
1.1. Выравнивание в контексте обработки естественного языка 8
1.2. Определение выравнивания 11
1.3. Уровни выравнивания 12
1.3.1. Выравнивание на уровне морфем 12
1.3.2. Выравнивание на уровне лексем 14
1.3.3. Выравнивание на уровне словосочетаний 15
1.3.4. Выравнивание на уровне предложений 17
1.4. Сложности при выравнивании 18
1.5. Системы выравнивания параллельных текстов 19
1.6. Статистические модели выравнивания 21
1.6.1. Giza++ 22
1.6.2. fast_align 23
1.6.3. eflomal 24
1.7. Нейронные модели выравнивания 24
1.8. Выводы по главе 1 26
Глава 2. Описание изучаемых языков 27
2.1. Роль словоизменительных и словообразовательных особенностей языков в выравнивании 27
2.2. Словоизменение и словообразование в русском языке 27
2.3. Предлоги и предложные конструкции в русском языке 30
2.4. Словообразование и словоизменение в венгерском языке 35
2.5. Способы классификации русских предложных конструкций и их эквивалентов в венгерском языке 39
2.6. Выводы по главе 2 42
Глава 3. Создание системы выравнивания русских предложных конструкций и их эквивалентов в венгерском 44
3.1. Описание системы для выравнивания русских предложных конструкций и их эквивалентов в венгерском 44
3.2. Сбор и составление русско-венгерского параллельного корпуса 47
3.3. Предварительная обработка корпуса 48
3.4. Применение алгоритма сжатия цветков для выравнивания параллельных словосочетаний 57
3.5. Результаты анализа и проблемы метода 66
3.6. Выводы по главе 3 72
Заключение 74
Список литературы 76
📖 Введение
Проблема автоматического выравнивания параллельных текстов является одной из более важных задач современной компьютерной лингвистики, потому что высококачественное выполнение этой задачи является предварительным условием проведении большинства компаративных исследований: для изучения того, как те или иные лингвистические явления передаются разными языками, необходимо определить, какие конструкции в одном языке каким конструкциям другого соответствуют. Соответственно, для большинства многоязычных морфологических и синтаксических исследований, выравнивание - ахиллесова пята: от качества выравнивания зависит успех последующих шагов. Кроме теоретических задачах, выравнивание играет большую роль и во многих практических задач, например, в статистическом машинном переводе.
Для выравнивания параллельных текстов существует ряд распространённых методов, но эффективность и надёжность этих методов в большой мере зависит от морфо-синтаксического сходства и близости изучаемых языков. Для пар языков из одной и той же семьи языков, как, например, немецкий и голландский, настоящие методы достигают удовлетворительной точности и полноты, но для более далёких друг от друга языков, как русский и венгерский, проблема выравнивания параллельных текстов до сих пор не решена.
Целью настоящей работы является создание и выравнивание двуязычного, русско-венгерского параллельного корпуса, на основе которого появляется возможность провести компаративное исследование русских предложно-падежных конструкций и эквивалентных им конструкций в венгерском языке. Для достижения данной цели необходимо решать следующие задачи:
• изучить особенности, способы и проблемы задачи выравнивания параллельных текстов;
• изучить морфо-синтаксические особенности русского и венгерского языка с точки зрения задачи выравнивания параллельных текстов;
• создать эффективный метод для выравнивания русских предложно-падежных конструкций и их эквивалентов в венгерском языке;
• оценить эффективность выработанного метода и сравнить её с результатами уже существующих методов;
• создать классификацию русских предложных конструкций и их эквивалентов в венгерском языке на основе выровненных текстов в параллельном корпусе.
Таким образом, объектом данной работы являются предложнопадежные конструкции в русском языке и способы передачи значения данных конструкций в венгерском, являющийся агглютинативным языком, в котором нет предлогов. Предметом работы является процедурный морфосинтаксический подход к русским предложно-падежным конструкциям и их аналогам в венгерском языке.
Тема предложно-падежных конструкций русского языка в контексте корпусной лингвистики является актуальным, но мало исследованным морфосинтаксическим вопросом, который в фокусе исследовательского внимания может выявлять до сих пор неизвестные закономерности русского языка и других языков, в нашем случае, венгерского языка. Изучение данной темы может содействовать появлению альтернативных решений многочисленных прикладных задач обработки естественного языка, в том числе, составления параллельных корпусов, выравнивания параллельных текстов, машинного перевода и т. д.
Однако, для изучения предложно-падежных конструкций русского языка и их эквивалентов в иностранных языках, необходимо создать подходящий, выравненный параллельный корпус, который позволяет проводить нужные исследования на основе высоко-качественного лингвистического материала. Для исследуемых языков, русского и венгерского, существует несколько параллельных корпусов (например, HunOr [33] и InterCorp [18]), но в них не выделены русские предложные конструкции, и даже если тексты выравнены, выравнивание является ненадёжным. По этим причинам для проведения данного исследования необходимо составление подходящего русско- венгерского параллельного корпуса. Материалом данной работы служат параллельные тексты на русском и венгерском языках в жанрах художественной, научной и популярной литературы и разговорной речи (субтитры фильмов и сериалов).
Научная новизна нашей работы заключается в выявлении соответствий между русскими предложными конструкциями и их эквивалентами в венгерском языке. Подробное исследование для данной пары языков ещё не было проведено, поэтому данная работа может выявить до сих пор неизвестные аспекты исследуемых языков.
Теоретическая значимость данной работы состоит в применении сравнительных исследований на основе параллельных корпусов для изучения словоизменительных и словообразовательных характеристик принципиально разных языков с точки зрения морфологии и синтаксиса. Более того - создание классификации параллельных конструкций в разных языках может привести к развитию теории не только в области лингвистики, но и в области педагогики ино странных языков.
Практическая значимость заключается в создании и применения метода, основанного на теории графов для выравнивания русско-венгерских текстов при сохранении границ предложных конструкций и выделении их эквивалентов в венгерском языке. С созданием новых методов выявления и выравнивания лингвистических конструкций в разных языках даётся возможность дальше усовершенствовать методику проведения лингвистических исследований, кроме того, наш метод также может быть применен для практических задач, например, для автоматического машинного перевода.
✅ Заключение
В рамках настоящей работы были изучены особенности, проблемы и методы автоматического выравнивания параллельных текстов на разных уровнях и были представлены разные системы выравнивания - 3 на основе статистических и 1 на основе нейронных моделей выравнивания.
Были рассмотрены главные словоизменительные и словообразовательные процессы русского и венгерского языка с точки зрения задачи автоматического выравнивания параллельных текстов и была создана классификация соответствия русских предложных конструкций и их эквивалентов в венгерском языке.
Был создан русско-венгерский параллельный корпус, позволяющий изучать русские предложные конструкции и их эквиваленты в венгерском языке и был вручную размечен тестовый подкорпус, на основе которого можно оценить и сравнить разные методы выравнивания параллельных текстов. Корпус является подмножеством параллельных корпусов InterCorp, который содержит тексты литературного, научного и разговорного языка.
В рамках данной работы была создана система выравнивания на основе теории графов, которая с высокой эффективностью решает проблему выравнивания русских предложных конструкций и их эквивалентов в венгерском языке. Была проведена оценка метода и сравнение с уже существующими методами, которая показала его эффективность. Данная система была применена для вычета распределения венгерских переводных эквивалентов русских предложных конструкций и результаты были представлены в виде матрицы.
Таким образом, основные задачи настоящей работы были выполнены и в результате проведенного исследования можно заключить, что созданный в рамках данной работы метод выравнивания выполняет задачу выравнивания русских предложных конструкций и их эквивалентов в венгерском языке с высокой эффективностью.
Наш метод выравнивания достигает 81.3 процент точности, то есть, по сравнению с уже существующими, универсальными системами выравнивания, данный специализированный для работы с русским и венгерским языками метод более чем 2 с половиной раза эффективнее альтернативных методов. Для получения таких высоких показателей были использованы морфосинтаксические параметры для выделения русских предложных конструкций и их эквивалентов в венгерском, был создан двудольный взвешенный граф из выделенных словосочетаний. Был применён алгоритм теории графов, алгоритм сжатия цветков для определения наибольших паросочетаний на графах.
Несмотря на высокие показатели оценки метода, у него также существует некое ограничение: данный метод был создан для работы с русским и венгерским языками, то есть, его применение за рамками изучения данных языков является ограниченным.
Планируется расширения метода для большего числа языков, для того чтобы его можно было бы использовать для решения ряда теоретических и практических задач компьютерной лингвистики, в том числе для изучения определённых конструкций в разных языках и для улучшения методов автоматического машинного перевода.





