Тема: ПРОБЛЕМЫ СОЗДАНИЯ ГИБРИДНОГО ПЕРЕВОДЧИКА С ЭСПЕРАНТО НА РУССКИЙ ЯЗЫК
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Машинный перевод 5
1.1 История машинного перевода 6
1.2. Виды машинного перевода 17
1.2.1. Перевод, основанный на правилах 17
1.2.2. Статистический перевод 20
1.2.3. Гибридный перевод 22
1.3 Оценка машинного перевода 24
Выводы к главе 1 25
Глава 2. Язык эсперанто и его компьютерная обработка 27
2.1. Эсперанто в системе искусственных языков. 27
2.2. История создания эсперанто 29
2.3. Описание языка эсперанто 31
2.3.1. Алфавит и фонетика 31
2.3.2. Морфология и словообразование 31
2.3.3. Лексика 33
2.3.4. Синтаксис 34
2.4. Компьютерные ресурсы для работы с эсперанто 35
2.4.1. Словари и переводчики 35
Переводчик Google Translate. 35
Яндекс Переводчик 37
Словарь Eoru.ru 38
2.4.2. Морфологические и синтаксические анализаторы 40
2.5. Выводы ко второй главе 41
Глава 3. Создание гибридного компонента. 43
3.1. Общее описание эксперимента. 43
3.2. Графематический и морфологический анализы 44
3.3. Выравнивание предложений пословно 47
3.4. Первичное исправление ошибок. 50
3.5. Поиск зависимостей 52
3.6. Анализ ошибок. 53
3.7. Проблемы и перспективы. 55
Выводы к главе 3 57
Заключение 59
Список литературы
📖 Введение
В ситуации, где нет возможности попросить кого-либо перевести текст, на помощь приходят системы машинного перевода. От обычного словаря они отличаются тем, что способны перевести готовую фразу целиком, тем самым не требую от пользователя знаний грамматики или лексики языка.
На данный момент в построении систем машинного перевода преуспевают крупные корпорации, такие как Яндекс, Google, PROMT и т.д. Крупные компании могут себе позволить в короткие сроки собрать большие объёмы материала и запустить на своей платформе очередную систему перевода. В основном компании концентрируются на двух подходах к машинному переводу: подходе, основанном на правилах, и статистическом подходе. Каждый из подходов обладает своими недостатками, скомпенсировать которые их объединение.
Подобное слияние двух методов перевода получило название гибридного, и именно оно представляет сейчас наибольший интерес среди компьютерных лингвистов. Несмотря на большой потенциал, разработок в этой сфере ведётся не так много.
В сложившейся ситуации чрезвычайно актуальной кажется задача улучшения систем машинного перевода с тех языков, которые до сих пор не были достаточно автоматизированы, но при этом являются популярными и распространёнными по всему миру. Одним из таких языков является эсперанто. Однако, несмотря на то, что эсперанто считается самым успешным искусственным языком в мире, автоматических переводчиков, обслуживающих этот язык, лишь единицы. Культура эсперанто не теряет актуальности уже больше столетия, особенно на территории Европы, однако система машинного перевода с эсперанто на русский язык была разработана компанией Яндекс лишь в прошлом году. Как и в случае с другими парами языков, перевод с эсперанто основывается на статистике, что приводит к многочисленным ошибкам в согласовании. Программа, исправляющая уже готовый перевод, может не только существенно упростить понимание текста, но и продемонстрировать преимущество гибридного перевода перед другими типами. Это и определяет практическую значимость нашей работы.
Целью работы является выявление проблем построения гибридного компонента для статистического переводчика с эсперанто на русский.
Для достижения поставленной цели нам необходимо решить следующие задачи:
- изучить устройство и этапы развития систем машинного перевода;
- проанализировать лексику, морфологию и синтаксис языка эсперанто;
- разработать программу-прототип гибридного компонента переводчика;
- оценить результаты эксперимента и определить дальнейшие пути развития данного проекта.
В первой главе теоретической части рассматривается история систем машинного перевода, текущий этап их развития и основные достоинства и недостатки существующих подходов.
Вторая глава посвящена языку эсперанто: его истории, устройству и уже созданному програмному обеспечению..
Третья глава является практической и описывает основные алгоритмы и этапы работы программы, исправляющей ошибки перевода
✅ Заключение
Основная цель гибридного компонента – осуществить проверку и исправление грамматических ошибок, которые возникли в результате статистического перевода. Разработанная программа вначале анализирует предложения графематически и морфологически, затем производит пословное выравнивание по частям речи с помощью расчёта редакционного предписания и исправляет ошибки, связанные с неправильным числом или наклонением глаголов, далее ищет некоторые основные зависимости и исправляет ошибки снова, уже с использованием данных об именных и глагольных группах. Для оценки алгоритма мы загрузили в программу 250 предложений из параллельного корпуса OPUS, в результате чего количество верных предложений увеличилось на 4,25%.
В процессе работы на каждом этапе был выявлен ряд трудностей. Статистический подход Яндекс-Переводчика приводит к непредсказуемым ошибкам, с которыми не справляются дальнейшие шаги алгоритма. Также, результаты морфологического анализа pymorphy2 русских слов порой даёт чрезмерно обширные разборы, но, несмотря на это, некоторые слова трактует однобоко и определяет части речи неверно.
Разработанный нами алгоритм тоже содержит в себе ряд недочётов. Так, он не исправляет неверное согласование существительных с числительными и на данный момент не может найти глаголу его видовую пару, чтобы её поставить в нужную форму. В дальнейшем мы планируем добавить эти опции в нашу программу. Невзирая на такие недоработки, алгоритм тем не менее смог улучшить результаты статистического перевода с эсперанто на русский язык.
В целом, задачи, поставленные в данной работе, можно считать выполненными, а цель – достигнутой.



