Тема: АНАЛИЗ ОСОБЕННОСТЕЙ МАШИННОГО ПЕРЕВОДА (на материале финских текстов разных функциональных стилей)
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. МАШИННЫЙ ПЕРЕВОД 7
1.1. Определение понятия перевода как вида человеческой деятельности....7
1.2. Определение понятия машинного перевода 8
1.3. История развития машинного перевода 10
1.4. Типы систем МП 14
1.4.1. Память переводов (Translation Memory) 15
1.4.2. Системы, основанные на правилах (классические системы) 16
1.4.3. Статистический машинный перевод 18
1.4.4. Гибридные системы машинного перевода 22
1.5. Практическое применение систем машинного перевода 24
1.6. Перспективы развития систем машинного перевода 26
1.7. Выводы 27
2. ОЦЕНКА КАЧЕСТВА МАШИННОГО ПЕРЕВОДА 29
2.1. Качество перевода 29
2.1.1. Экспертная оценка 29
2.1.2. Автоматическая оценка 31
2.2. Типология ошибок машинного перевода 34
2.2.1. Пропущенные слова 35
2.2.2. Неправильный порядок слов 36
2.2.3. Неверные слова 37
2.2.4. Неизвестные слова 39
2.2.5. Пунктуация 39
2.3. Выводы 40
3. АНАЛИЗ РАБОТЫ СТАТИСТИЧЕСКОЙ СИСТЕМЫ МП 41
3.1. Корпус и процентное соотношение ошибок 41
3.2. Причины возникновения ошибок 42
3.2.1. Ошибки, вызванные отсутствием или некорректной предварительной обработкой запроса
3.2.1.1. Некорректное распознавание языка 43
3.2.1.2. Запросы, оформленные некорректно с точки зрения синтаксиса 44
3.2.1.3. Некорректное распознавание именованных сущностей 46
3.2.2. Ошибки, связанные с содержанием параллельного корпуса 46
3.2.2.1. Недостаточный объем корпуса 49
3.2.2.2. Иноязычные слова в корпусе 50
3.2.2.3. Неправильный перевод и опечатки 50
3.2.3. Ошибки, связанные с особенностями языков 51
3.2.3.1. Прагматические адаптации 52
3.2.3.2. Тире в русском 53
3.2.3.3. Вопросительная форма глагола в финском языке 53
3.2.3.4. Обобщенно-личные предложения по смыслу, но не по форме..54
3.2.3.5. Предложения с глаголом olla 55
3.2.4. Ошибки, связанные с работой алгоритма системы перевода 56
3.3. Выводы 58
ЗАКЛЮЧЕНИЕ 59
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 61
📖 Введение
Зачастую результаты работы онлайн-инструментов требуют постредактирирования [Борисова, 2014; Новожилова, 2014], и эффективно могут использоваться только теми, кто в какой-то степени владеет принимающим языком и языком-источником.
Другой проблемой является то, что не для всех малых языков существуют хорошо разработанные автоматические переводчики. Большинство систем при работе с некоторыми парами языков используют язык-посредник (обычно английский язык). Иначе говоря, перевод осуществляется не напрямую: сначала происходит трансфер текста с языка- оригинала на английский, а уже потом — на необходимый язык перевода, что во многом влияет на качество перевода [Новожилова, 2014].
В этой ситуации нам кажется актуальной задача развития систем машинного перевода для тех языков, которые до сих пор не были достаточно автоматизированы. Так, до недавнего времени для перевода в паре финский- русский язык не существовало такой системы, которая бы не использовала язык-посредник. Это определяет актуальность нашей работы. Ее практическая значимость обусловлена тем, что разработанные нами классификация и рекомендации могут быть использованы при создании и усовершенствовании систем машинного перевода.
Мы выбрали для работы онлайн-переводчик PROMT, во-первых, потому что на данный момент прямой перевод между русским и финским языком, без использования языка посредника, может осуществлять только этот инструмент, во-вторых, по той причине, что в нашем доступе оказались данные реальных пользовательских запросов. Более того, компания начинает активно внедрять статистические технологии, и это один из их первых проектов, над которым началась работа в 2005 году. Для английского и русского языков компания уже сейчас ведет разработки гибридных подходов. Мы верим, что с богатым и успешным опытом компании в области классического перевода «по правилам», при дальнейшем использовании статистических методов, у PROMT есть большой потенциал также и в области гибридного перевода.
Мы считаем что, идентификация основных проблем системы перевода — это важный шаг в направлении дальнейших исследований.
Целью нашей работы является анализ особенностей перевода, связанных с работой статистического машинного переводчика PROMT в паре языков русский-финский.
Для достижения поставленной цели нами были решены следующие задачи:
- изучена история развития систем МП, описаны типы систем МП и рассмотрены принципы их работы;
- исследованы понятие «качества перевода» и способы оценки качества перевода;
- проанализированы типы ошибок, появляющиеся при работе системы PROMT, и дана их классификация;
- дана оценка результатам эксперимента, рассмотрены причины возникающих ошибок и определены дальнейшие пути развития.
В первой главе дается краткий обзор истории машинного перевода, приведены несколько классификаций существующих систем МП, далее подробно расписаны принципы работы перевода по правилам, статистического перевода и гибридных подходов, приведены плюсы и минусы таких систем.
Вторая глава посвящена оценке качества МП, разбираются стандартные методы оценки качества перевода (такие как экспертная оценка, метрики BLEU, NIST и WER) ставится вопрос об интерпретации результата такой оценки, приводится стандартная классификация типов ошибок.
В третьей главе мы описываем практическую часть нашей работы, приводится классификация систематических ошибок на основании возможных причин их появления, даются рекомендации относительно улучшения работы СМТ с помощью дополнительных инструментов.
Благодарим компанию «ПРОМТ» за предоставленные нам для работы данные пользовательских запросов и возможность участвовать в разработке этого переводческого инструмента.
✅ Заключение
В первой главе мы описали историю развития систем МП, современное состояние этой области, и рассмотрели три основных современных подхода к МП: основанного на правилах, статистического и гибридного. Далее, во второй главе мы описали популярные способы оценки МП, экспертную оценку и различные метрики. Мы также привели одну из возможных классификаций ошибок, появляющихся в ходе работы систем МП.
В третьей главе для анализа работы статистического переводчика PROMT мы использовали корпус из 15043 реальных пользовательских запросов (295 тысяч токенов). Мы привели статистические данные типов ошибок и дали свою собственную классификацию ошибок, на основе причин их появления.
Исследовательские работы, проводящиеся в области МП, часто можно разделить на две категории: написанные с точки зрения лингвистики, и написанные с точки зрения точных вычислительных наук. Так, работы, в которых дается оценка качества перевода, часто полностью опускают или не учитывают принципы работы программ, которые используются для этого перевода. Исследования, которые не учитывают данных лингвистики, предоставляют статистические данные о количестве и типах ошибок, оценки BLEU или NIST, которые сложно интерпретировать. В итоге, это приводит к тому, что причины появления ошибок остаются за пределами исследования. Для улучшения результатов таких исследований, специалисты из разных областей должны больше взаимодействовать.
Для дальнейшего развития систем перевода, которые будут использоваться реальными пользователями, нужно понимать, как и кто в конечном итоге будет ими пользоваться. Нужно учитывать потребности пользователя. Так для профессиональных переводчиков будет полезна возможность выбора между несколькими вариантами перевода, а для обычного пользователя потребуются различные инструменты, осуществляющие предварительную обработку запроса.
Наше собственное исследование запросов продемонстрировало, что пользователи переводят тексты различных функциональных стилей, и ограничить тематику или стилистику текстов практически невозможно. Тем не менее, можно утверждать, что значительная часть запросов относится к области коммерции и развлечений. Эти данные можно учитывать в дальнейшем при составлении корпуса для переводческой модели.
Мы считаем задачи, поставленные в данной работе, выполненными, а цель — достигнутой.



