Введение 3
ГЛАВА 1. ОСНОВНЫЕ ТЕОРЕТИЧЕСКИЕ ПОЛОЖЕНИЯ 5
1.1. Анализ основных систем машинного перевода 5
1.2. Методы оценки качества машинного перевода 10
1.3.Решения проблемы качества машинного перевода на этапе предредактирования и постредактирования 18
1.4. Анализ выбранных программ машинного перевода 25
Выводы по Главе 1 34
ГЛАВА 2. СОПОСТАВИТЕЛЬНЫЙ АНАЛИЗ КАЧЕСТВА ПЕРЕВОДА ТЕКСТОВ С АНГЛИЙСКОГО ЯЗЫКА НА РУССКИЙ, ВЫПОЛНЕННОГО С ПОМОЩЬЮ СИСТЕМ МАШИННОГО ПЕРЕВОДА 36
2.1. Общее описание эксперимента 36
2.2. Обоснование выбора метрики автоматической оценки качества переводов 37
2.3. Обоснование выбора текстов 37
2.4. Обзор эксперимента на основе экономического текста 40
2.5. Обзор эксперимента на основе юридического текста 48
2.7. Обзор эксперимента на основе художественного текста 63
Выводы по Главе 2 71
Заключение 75
Список литературы 79
Список источников 83
Актуальность данной работы обусловлена тем, что в современном мире идет возрастание общения в сети Интернет. Но в то же время, большая часть зарубежных интернет-источников не имеет интерфейса на других языках, что ограничивает доступ к значительной части информации. Появляется необходимость в машинном переводе. Ни одна система машинного перевода, однако, на данный момент не позволяет получить идеальный результат без дополнительной обработки. Таким образом, основным стоящим перед переводчиком вопросом является качество текстов, переведенных с помощью систем машинного перевода.
Объектом исследования является машинный перевод текстов экономической, юридической, технической и художественной тематики.
Предметом исследования является параметры оценки качества машинного перевода, применяемые в работе наиболее доступных автоматических метрик оценки при рассмотрении переводов экономических, юридических, технических и художественных текстов в языковой паре английский - русский.
Целью исследования является оценка качества работы современных онлайн-систем машинного перевода.
Поставленная цель обуславливает решение следующих задач:
1) проанализировать основные научные работы, посвященные анализу систем машинного перевода;
2) рассмотреть различные методы оценки качества машинного перевода;
3) систематизировать ключевые ошибки в различных системах машинного перевода;
4) проанализировать отдельные программы оценки качества машинного перевода для текстов экономической, юридической, технической и художественной тематики.
В выпускной квалификационной работе используются следующие методы лингвистического исследования: контекстуальный и дискурсивный анализ, методы сплошной выборки, контентанализа, и описательный метод.
В качестве основной информационной базы в теоретическом аспекте использовались работы У. Уивера, Й. Бар-Хиллела, М. Нагао, П. Тома, Ю.Н. Марчука, Л.Л. Нелюбина, И.И. Ревзина, В.Ю. Розенцвейга, И.А. Мельчука.
Материалом исследования послужили тексты на английском языке и их переводы, выполненные квалифицированными переводчиками, предоставленные различными компаниями и бюро переводов.
Теоретическая значимость исследования состоит в том, что благодаря оценке качества машинного перевода и выделению типологии ошибок возможно последующее усовершенствование существующих систем.
Практическая значимость данной работы заключается в определении основных проблем функционирования популярных программ машинного перевода. Результаты данного исследования помогут переводчикам и простым пользователям выбрать наиболее эффективную систему машинного перевода для текстов определенной тематики.
Работа состоит из введения, двух глав и выводов, заключения, списка литературы и используемых источников. В первой главе представлен анализ основных систем машинного перевода, методы оценки качества машинного перевода, решения проблемы качества машинного перевода на этапе предредактирования и постредактирования, а также анализ отдельных программ редактирования машинного перевода. Во второй главе проводится сопоставительный анализ качества переводов текстов на экономическую, юридическую, техническую и художественную тематики с английского языка на русский, выполненных с помощью современных онлайн систем машинного перевода.
При подведении итогов всей нашей работы можно заключить, что прошло уже почти целое столетие со дня возникновения машинного перевода, и на протяжении всего времени своего существования он оставался предметом исследований многих зарубежных и отечественных ученых в области информатики и лингвистики. Первыми системами, которые появились при развитии машинного перевода стали системы на основе правил, которые различались тремя разными стратегиями: системы прямого перевода, трансферные системы и интерлингвистические системы. Позднее также появился машинный перевод на основе примеров и статистический машинный перевод, который начал активно развиваться и получил применение во многих системах того времени, а после вошел в основу новой своей разновидности – гибридных систем. Благодаря постоянной разработке и усовершенствованию методов машинного перевода не так давно появились новые системы, в основе которых лежит нейросеть. На данный момент именно нейронный машинный перевод начал активно развиваться и применяться повсеместно во многих автоматических системах, а показатели качества перевода, выполненного с помощью нейросетей, превзошли все ныне существующие системы.
Несмотря на столь долгое свое развитие, автоматический машинный перевод все еще не достиг высоких показателей качества и по-прежнему сильно уступает переводу, выполненному человеком. В качестве основного критерия качества перевода выступает эквивалентность, которая заключается как в передаче основного смысла исходного текста, так и в достижении того же эффекта, который производит сообщение на языке оригинала. Другими критериями также являются соблюдение лексических и грамматических норм переводящего языка, жанрово-стилистических особенностей и прагматический аспект перевода. Для анализа эффективности машинного переводы были разработаны два возможных подхода, которые представляют собой оценку качества машинного перевода, либо в сравнении с эталонным, либо с привлечением эксперта, то есть автоматическая и экспертная оценка соответственно. При автоматической оценке для сравнения эталонного перевода с машинным используются различные метрики, такие как BLEU, NIST, METEOR и F-мера, которые автоматически определяют все несоответствия относительно референтного перевода. При экспертной оценке качество перевода оценивает специалист в соответствии с критериями: понятность и точность (по исследованию ALPAC) или же адекватность, беглость и информативность (по исследованию ARPA).
Для того чтобы достичь качественного перевода текста при помощи систем машинного перевода, необходимо осуществить редактирование текста оригинала как до, так и после выполнения перевода автоматической системой. Для этого переводчику следует провести ряд действий на этапах предредактирования и постредактирования. На этапе предредактирования ключевыми факторами, на которые стоит обратить внимания, являются лингвистические и стилистические особенности исходного текста, а именно индикаторы переводимости, которые могут вызвать трудности у компьютера в дальнейшем. Выявив все индикаторы в тексте, переводчику следует перефразировать оригинальный текст так, чтобы системам машинного перевода было проще обработать данный текст. Например, разбить сложные предложения на простые, заменить страдательный залог активным, многозначные слова заменить на однозначные синонимы и т.д. Все эти перечисленные действия входят в правила контролируемого языка, которых должен придерживаться переводчик на этапе предредактирования для того, чтобы полученный машинный перевод звучал естественно. После перевода в автоматических системах в зависимости от требований, предъявляемых заказчиком к переводу, редактирование может быть как полным, так и легким. При последнем переводчик исправляет лишь грубые смысловые ошибки, совершенные системой, в то время как полное постредактирование включает в себя детальный разбор готового текста и доведения его до совершенства в соответствии с критериями адекватности, эквивалентности с оригиналом, соблюдения тематики и стилистики текста.
Поскольку качество перевода зависит не только от оригинала текста, при переводе с использованием автоматических систем следует обратить внимание также на функционал выбранных систем, в которых будет осуществляться перевод. При анализе онлайн-переводчиков среди их основных сходств можно выделить: перевод разных типов документов, наличие баз языков, автоматическое определение языка текста оригинала, воспроизведение текста на исходном и целевом языках, наличие примеров слов и словосочетаний в контексте. Но у каждого из выбранных сервисов есть также свои определенные особенности, минусы и плюсы.
Прежде чем выполнить сопоставительный анализ переводов, мы отобрали четыре тематики, обладающими своими отличительными чертами при их переводе с английского на русский, которые могут выступать как преимуществами при обработке в системах машинного перевода, так и недостатками, которые влияют на качество и точность предлагаемых переводов.
Наконец, мы провели сопоставительный анализ качества перевода этих текстов, выполненного с помощью отобранных нами систем машинного перевода, и этих же текстов, переведенных человеком, с помощью метрики автоматической оценки качества машинного перевода BLUE. Первым экспериментом были переводы экономических текстов, которые отличались большим количеством неточностей и ошибок, допущенных системами, что сказалось на оценке качества их переводов с эталонным. Вторым экспериментом выступали переводы юридических текстов, который оказался самым успешным по сравнению с тремя другими. Переводы машинных систем достаточно часто полностью или частично совпадали с референтными, а количество допущенных ошибок было в разы меньше. Третьим проведенным нами экспериментом стали переводы технических инструкций. Несмотря на относительно низкую оценку качества машинных переводов, выраженную показателями метрики, можно отметить, что системы машинного перевода хорошо справились с данными переводами, поскольку основные ошибки заключались ни сколько в синтаксисе или стилистике текстов, как в технической терминологии. Последним экспериментом стали переводы художественных текстов. Эксперимент переводов на данную тематику стал самым провальным по сравнению с тремя предыдущими, так как художественные тексты обладали такой сложной и эмоциональной структурой языка, которую автоматические системы не смогли распознать. Поэтому больше всего ошибок было представлено именно в этих переводах, а показатели качества и точности, как при исходных, так и при подготовленных текстах оставались низкими.
По результатам эксперимента наилучшими системами стали DeepL и Google Translate, которые отличались высокими показателями для каждого из рассмотренных нами текстов, и тем самым, именно эти сервисы являются рекомендуемыми к применению для выполнения переводов онлайн.
1. Бархударов Л. С. Язык и перевод: Вопросы общей и частной теории перевода. М.: Междунар. Отношения. – 1975. – 240 с.
2. Боброва В.Я. Системы машинного перевода. Итоги науки и техники. Сер. Информатика. М.: ВИНИТИ. -1990. - Т.14. - Стр. 149-178.
3. Ванников Ю.В. Виды адекватности и типология перевода. — В кн.: Совершенствование перевода научно-технической литературы и документов: Тез. докл. всесоюзн. конф. М. — 1982.
4. Ванников Ю.В. Понятие адекватности текста и типы адекватности перевода.— В кн.: Уровни текста и методы его лингвистического анализа. М., 1982.
5. Егорова А.Ю., Зацман И.М., Косарик В.В., Нуриев В.А., “Нестабильность нейронного машинного перевода”, Системы и средства информ. – 2020. – Стр. 124-135.
6. Жильцов, А.А. Нейронный машинный перевод редких слов с помощью подслов / А.А. Жильцов, Н.В. Ёлкина // Научно-технические и инженерные разработки – основа решения современных экологических проблем: сборник материалов Юбилейной семидесятой всероссийской научно-технической конференции студентов, магистрантов и аспирантов с международным участием : в 3 частях. – Ярославль, 2017. – Часть 3. – С. 21–24.
7. Капанадзе О.Г. Современные зарубежные системы машинного перевода. -М.: ВЦП. - 1989.- 102 с.
8. Комиссаров В. Н. Современное переводоведение [учебное пособие] / В. Н. Комиссаров. – М.: ЭТС, 2002. – 424 с.
9. Комиссаров В. Н. Теория перевода (лингвистические аспекты). М.: Высш. шк., 1990. – 253 с.
10. Кулагина О.С. Исследования по машинному переводу. М.: Наука. - 1979. -320 с.
11. Кулагина О.С. Машинный перевод: современное состояние // Семиотика и информатика. М., 1989. - Вып. 29. — Стр. 5-33.
12. Леонтьева Н.Н. База знаний и автоматический перевод (проект многоязычной информационно-справочной системы)// Междунар. семин. по машиннному переводу "ЭВМ И ПЕРЕВОД 89"/ Тбилиси, 27.11.-02.12. 1989 г./ Тезисы докладов. М.- 1989. —Стр. 178-181.
13. Леонтьева Н.Н., Шаляпина З.М. Современное состояние машинного перевода. В кн.: ИИ-90: Искусственный интеллект/ Справочник/ Книга 1. Системы общения и экспертные системы. М.: Радио и связь. 1990. — Стр.216.248.
14. Марчук Ю.Н. Модели перевода: учеб. пособие для студ. учреждений высш. проф. образования / Ю.Н. Марчук. М.: Издательский центр «Академия», 2010. 176 с.
15. Марчук Ю.Н. Основы компьютерной лингвистики. М.; Народный учитель. -2000. — 227 с.41. Международный семинар по машинному переводу (под ред. Марчука Ю.Н.). Тезисы докладов, М.: ВЦП, 1979. — 196 с.
16. Марчук Ю.Н. Проблемы машинного перевода. М.: Наука. - 1983. — 201 с.
17. Марчук Ю.Н. Проблемы компьютерной лингвистики; Модель "текст-текст" и переводные соответствия в теории машинного перевода. Сборник научных статей. Минск 1997. — Стр. 21-29.
18. Мельчук И.А. Опыт теории лингвистических моделей «СМЫСЛ-ТЕКСТ». – М.: Наука, 1974. – 314 с.
19. Мерков, А. Б. Введение в методы статистического обучения / А. Б. Мерков. – Москва : Едиториал УРСС, 2011. – 254 с
20. Моторин Ю.А., Марчук Ю.Н. Реализация автоматического перевода на современных серийных ЭВМ общего назначения. Вопросы радиоэлектроники, серия ЭВТ, вып. 7, 1970.— Стр. 20-29.
21. Моуд Д. Машинный перевод: новое поколение технологий. Новые продукты помогают переводить основной смысл содержания глобальных интрасетей. PC Week.
22. Толковый переводоведческий словарь/Л.Л. Нелюбин. — 3-е изд., перераб. — М.: Флинта: Наука, 2003. — 320 с.
23. Переходько И.В., Мячин Д.А., «Оценка качества машинного перевода», 2017. 260с.
24. Пиотровский Р.Г. Машинный перевод в группе "Статистика речи": результаты и перспективы. В кн.: Международный семинар по машинному переводу (под ред. Марчука Ю.Н.). Тезисы докладов, М.: ВЦП, 1979. — Стр. 5-7.
25. Ревзин И.И., Розенцвейг В.Ю. Основы общего и машинного перевода. М., 1964.
26. Рецкер Я.И. О закономерных соответствиях при переводе на родной язык. Теория и методика учебного перевода. М.: 1950.
27. Рыбин П. В. Теория перевода. Курс лекций. М., 2007.
28. Семенов A.Л. Современные информационные технологии и перевод : учеб. пособие для студ. перевод, фак. высш. учеб. заведений / A.Л. Семенов. – М.: Издательский центр «Академия», 2008. – 224 с.
29. Скворцова О. В. Проблемы и преимущества автоматизированного и машинного переводов / О. В. Скворцова, Е. В. Тихонова. // Молодой ученый. – 2016. – №9 – С. 1287–1289.
30. Соколова О. В. Особенности перевода авангардных окказионализмов (на материале «Футуристической кухни» Ф. Т. Маринетти) // Сибирский филологический журнал. 2019. Вып. 2. С. 254—266.
31. Тараскин А.А. (2015). Машинный перевод [Taraskin A.A. A Machine translation]. URL: http://study-english.info/article065.php (дата посещения 27.03.2022).
32. Толковый переводоведческий словарь / Л.Л. Нелюбин. — 3-е изд., перераб. — М.: Флинта: Наука, 2003
33. Федоров А.В. Основы общей теории перевода. -М.: Высшая школа, 1983.
34. Хроменков П.Н. Анализ и оценка эффективности современных систем машинного перевода. – М., – 2000.
35. Шереметьева, С.О. Информационные технологии в помощь переводчику / С.О. Шереметьева, П.Г. Осминин. – Челябинск: Издательский центр ЮУрГУ, 2014. – Ч. 3. – 43 с.
36. Яшина Л.И. Качество автоматического перевода текстов // Актуальные проблемы лингвистики – 2015: Материалы Международной научно-практической конференции студентов, аспирантов и молодых ученых, 15 апреля / отв. ред. Х.С. Шагбанова. – Тюмень: ТюмГНГУ, 2015. – 448 с.
37. Bojar O. Findings of the 2016 Conference on Machine Translation / O. Bojar et al //ACL 2016 FIRST CONFERENCE ON MACHINE TRANSLATION (WMT16). – The Association for Computational Linguistics, 2016. – p. 131 – 198.
38. Hartley, A. Readability and Translatability Judgments for ‘Controlled Japanese’ / A. Hartley, M. Tatsumi, H. Isahara, K. Kageura, R. Miyata // Proceedings of the 16th EAMT Conference. – Trento, Italy, May 2012. – P. 237–244.
39. King M. Evaluation of MT systems Panel discussion. In Proceedings of MT Summit III, Washington, DC, 1991, pp. 141-146.
40. Kittredge, R. Sublanguages and Controlled Language / R. Kittredge // The Oxford Handbook of Computational Linguistics. – Oxford, 2003. – P. 430–447.
41. Laurie G., Yang J. SYSTRAN MT Dictionary Development. Machine Translation: Past, Present and Future: Proceedings of the Machine Translation Summit VI, 1997, pp. 211 -218.
42. Lommel A., “Metrics for translation quality assessment: A case for standardising error typologies”, Translation quality assessment: From principles to practice, eds. J. Moorkens, Sh. Castilho, F. Gaspari, S. Doherty, Springer, Cham, Switzerland, 2018, 109–12
43. Makoto Nagao Machine translation: How far can it go? Kyoto University, Translated by Norman Cook, Oxford University Press, 1989.
44. Minnis S. Constructive machine translation evaluation. Machine Translation, 8, 1993, pp. 67-75.
45. Nida E. A. Towards a Science of Translating: with Special Reference to Principles and Procedures Involved in Bible Translating. Leiden: E. J. Brill, 1964.
46. Popović М., “Error classification and analysis for machine translation quality assessment”, Translation quality assessment: From principles to practice, ред. J. Moorkens, Sh. Castilho, F. Gaspari, S. Doherty, Springer, Cham, Switzerland, 2018, 129–158
47. Uwe Muegge. Controlled Language Optimized for Uniform Translation (CLOUT). — 2002.
48. Way A., “Quality expectations of machine translation”, Translation quality assessment: From principles to practice, eds. J. Moorkens, Sh. Castilho, F. Gaspari, S. Doherty, Springer, Cham, Switzerland, 2018, 159–178
Список источников
Интернет-ресурсы систем машинного перевода:
1. Deepl – URL – https://www.deepl.com/ru/translator (Дата обращения: 17 апреля 2022).
2. Google Translate – URL – https://translate.google.com/?hl=ru (дата обращения: 17 апреля 2022).
3. Prompt – URL – http://translate.promt.by (дата обращения: 17 апреля 2022).
4. Яндекс Переводчик – URL – https://www.memsource.com/ (дата обращения: 17 апреля 2022).
5. Context Reverso – URL – https://www.trados.com/ (дата обращения: 17 апреля 2022).
6. Linguee – URL – https://ru.smartcat.com/ (дата обращения: 17 апреля 2022).
Системы оценки качества перевода:
6. Interactive BLUE score evaluator – URL – https://www.letsmt.eu/Bleu.aspx (дата обращения: 17 апреля 2022).