Введение 4
Глава 1 7
1.1 Перевод как вид языковой деятельности 7
1.2 История развития машинного перевода 10
1.3 Обзор существующих систем машинного перевода и их характеристик 13
1.4 Особенности перевода языковой пары «русский <> французский» 17
1.5 Выводы по Главе 1 20
Глава 2 22
2.1 Подходы к типологии ошибок машинного перевода 22
2.2 Автоматическая оценка качества перевода 24
2.3 Автоматическая оценка читабельности перевода 27
2.4 Выводы по Главе 2 29
Глава 3 30
3.1 Цель и задачи эксперимента 30
3.2 Составление классификации ошибок 30
3.3 Вычисление автоматической оценки качества результатов перевода 47
3.4 Вычисление автоматической оценки читабельности результатов перевода 49
3.5 Выводы по Главе 3 50
Заключение 51
Список использованных источников 53
Приложение 1 57
Приложение 2 58
Приложение 3 59
Развитие машинного перевода неразрывно связано с увеличением количества переводимой информации. Постоянная необходимость совершенствования качества работы систем машинного перевода свидетельствует об их высокой востребованности. В современном мире становится важно не только обеспечение возможности межъязыковой коммуникации и обмена информацией вне языковых барьеров, но и скорость и эффективность этих процессов. Вследствие технического прогресса машинный перевод находит свое место и в области трудовой деятельности человека: все большую популярность обретает профессия постредактора – специалиста, занимающегося доработкой автоматически переведенного текста [Koponen 2016].
Интерес к системам машинного перевода в профессиональном контексте подтверждает необходимость исследования качества их работы. Одним из методов анализа систем является сопоставление результатов их работы с целью последующего разбора найденных ошибок и определения наиболее совершенного на момент проведения исследования инструмента для постредактирования. В сравнении становится возможно увидеть то, как по-разному функционируют системы, и как это влияет на генерируемый текст.
Цель этого исследования заключается в сопоставительном анализе работы систем машинного перевода для оценки их качества и составления классификации выявленных ошибок. Для достижения данной цели были сформулированы следующие теоретические и практические задачи:
1. Изучение и обобщение источников информации по теме машинного перевода, системах перевода и их особенностях.
2. Определение понятия «качество перевода», анализ существующих подходов к оценке качества перевода.
3. Отбор материала для сравнения результатов перевода.
4. Выявление несоответствий в полученных текстах переводов по сравнению с эталонным образцом.
5. Осуществление детального анализа найденных примеров неточностей в переводах и создание классификации ошибок.
6. Произведение автоматической оценки качества перевода и читабельности сгенерированного текста.
7. Интерпретация и оценка результатов исследования.
Актуальность темы исследования подтверждается тем, что автоматический перевод является одной из наиболее важных задач компьютерной лингвистики и играет существенную роль в повседневной жизни информационного общества в условиях глобализации[Карцева, Маргарян, Гурова 2016]. Необходимость в постоянном улучшении скорости и производительности систем машинного перевода определяет темп их развития: за несколько лет своего существования нейроперевод опередил результаты, достигнутые статистическими системами, на разработку которых было потрачено более двух десятилетий [Худяков 2019]. В настоящий момент использование искусственных нейронных сетей в системах машинного перевода обретает все большую популярность. В этом исследовании продемонстрированы результаты работы сервисов компаний Google, Яндекс и PROMT. Каждый из представленных онлайн-переводчиков обладает высокой производительностью, основывается на современных технологиях, в том числе и на нейросетях, поддерживает русский и французский языки и широко известен среди пользователей Интернета [51].
Таким образом, объект исследования– это тексты, сгенерированные системами МП GoogleTranslate, PROMT.One и Яндекс – Переводчик в процессе перевода исходных текстов.
В качестве предмета исследования выступают различия в результатах работы рассматриваемых систем машинного перевода, ошибки и неточности, обнаруженные в сравнении.
Тексты на русском и французском языках и их ручные переводы, на материале которых базируется исследование, были предоставлены компанией ООО «ЭГО Транслейтинг».
Практическая значимость работы состоит в идентификации основных проблем функционирования популярных и востребованных инструментов машинного перевода. Результаты исследования могут быть применены в лекциях и практических заданиях обучающего курса по постредактированию, тестах для проверки компетентности кандидатов на должность постредактора.
Выпускная квалификационная работа состоит из введения, трех глав, заключения, списка источников информации и трех приложений. В первой главе рассматривается понятие машинного перевода, история создания и развития данного научного направления, приводится обзор систем машинного перевода и описание сервисов, задействованных в исследовании, а также анализируются особенности направлений перевода «русский язык – французский язык» и «французский язык – русский язык». Вторая глава посвящена методам оценки переводов. Рассматриваются принципы составления классификации ошибок перевода, анализируются существующие классификации. Разбираются способы автоматической оценки переводов с помощью статистических метрик. В качестве эксперимента в исследовании также упоминается автоматическое вычисление читабельности результирующего текста. Третья глава исследования содержит информацию о практической части работы: этапах предобработки текстов, создании собственной классификации ошибок переводов, результатах вычисления автоматической оценки качества и читабельности переводов. В приложениях приводятся программные решения практического этапа исследования.
Данное исследование содержит результаты сопоставительного анализа результатов машинного перевода, выполненного онлайн-сервисами «GoogleTranslate», «Яндекс – Переводчик» и «PROMT. One» для языковой пары «русский - французский». В ходе работы были рассмотрены понятия, связанные с автоматическим переводом, история развития научного направления и особенности существующих систем машинного перевода. Отдельное внимание уделялось направлениям перевода «с русского языка на французский» и «с французского языка на русский» в контексте переводоведения. Методы оценки результатов машинного перевода были проанализированы с точки зрения возможности их применения в практике переводоведения. В рамках работы был произведен сравнительный анализ результатов перевода русских и французских текстов, разработана форма классификации ошибок МП, разобраны примеры ошибок каждой из рассматриваемых систем, вычислены автоматические оценки качества и читабельности переводов. В результате всех этапов исследования можно сделать следующие выводы:
1. Использованный в работе метод автоматической предобработки текстов для выделения несоответствий в переводах может быть применен в составлении классификаций ошибок других направлений перевода и в поиске примеров неточностей МП для обучающих пособий и курсов по автоматизированному переводу.
2. Использование тегов для выделенных несоответствий в переводах значительно облегчает процесс ручной разметки.
3. Найденные примеры ошибок МП могут быть использованы в качестве тестов для проверки знаний постредактора.
4. Анализ обнаруженных ошибок в результатах работы систем машинного перевода продемонстрировал преимущество сервисов «GoogleTranslate»и «Яндекс – Переводчик». Однако в некоторых приведенных примерах прослеживается высокое качество работы сервиса «PROMT.One»с точки зрения адаптации перевода, лексического разнообразия и смыслового соответствия оригиналу.
5. Автоматическая оценка качества перевода, несмотря на сложность интерпретации полученных результатов, демонстрирует результаты, аналогичные выводам, сделанным в процессе составления классификации. Самую высокую оценку получила система компании Google. Вычисления, полученные при помощи разных метрик, обладали схожими значениями, что позволило сопоставить их и сделать общие выводы.
6. Подсчет читабельности результатов МП с использованием метрик ARI, FK, SMOG, CL может найти практическое применение в оценке трудозатрат постредактора.
7. В качестве возможных перспектив исследования представляется релевантным расширение корпуса текстов, дополнение составленной классификации, анализ причин возникновения ошибок машинного перевода и поиск вариантов их устранения.
1. Александрова Е. М. Влияние лексического сходства языков на переводимость каламбура // Филологические науки. Вопросы теории и практики. 2019. №4. С. 108-113.
2. Андреева, А. Д. Обзор систем машинного перевода // Молодой ученый.2013. № 12. С. 64-66.
3. Апресян Ю. Д., Богуславский И. М., Иомдин Л. Л., Лазурский А. В., Митюшин Л. Г., Санников В. З., Цинман Л. Л. Лингвистический процессор для сложных информационных систем. М.: Наука, 1992.
4. Бархударов Л. С. Язык и перевод (Вопросы общей и частной теории перевода). М.: «Междунар. отношения», 1975.
5. Белобородова Е.А., Бодулева А.Р. Преимущества и недостатки машинного перевода // Инновационная наука. 2016. №9 (21). С. 224-226.
6. Бунтман Н. В., Гончаров А. А., Нуриев В. А. Ошибки в машинном переводе: проблемы классификации // Системы и средства информатики. 2019. Т. 29. № 3. С. 92-103.
7. Владова И. М. Перевод как межкультурная коммуникация // Русский язык за рубежом. 2011. № 4(227). С. 27-32.
8. Гак В. Г. Сопоставительная лексикология: на материале французского и русского языков. М.: «Междунар. отношения», 1977.
9. Гриф М. Г., Тимофеева М. К. Интерлингва в системах машинного перевода для жестовых языков // Труды СПИИРАН. 2012. № 20 (1). C. 116-137.
10. Добровольский Б. Д. Лексические трудности перевода в лингвокультурном аспекте. М., 2009.
11. Дроздова К.А. Машинный перевод: история, классификация, методы // Вестник Омского государственного педагогического университета. Гуманитарные исследования. 2015. №3 (7). С. 156-158.
12. Замуруева H. A. Жанровые особенности официально-делового стиля речи // Ученые записки ОГУ. Серия: Гуманитарные и социальные науки. 2010. №3-2. С. 120-123.
13. Ивтушок Е. Машинный перевод не справился с пониманием больших текстов. 2018. URL: https://nplus1.ru/news/2018/09/05/machine-translation-evaluation (дата последнего обращения: 01.06.2021).
14. Карцева Е. Ю., Маргарян Т. Д., Гурова Г. Г. Развитие машинного перевода и его место в профессиональной межкультурной коммуникации // Вестник РУДН. Серия: Теория языка. Семиотика. Семантика. 2016. №3. С. 155-164.
15. Кенжаев А. Д. Машинный перевод: история и современность // Иностранные языки и регионоведение. М.: 2014.
16. Кольцова, Д. А., Кольцов С. В.История и развитие машинного перевода // Русский язык и культура в зеркале перевода.2019. № 1. С. 130-135.
17. Комиссаров В. Н. Теория перевода. М., 1990. Т. 8.
18. Кочеткова Н.С., Ревина Е. В. Особенности машинного перевода // Филологические науки. Вопросы теории и практики. Тамбов: Грамота, 2017. № 6. Ч. 2. С. 106-109.
19. Кулагина О. С. О современном состоянии машинного перевода // Математические вопросы кибернетики. Вып. 3. М.: Наука, 1991. С. 5–50.
20. Кушеева М.Н., Гомбожапова Т.Н., Аюшеева Н.Н. Метод оценки качества семантической сети текста // Современные наукоемкие технологии. 2019. № 11-1. С. 77-81.
21. Легостина М. С. Метрики оценки качества машинного перевода // Инноватика-2019: сборник материалов XV Международной школы-конференции студентов, аспирантов и молодых ученых. Томск: Общество с ограниченной ответственностью "СТТ". 2019. С. 490-493.
22. Люльчева Е. М. Имплицитные способы выражения отрицания // Вестник ИГЛУ. 2013. №2 (23). С. 100-108.
23. Минаева И.В. Картирование как метод репрезентации в работах ОйвиндаФальстрема // Артикульт. 2014. 16(4). С. 104-113.
24. Митренина О. В. Машинный перевод // Прикладная и компьютерная лингвистика. 2-е изд. ред. М.: Издательская группа URSS. 2017. С. 156-189.
25. Мифтахова Р. Г. Технологии машинного перевода. Нейроперевод // Доклады Башкирского университета.2018.Т. 3. № 6.С. 711-715.
26. Мохов Н. А. Новейшие информационные технологии в переводе: опыт и перспективы // Язык и культура: Сборник статей XXIX Международной научной конференции.Томск: Национальный исследовательский Томский государственный университет. 2019. С. 230-235.
27. Рогушина Ю.В. Использование критериев оценки удобочитаемости текстадля поиска информации, соответствующей реальным потребностям пользователя // Проблемипрограмування. 2007. № 3. C. 76–87.
28. Рычихин А. К. О методах оценки качества машинного перевода // Системы и средства информ. 2019. Т. 29. № 4. С. 106–118.
29. Солнышкина М. И., Гафиятова Э. В., Казачкова М. Б.Инструменты оценки сложности текста: современная парадигма // Научное наследие Е.И. Пассова в контексте развития иноязычного образования: Материалы Международной научной конференции, посвященной 90-летию со дня рождения Е.И. Пассова, Липецк, 01–02 декабря 2020 года / Под общей редакцией В.Б. Царьковой, А.А. Люлюшина.Липецк: Липецкий государственный педагогический университет имени П.П. Семенова-Тян-Шанского, 2020. С. 251-263.
30. Томилова А. И. Явление межъязыковой псевдоэквивалентности в русском и французском языках: теоретические и прикладные аспекты. Екатеринбург: Уральский государственный педагогический университет (УрГПУ), 2018.
31. Томин В. В. О проблемах машинного перевода научно-технического текста в информационном поле кросс-культурного взаимодействия // Вестник ОГУ. 2015. №1 (176). С. 33-39.
32. Федюк П. С.Специфика определения критериев широкозначности лексических единиц // Известия РГПУ им. А. И. Герцена. 2009. №101. 200-205.
33. Худяков Н. А. Современные технологии машинного перевода текстов: преимущества и недостатки // Иностранные языки: лингвистические и методические аспекты.2019.№ 41.С. 208-214.
34. Якобсон Р. О.О лингвистических аспектах перевода // Вопросы теории перевода в зарубежной лингвистике. М., 1978. С. 16-24.
35. Banerjee S., Lavie A. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments // Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization at the 43rd Annual Meeting of the Association of Computational Linguistics (ACL-2005). Michigan, 2005.
36. Bromley A. Charles Babbage's Analytical Engine, 1838 // IEEE Annals of the History of Computing. T. 4. № 3.1982. P. 196-217.
37. Carl M.Post-Editing Machine Translation: Efficiency, Strategies, and Revision Processes in Professional Translation Settings // Psycholinguistic and Cognitive Inquiries into Translation and Interpreting. 2015. P. 145-174.
38. Cheragui M. Theoretical overview of machine translation // CEUR Workshop Proceedings. № 867. 2012. P. 160-169.
39. Hutchins J. Machine Translation: A Brief History. Oxford: Pergamon Press, 1995.
40. Koponen M. Machine Translation Post-editing and Effort. Empirical Studies on the Post-editing Process. Helsinki, 2016.
41. Lin Ch. ROUGE: A Package for Automatic Evaluation of summaries. Proceedings of the ACL Workshop: Text Summarization Braches Out. 2004.
42. Papineni K., Roukos S., Ward T., Zhu W. BLEU: A Method for Automatic Evaluation of Machine Translation. 2002.
43. Peng H. The Impact of Machine Translation and Computer-aided Translation on Translators // IOP Conference Series: Materials Science and Engineering. 2018.
44. Zhou S., Jeong H., Green P.How consistent are the best-known readability equations in estimating the readability of design standards? // IEEE Transactions on Professional Communication. 2017.
45. ZongZh. Research on the Relations Between Machine Translation and Human Translation. Journal of Physics: Conference Series. 2018.
Интернет-ресурсы:
46. Яндекс – Переводчик. URL: https://translate.yandex.ru/. (Дата последнего обращения: 01.06.2021).
47. Яндекс Подбор Слов. URL: https://wordstat.yandex.ru/. (Дата последнего обращения: 01.06.2021).
48. DiffLib. URL: https://docs.python.org/3/library/difflib.html.(Дата последнего обращения: 01.06.2021).
49. Google Translate. URL: https://translate.google.com/. (Дата последнего обращения: 01.06.2021).
50. Natural Language Toolkit. URL: https://www.nltk.org/. (Дата последнего обращения: 01.06.2021).
51. PROMT One. URL: https://www.translate.ru/. (Дата последнего обращения: 01.06.2021).
52. RapidAPI. Top 8 Best Translation Websites & Services (in 2021). URL: https://rapidapi.com/blog/best-translation-sites/. (Дата последнего обращения: 01.06.2021).
53. RENOUVO (Réseau pour la nouvelle orthographe du français). URL: http://www.renouvo.org/liste.php. (Дата последнего обращения: 01.06.2021).