ВВЕДЕНИЕ 4
1. МАШИННЫЙ ПЕРЕВОД 7
1.1. Определение понятия перевода как вида человеческой деятельности 7
1.2. Определение понятия машинного перевода 8
1.3. История развития машинного перевода 10
1.4. Типы систем МП 14
1.4.1. Память переводов (Translation Memory) 15
1.4.2. Системы, основанные на правилах (классические системы) 16
1.4.3. Статистический машинный перевод 18
1.4.4. Гибридные системы машинного перевода 22
1.5. Практическое применение систем машинного перевода 24
1.6. Перспективы развития систем машинного перевода 26
1.7. Выводы 27
2. ОЦЕНКА КАЧЕСТВА МАШИННОГО ПЕРЕВОДА 29
2.1. Качество перевода 29
2.1.1. Экспертная оценка 29
2.1.2. Автоматическая оценка 31
2.2. Типология ошибок машинного перевода 34
2.2.1. Пропущенные слова 35
2.2.2. Неправильный порядок слов 36
2.2.3. Неверные слова 37
2.2.4. Неизвестные слова 39
2.2.5. Пунктуация 39
2.3. Выводы 40
3. АНАЛИЗ РАБОТЫ СТАТИСТИЧЕСКОЙ СИСТЕМЫ МП 41
3.1. Корпус и процентное соотношение ошибок 41
3.2. Причины возникновения ошибок 42
3.2.1. Ошибки, вызванные отсутствием или некорректной предварительной обработкой запроса 42
3.2.1.1. Некорректное распознавание языка 43
3.2.1.2. Запросы, оформленные некорректно с точки зрения синтаксиса 44
3.2.1.3. Некорректное распознавание именованных сущностей 46
3.2.2. Ошибки, связанные с содержанием параллельного корпуса 46
3.2.2.1. Недостаточный объем корпуса 49
3.2.2.2. Иноязычные слова в корпусе 50
3.2.2.3. Неправильный перевод и опечатки 50
3.2.3. Ошибки, связанные с особенностями языков 51
3.2.3.1. Прагматические адаптации 52
3.2.3.2. Тире в русском 53
3.2.3.3. Вопросительная форма глагола в финском языке 53
3.2.3.4. Обобщенно-личные предложения по смыслу, но не по форме 54
3.2.3.5. Предложения с глаголом olla 55
3.2.4. Ошибки, связанные с работой алгоритма системы перевода 56
3.3. Выводы 58
ЗАКЛЮЧЕНИЕ 59
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
Инструменты машинного перевода (МП), позволяющие работать с текстами онлайн и осуществлять быстрый перевод, служат для интернет-пользователей средством коммуникации. У таких инструментов есть ряд недостатков — ни одна из таких платформ, существующих в настоящее время, не является оптимальной с точки зрения скорости, правильности и стоимости перевода [Борисова, 2013; Аматов, 2008].
Зачастую результаты работы онлайн-инструментов требуют постредактирирования [Борисова, 2014; Новожилова, 2014], и эффективно могут использоваться только теми, кто в какой-то степени владеет принимающим языком и языком-источником.
Другой проблемой является то, что не для всех малых языков существуют хорошо разработанные автоматические переводчики. Большинство систем при работе с некоторыми парами языков используют язык-посредник (обычно английский язык). Иначе говоря, перевод осуществляется не напрямую: сначала происходит трансфер текста с языка-оригинала на английский, а уже потом — на необходимый язык перевода, что во многом влияет на качество перевода [Новожилова, 2014].
В этой ситуации нам кажется актуальной задача развития систем машинного перевода для тех языков, которые до сих пор не были достаточно автоматизированы. Так, до недавнего времени для перевода в паре финский-русский язык не существовало такой системы, которая бы не использовала язык-посредник. Это определяет актуальность нашей работы. Ее практическая значимость обусловлена тем, что разработанные нами классификация и рекомендации могут быть использованы при создании и усовершенствовании систем машинного перевода.
Мы выбрали для работы онлайн-переводчик PROMT, во-первых, потому что на данный момент прямой перевод между русским и финским языком, без использования языка посредника, может осуществлять только этот инструмент, во-вторых, по той причине, что в нашем доступе оказались данные реальных пользовательских запросов. Более того, компания начинает активно внедрять статистические технологии, и это один из их первых проектов, над которым началась работа в 2005 году. Для английского и русского языков компания уже сейчас ведет разработки гибридных подходов. Мы верим, что с богатым и успешным опытом компании в области классического перевода «по правилам», при дальнейшем использовании статистических методов, у PROMT есть большой потенциал также и в области гибридного перевода.
Мы считаем что, идентификация основных проблем системы перевода — это важный шаг в направлении дальнейших исследований.
Целью нашей работы является анализ особенностей перевода, связанных с работой статистического машинного переводчика PROMT в паре языков русский-финский.
Для достижения поставленной цели нами были решены следующие задачи:
- изучена история развития систем МП, описаны типы систем МП и рассмотрены принципы их работы;
- исследованы понятие «качества перевода» и способы оценки качества перевода;
- проанализированы типы ошибок, появляющиеся при работе системы PROMT, и дана их классификация;
- дана оценка результатам эксперимента, рассмотрены причины возникающих ошибок и определены дальнейшие пути развития.
В первой главе дается краткий обзор истории машинного перевода, приведены несколько классификаций существующих систем МП, далее подробно расписаны принципы работы перевода по правилам, статистического перевода и гибридных подходов, приведены плюсы и минусы таких систем.
Вторая глава посвящена оценке качества МП, разбираются стандартные методы оценки качества перевода (такие как экспертная оценка, метрики BLEU, NIST и WER) ставится вопрос об интерпретации результата такой оценки, приводится стандартная классификация типов ошибок.
В третьей главе мы описываем практическую часть нашей работы, приводится классификация систематических ошибок на основании возможных причин их появления, даются рекомендации относительно улучшения работы СМТ с помощью дополнительных инструментов.
Благодарим компанию «ПРОМТ» за предоставленные нам для работы данные пользовательских запросов и возможность участвовать в разработке этого переводческого инструмента.
В данной работе мы определили понятие машинного перевода, описали основные типы систем и методы оценки МП. На основании изученной нами теоретических данных, описанных в первой и второй главах, мы проанализировали работу статистического онлайн-переводчика PROMT, подробно разобрали ошибки, появляющиеся при работе этой системы, привели нашу собственную классификацию ошибок и предложили способы их устранения.
В первой главе мы описали историю развития систем МП, современное состояние этой области, и рассмотрели три основных современных подхода к МП: основанного на правилах, статистического и гибридного. Далее, во второй главе мы описали популярные способы оценки МП, экспертную оценку и различные метрики. Мы также привели одну из возможных классификаций ошибок, появляющихся в ходе работы систем МП.
В третьей главе для анализа работы статистического переводчика PROMT мы использовали корпус из 15043 реальных пользовательских запросов (295 тысяч токенов). Мы привели статистические данные типов ошибок и дали свою собственную классификацию ошибок, на основе причин их появления.
Исследовательские работы, проводящиеся в области МП, часто можно разделить на две категории: написанные с точки зрения лингвистики, и написанные с точки зрения точных вычислительных наук. Так, работы, в которых дается оценка качества перевода, часто полностью опускают или не учитывают принципы работы программ, которые используются для этого перевода. Исследования, которые не учитывают данных лингвистики, предоставляют статистические данные о количестве и типах ошибок, оценки BLEU или NIST, которые сложно интерпретировать. В итоге, это приводит к тому, что причины появления ошибок остаются за пределами исследования. Для улучшения результатов таких исследований, специалисты из разных областей должны больше взаимодействовать.
Для дальнейшего развития систем перевода, которые будут использоваться реальными пользователями, нужно понимать, как и кто в конечном итоге будет ими пользоваться. Нужно учитывать потребности пользователя. Так для профессиональных переводчиков будет полезна возможность выбора между несколькими вариантами перевода, а для обычного пользователя потребуются различные инструменты, осуществляющие предварительную обработку запроса.
Наше собственное исследование запросов продемонстрировало, что пользователи переводят тексты различных функциональных стилей, и ограничить тематику или стилистику текстов практически невозможно. Тем не менее, можно утверждать, что значительная часть запросов относится к области коммерции и развлечений. Эти данные можно учитывать в дальнейшем при составлении корпуса для переводческой модели.
Мы считаем задачи, поставленные в данной работе, выполненными, а цель — достигнутой.
1. Аматов А. М. К вопросу машинного перевода: энтропия языковой системы и способы ее преодоления // Вестник ЛГУ им. А.С. Пушкина. 2008. №2 (13) С.71-90.
2. Ахманова О. С. Словарь лингвистических терминов. М., 1969.
3. Бархударов Л. С. Язык и перевод. М.,1975.
4. Беляева Л. Н. Лингвистические автоматы в современных гуманитарных технологиях: Учебное пособие. СПб, 2007.
5. Борисова И. А. К опыту постредактирования на материале англо-русского перевода с помощью автоматических систем Google translate и Prompt // Вестник МГЛУ. 2014. №13 (699) С.53-59.
6. Борисова И. А. Коммуникация между интернет-пользователями — носителями различных языков // Вестник МГЛУ. 2013. №13 (673) С.28-34.
7. Гальперин И. Р. Введение. // Большой англо-русский словарь. М., 1987.
8. Кан, Д. А. Применение теории компьютерной семантики русского языка и статистических методов к построению системы машинного перевода: диссертация кандидата физико-математических наук. Место защиты: Федеральное государственное образовательное учреждение высшего профессионального образования Санкт-Петербургский государственный университет. Санкт-Петербург, 2011.
9. Карасев И. В., Артюшина Е. А. Системы машинного перевода // Успехи современного естествознания. 2011, №7, С.117-118.
10. Колшанский Г. В. Контекстная семантика. М., 1980.
11. Комиссаров В. Н. Современное переводоведение. Учебное пособие. М., 2002.
12. Красных В. В., Изотов А. И. Язык, сознание, коммуникация: Сборник статей. М., 2011.
13. Латышев Л. К. Перевод: проблемы теории, практики и методики преподавания. М., 1988.
14. Максименко О. И., Чинина Д. С. Обзор системы машинного перевода «Google Переводчик» (на примере финского языка). // Science Time, 2014, №5 (5), С.133-139.
15. Марчук Ю. Н. Компьютерная лингвистика: учебное пособие. М., 2007.
16. Молчанов А. Статистические и гибридные методы перевода в технологиях компании ПРОМТ. М., 2013.
17. Найда Ю. К науке переводить // Вопросы теории перевода в зарубежной лингвистике. М.,1978.
18. Нелюбин Л. Л. Толковый переводческий словарь. М., 2011.
19. Новожилова А. А. Машинные системы перевода: качество и возможности использования // Вестник ВолГУ. Серия 2: Языкознание. 2014. №3 С.67-73.
20. Рябцева Н. К. Информационные процессы и машинный перевод. Лингвистический аспект. М., 1986.
21. Слокум Дж. Обзор разработок по машинному переводу. Новое в зарубежной лингвистике. М., 1989.
22. Федоров А. В. Основы общей теории перевода (лингвистические проблемы). М., 2002.
23. Фролов С. В., Паньков Д. А. Проблемы построения машинного перевода. Тамбов, 2008.
24. Шаляпина З. М. Автоматический перевод: Эволюция и современные тенденции // Вопросы языкознания, 1996, №2, C. 105—117.
25. Шевчук, В. Н. Информационные технологии в переводе. Электронные ресурсы переводчика. М., 2013.
26. Baker M. Routledge Encyclopedia of Translation Studies. London & New York, 2001.
27. Brown P. F., Delia Pietra V. J., Delia Pietra S. A., Mercer R. L. The mathematics of statistical machine translation: Parameter estimation // Computational Linguistics, 1993, Vol. 19, №2, P. 263—311.
28. Burukina, I. Translating implicit elements in RBMT. // Translating and the Computer 36, 2014, Asling, P. 182—193.
29. Costa-jussà, M., Fonollosa, J. Latest trends in hybrid machine translation and its applications. // Computer Speech & Language, 2015, №32(1), P. 3-10.
30. Guzmán F., Joty S., Marquez L., Nakov P. Using Discourse Structure Improves Machine Translation Evaluation. // ACL (1), 2014, P. 687-698.
31. Härmävaara H. Trouble sources in Finnish-Estonian RM interaction. Helsinki, 2015.
32. Hearne M., Way A. Statistical Machine Translation: A Guide for Linguists and Translators // Language and Linguistics Compass, 2011, №5, P. 205-226.
33. Heyn M. Integrating MachineTranslation into Translation Memory Systems.// Proceedings of the EAMT Machine TranslationWorkshop, Vienna, Austria, 1996, P. 113—126.
34. Hutchins, 2000a — John Hutchins. Hutchins J. The IAMT Certification Initiative and Defining Translation System Categories // Proceedings of 5th EAMT Workshop, Slovenia, 2000.
35. Hutchins, 2000b — John Hutchins. Petr Petrovich Troyanskii (1894-1950): A forgotten pioneer of mechanical translation. // Machine Translation, vol. 15 no. 3, 2000. P. 187—221.
36. Jehl L. Machine translation for Twitter. Master's thesis. The University of Edinburgh, 2010.
37. Koehn, P. Statistical Machine Translation. Cambridge, UK, 2010.
38. Koponen M., Salmi L. On the correctness of machine translation: A machine translation post-editing task. // The Journal of Specialised Translation, 2015, №23, P. 118—136.
39. Koppel M., Ordan N. Translationese and its dialects. // Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Techologies, Portland, Oregon, 2011, P. 1318—1326.
40. Kurokawa D., Goutte C., Isabelle P. Automatic detection of translated text and its impact on machine translation. // Proceedings of MT-Summit XII, 2009, P. 81—88.
41. Lembersky G., Ordan N., Wintner S. Improving statistical machine translation by adapting translation models to translationese. // Computational Linguistics, 2013, №39(4), P. 999—1023.
42. Llitj´os A., Carbonell J., Lavie A. A framework for interactive and automatic refinement of transfer-based machine translation. // Proceedings of the 10th Annual Conference of the European Association for Machine Translation (EAMT), Budapest, Hungary, 2005.
43. Sager J. C. Language Engineering and Translation: Consequenses of Automation. Amsterdam, 1994.
44. Silva J., Rodrigues J., Gomes L., Branco A. Bootstrapping a hybrid deep MT system. Lisbon, 2015.
45. Somers H. L. Intoduction // Computers and Translation: A Translator's Guide. Amsterdam, 2003.
46. Twitto-Shmuel, N., Ordan, N., Wintner, S. Statistical machine translation with automatic identification of translationese. // Proceedings of WMT-2015, 2015
47. Viera A., Garrett J. Understanding interobserver agreement: The Kappa Statistic. // Family Medicine, 2005, №37, P. 360-363.
48. Vilar D., Jia Xu, D’Haro L., Ney H. Error Analysis of Machine Translation Output. In International Conference on Language Resources and Evaluation, pages 697—702, Genoa, Italy, 2006.
49. Zhang Y., Vogel S., Waibel A. Interpreting BLEU/NIST Scores: How Much Improvement do We Need to Have a Better System? // Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC-2004), Lisbon, Portugal, 2004.
50. Zhechev V., Genabith V. Seeding Statistical Machine Translation with Translation Memory Output through Tree-Based Structural Alignment. // Proceedings of the 4th Workshop on Syntax and Structure in Statistical Translation, Beijing, China, 2010, P. 43—51.
ИНТЕРНЕТ-ИСТОЧНИКИ
51. Сайт Европейской ассоциации машинного перевода EAMT. European Association for Machine Translation EAMT.
URL: http://www.eamt.org/mt.html (дата обращения: 6.01.2016)
52. Сайт Джона Хатчинса.
URL: http://www.hutchinsweb.me.uk/history.htm (дата обращения: 6.01.2016)
53. Лекция о системах МП - Системы автоматического (машинного) перевода текста. История, основные сведения, описание. Лекция №13.
URL: http://itclaim.ru/Education/Course/Lingvistika/Lecture/Lecture13.pdf (дата обращения: 9.11.2015).
54. Онлайн версия доклада ALPAC.
URL: http://www.nap.edu/openbook.php?isbn=ARC000005 (дата обращения: 6.12.2015)
55. МП: обзор методов - Презентация: Математические модели в лингвистике 7. Машинный перевод: обзор методов и оценка качества.
URL: http://lpcs.math.msu.su/~pentus/mfk2015/Lecture07_20151021.pdf (дата обращения: 9.11.2015).