Введение 3
Глава 1. Машинный перевод 5
1.1 История машинного перевода 6
1.2. Виды машинного перевода 17
1.2.1. Перевод, основанный на правилах 17
1.2.2. Статистический перевод 20
1.2.3. Гибридный перевод 22
1.3 Оценка машинного перевода 24
Выводы к главе 1 25
Глава 2. Язык эсперанто и его компьютерная обработка 27
2.1. Эсперанто в системе искусственных языков. 27
2.2. История создания эсперанто 29
2.3. Описание языка эсперанто 31
2.3.1. Алфавит и фонетика 31
2.3.2. Морфология и словообразование 31
2.3.3. Лексика 33
2.3.4. Синтаксис 34
2.4. Компьютерные ресурсы для работы с эсперанто 35
2.4.1. Словари и переводчики 35
Переводчик Google Translate. 35
Яндекс Переводчик 37
Словарь Eoru.ru 38
2.4.2. Морфологические и синтаксические анализаторы 40
2.5. Выводы ко второй главе 41
Глава 3. Создание гибридного компонента. 43
3.1. Общее описание эксперимента. 43
3.2. Графематический и морфологический анализы 44
3.3. Выравнивание предложений пословно 47
3.4. Первичное исправление ошибок. 50
3.5. Поиск зависимостей 52
3.6. Анализ ошибок. 53
3.7. Проблемы и перспективы. 55
Выводы к главе 3 57
Заключение 59
Список литературы
Системы машинного перевода приобретают всё большее значение. Люди стремятся путешествовать, узнавать мир, также становятся популярными знакомства и общение в интернете с людьми из других стран. Однако на Земле насчитывается не одна сотня различных языков, и освоить каждый из них хотя бы на базовом уровне – задача для обычного человека непосильная. Получивший в XX веке мировое распространение английский язык облегчает международную коммуникацию, однако, всё же не решает проблему языкового барьера полностью.
В ситуации, где нет возможности попросить кого-либо перевести текст, на помощь приходят системы машинного перевода. От обычного словаря они отличаются тем, что способны перевести готовую фразу целиком, тем самым не требую от пользователя знаний грамматики или лексики языка.
На данный момент в построении систем машинного перевода преуспевают крупные корпорации, такие как Яндекс, Google, PROMT и т.д. Крупные компании могут себе позволить в короткие сроки собрать большие объёмы материала и запустить на своей платформе очередную систему перевода. В основном компании концентрируются на двух подходах к машинному переводу: подходе, основанном на правилах, и статистическом подходе. Каждый из подходов обладает своими недостатками, скомпенсировать которые их объединение.
Подобное слияние двух методов перевода получило название гибридного, и именно оно представляет сейчас наибольший интерес среди компьютерных лингвистов. Несмотря на большой потенциал, разработок в этой сфере ведётся не так много.
В сложившейся ситуации чрезвычайно актуальной кажется задача улучшения систем машинного перевода с тех языков, которые до сих пор не были достаточно автоматизированы, но при этом являются популярными и распространёнными по всему миру. Одним из таких языков является эсперанто. Однако, несмотря на то, что эсперанто считается самым успешным искусственным языком в мире, автоматических переводчиков, обслуживающих этот язык, лишь единицы. Культура эсперанто не теряет актуальности уже больше столетия, особенно на территории Европы, однако система машинного перевода с эсперанто на русский язык была разработана компанией Яндекс лишь в прошлом году. Как и в случае с другими парами языков, перевод с эсперанто основывается на статистике, что приводит к многочисленным ошибкам в согласовании. Программа, исправляющая уже готовый перевод, может не только существенно упростить понимание текста, но и продемонстрировать преимущество гибридного перевода перед другими типами. Это и определяет практическую значимость нашей работы.
Целью работы является выявление проблем построения гибридного компонента для статистического переводчика с эсперанто на русский.
Для достижения поставленной цели нам необходимо решить следующие задачи:
- изучить устройство и этапы развития систем машинного перевода;
- проанализировать лексику, морфологию и синтаксис языка эсперанто;
- разработать программу-прототип гибридного компонента переводчика;
- оценить результаты эксперимента и определить дальнейшие пути развития данного проекта.
В первой главе теоретической части рассматривается история систем машинного перевода, текущий этап их развития и основные достоинства и недостатки существующих подходов.
Вторая глава посвящена языку эсперанто: его истории, устройству и уже созданному програмному обеспечению..
Третья глава является практической и описывает основные алгоритмы и этапы работы программы, исправляющей ошибки перевода
В данной работе мы проанализировали историю машинного перевода, те сложности с которыми сталкивались исследователи и разработчики прошлых лет. Также, мы сравнили различные подходы к машинному переводу (перевод по правилам, статистический перевод, гибридный перевод) и установили преимущества и недостатки каждого из подходов. Этим вопросам посвящена первая глава. Далее, мы рассмотрели язык эсперанто с исторической и лингвистической точек зрения и изучили различные технологии для автоматического анализа эсперанто во второй главе. На основании проанализированной информации мы приняли решение разработать гибридный компонент для статистического переводчика с эсперанто на русский язык, об основных элементах которого можно прочитать в главе 3.
Основная цель гибридного компонента – осуществить проверку и исправление грамматических ошибок, которые возникли в результате статистического перевода. Разработанная программа вначале анализирует предложения графематически и морфологически, затем производит пословное выравнивание по частям речи с помощью расчёта редакционного предписания и исправляет ошибки, связанные с неправильным числом или наклонением глаголов, далее ищет некоторые основные зависимости и исправляет ошибки снова, уже с использованием данных об именных и глагольных группах. Для оценки алгоритма мы загрузили в программу 250 предложений из параллельного корпуса OPUS, в результате чего количество верных предложений увеличилось на 4,25%.
В процессе работы на каждом этапе был выявлен ряд трудностей. Статистический подход Яндекс-Переводчика приводит к непредсказуемым ошибкам, с которыми не справляются дальнейшие шаги алгоритма. Также, результаты морфологического анализа pymorphy2 русских слов порой даёт чрезмерно обширные разборы, но, несмотря на это, некоторые слова трактует однобоко и определяет части речи неверно.
Разработанный нами алгоритм тоже содержит в себе ряд недочётов. Так, он не исправляет неверное согласование существительных с числительными и на данный момент не может найти глаголу его видовую пару, чтобы её поставить в нужную форму. В дальнейшем мы планируем добавить эти опции в нашу программу. Невзирая на такие недоработки, алгоритм тем не менее смог улучшить результаты статистического перевода с эсперанто на русский язык.
В целом, задачи, поставленные в данной работе, можно считать выполненными, а цель – достигнутой.
1. Андреева А. Д. Обзор систем машинного перевода. Журнал "Молодой ученый", М., 2013.
2. Белоногов Г. Г. Компьютерная лингвистика и перспективные информационные технологии. М., 2004.
3. Бельская И. К., Королев Л. Н., Панов Д. Ю. Перeводная машина П. П. Троянского: сборник материалов о переводной машине для перевода с одного языка на другие, предложенной П. П. Троянским в 1933 г. Изд. Акад. Наук СССР, Москва, 1959.
4. Беляева Л. Н. Лингвистические автоматы в современных гуманитарных технологиях: Учебное пособие. СПб, 2007.
5. Беляева Л. Н., Откупщикова М. И. Автоматический (машинный) перевод // Прикладное языкознание / под. ред. Герда А. С. СПб., 1996.
6. Браславский П., Белобородов А., Шаров С., Халилов М. Дорожка по оценке машинного перевода ROMIP MTEval 2013: отчет организаторов. Диалог, М., 2013.
7. Всеволодова А. В. Компьютерная обработка лингвистических данных. М., 2007.
8. Жирков Л. И. Границы применимости машинного перевода. «Вопросы языкознания», М., 1956.
9. Заменгов Л. Международный язык. Предисловие и полный учебник. Варшава 1887
10. Колкер Б. Г. Международный язык Эсперанто: полный учебник. М, 2012.
11. Кузнецов С. Н. Краткий словарь интерлингвистических терминов // Проблемы международного вспомогательного языка. — М.: Наука, 1991. — С. 171—228.
12. Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады Академий Наук СССР, 1965.
13. Леонтьева Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы: учебное пособие для студентов лингвистических факультетов вузов. М., 2006.
14. Марчук Ю. Н. Проблемы машинного перевода. М., 1983.
15. Марчук Ю. Н. Компьютерная лингвистика: учебное пособие. М., 2007.
16. Мельчук И. А. Опыт теории лингвистических моделей "Смысл-Текст". М., 1999
17. Молчанов А. Статистические и гибридные методы перевода в технологиях компании ПРОМТ. CONTROL ENGINEERING Россия #4 (46), М., 2013.
18. Николаев И. С., Митренина О. В., Ландо Т. М. (Ред.). Прикладная и компьютерная лингвистика. URSS, Москва, 2016
19. Пиперски А. Ч. Конструирование языков. От эсперанто до дотракийского, М., 2017
20. Соловьева А. В. Профессиональный перевод с помощью компьютера. СПб, 2008.
21. Филинов Е. Н. 07.10.2002. ст. «История машинного перевода» //http://www.computer-museum.ru/
22. Шаляпина З. М. Автоматический перевод: эволюция и современные тенденции. Вопросы языкознания, М., 1996.
23. Щипицина Л. Ю. Информационные технологии в лингвистике: учеб. пособие. М., 2013
24. Aasgaard B. C. Parsing of Esperanto. Cand. Scient. Thesis, Oslo, Norway, 2006
25. Bick E. A Dependency Constraint Grammar for Esperanto. NODALIDA, Odendse, Denmark, 2009
26. Brown J. C. Loglan 1: A logical language. Gainesville, FL, 1999
27. Brown P. F., Della Pietra S. A., Della Pietra V. J., Mercer R. L. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics, 19(2):263–311, Cambridge, MA, US, 1993.
28. Cho K., van Merrienboer B., Gulcehre C., Bougares F., Schwenk H., Bengio Y. Learning phrase representations using rnn encoder-decoder for statistical machine translation. EMNLP, Doha, Qatar, 2014
29. Corsetti R., Pinto M. A., Tolomeo M. Regularizing the regular: The phenomenon of overregularization in Esperanto-speaking children // Language Problems and Language Planning. 2004
30. Costa-jussa M. R., Banchs R. E., Rapp R., Lambert P., Eberle K., Babych B. Workshop on Hybrid Approaches to Translation: overview and developments. Second Workshop on Hybrid Approaches to Translation, Sofia, Bulgaria, 2013
31. Goldwater S., McClosky D. Improving statistical MT through morphological analysis. EMNLP, Vancouver, B.C., Canada, 2005
32. Guinard T. An Algorithm for Morphological Segmentation of Esperanto Words. PBML № 105, Prague, Czech republic, 2016
33. Hajič J., Hric J., Kuboň V. Machine Translation of Very Close Languages. ANLC '00, Seattle, Washington, 2000
34. Harris B. Bi-Text, a new concept in translation theory. Language Monthly, 54:8–10, Ann Arbor, MI, US, 1988
35. Hutchins W. J. Machine translation: past, present, future. Chichester, UK, 1986.
36. Hutchins J. Machine translation over fifty years. Histoire, Epistemologie, Langage, Tome XXII, fasc. 1, Paris, France, 2001.
37. Kalchbrenner N., Blunsom P. Recurrent continuous translation models. EMNLP, Seattle, USA, 2013.
38. Karlsson F., Voutilainen A., Heikkilä J. Anttila A. Constraint Grammar - A Language-Independent System for Parsing Unrestricted Text. Natural Language Processing №4, Berlin & New York. 1995
39. Koehn P. Statistical Machine Translation. Cambridge, UK, 2010.
40. Koehn P., Och, F. J., Marcu D. Statistical phrase-based translation. NAACL, Edmonton, Canada, 2003
41. Kolovratník D., Klyueva N., Bojar O. Statistical Machine Translation Between Related and Unrelated Languages. ITAT, Kralova studna, Slovakia, 2009.
42. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts, pp 320-332, 2015.
43. Och F. J., Ney H. A Systematic Comparison of Various Statistical Alignment Models. Computational Linguistics 29(1):19–51, Cambridge, MA, US, 2003.
44. Lewis C. I. A survey of symbolic logic. University of California Bress, Berkley, 1918
45. Ogden C. K. The ABC of Basic English., Trubner, London 1932.
46. Okrand M. The Klingon Dictionary (paperback) (2nd: i.e., with addendum ed.). New York: Pocket Books, 1992.
47. Okrent A. In the Land of Invented Languages: Adventures in Linguistic Creativity, Madness, and Genius. NY, USA, 2009
48. Orlova D. Esperus: the First Step to Build a Statistical Machine Translation System for Esperanto and Russian Languages. AINL FRUCT, Saint Petersburg, Russia, 2015
49. Papineni K., Roukos S., Ward T, Zhu W. BLEU: a Method for Automatic Evaluation of Machine Translation. ACL, Philadelphia, US, 2002.
50. Schwenk H. Continuous space translation models for phrase-based statistical machine translation. Coling, Mumbai, India, 2012.
51. Sutskever I., Vinyals O., Le Q. V. Sequence to sequence learning with neural networks. NIPS, Monreal, Canada, 2014
52. Tiedemann J. Parallel Data, Tools and Interfaces in OPUS. LREC, Istanbul, Turkey, 2012.
53. Tiedemann J., Nygaard L. The OPUS corpus - parallel & free. LREC, Lisbon, Portugal, 2004
54. Trask R. L., Stockwell P. Language and linguistics:The key concepts. 2nd ed. Abington, New York:Routledge, 2007
55. Uchida H. UNL: Universal Networking Language An Electronic Language for Communication, Understanding, and Collaboration. UNU/IAS/UNL Center, Tokyo, Japan, 1996
56. Varga D., Nemeth L., Halacsy P., Kornai A., Tron V., Nagy V. Parallel corpora for medium density languages. RANLP, Borovets, Bulgaria, 2005.
57. Wagner R. A., Fischer M. J. The string-to-string correction problem. Journal of the ACM, Vol. 21, No. 1, pp. 168-173, 1974
58. Wu Y., Schuster M., Chen Z., Le Q. V., Norouzi M., ... & Klingner, J. Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. Technical Report, 2016.
59. Zamenhof L. L. Fundamenta de esperanto. Paris, 1905
Интернет-источники :
Яндекс Переводчик
URL: http://translate.yandex.ru/?ncrnd=3621/
Большие словари Бориса Кондратьева
URL: http://eoru.ru/
Домашняя страница Moses
URL: http://www.statmt.org/moses/index.php?n=Main.HomePage
Открытый корпус параллельных текстов OPUS
URL: http://opus.lingfil.uu.se/
Tilde Neural Machine Translation
URL: https://www.tilde.com/products-and-services/machine-translation/neural-machine-translation