Машинный перевод является динамично развивающейся областью обработки естественного языка, широко представленной на современном рынке информационных технологий. Технологии машинного перевода позволяют получать моментальные переводы значительных объемов текста, тем самым позволяя переводчикам экономить время, а компаниям – сокращать затраты на перевод нужных им текстов.
С помощью машинного перевода в наше время решаются многие задачи, которые раньше требовали значительно большего времени и ресурсов. В качестве примера таких ситуаций можно привести локализации веб-сайтов и программного обеспечения, перевод технической документации, анализ медиапространства интересующих компании регионов, ускорение деловой переписки. Помимо корпоративного сегмента, машинный перевод также широко применяется для личных целей – общения между людьми, перевода интересующих пользователя текстов и изучения иностранных языков.
Кроме непосредственного перевода текстов, машинный перевод применяется также и в ряде смежных областей, связанных с обработкой естественного языка. Например, в последнее время все более пристальное внимание обращает на себя идея сочетать машинный перевод с автоматическим распознаванием и синтезом речи, что в перспективе позволяет решить многие коммуникативные проблемы. Кроме того, важным направлением для занимающихся машинным переводом компаний является его интеграция с автоматическим распознаванием текста, предоставляющая возможность перевода текста, размещенного на неэлектронных носителях. В-третьих, машинный перевод можно применять вместе с семантико-синтаксическими парсерами либо инструментами для извлечения мнений для того, чтобы анализировать интересующие компанию документы.
Статистический машинный перевод – один из наиболее популярных видов машинного перевода, наряду с переводом, основанным на правилах и гибридном переводом (сочетающим в себе элементы статистического перевода и перевода, основанного на правилах). Основной идеей статистического машинного перевода является обучение модели с помощью параллельного корпуса на целевом и исходном языке. При этом, такие лингвистические задачи, как установления соответствий между словами двух языков, определение правильно порядка слов в генерируемом тексте и обеспечение его «естественности» с точки зрения носителя решаются алгоритмически.
Важным преимуществом статистического машинного перевода является возможность быстрой разработки решений для пары языков. В самом деле, для обучения модели достаточно иметь параллельный корпус достаточного размера и вычислительные мощности для запуска программного обеспечения. При этом, для разработки систем перевода, основанных на правилах, необходимо потратить достаточно большое количество средств на специалистов, владеющих языками рассматриваемой пары. Кроме того, создание системы, способной генерировать сколько-либо приемлемые тексты на целевом языке, займет большое количество времени из-за сложности и многообразия естественного языка. Вдобавок к этому, сама задача поиска лингвистов, специализирующихся в изучении некоторых языков (либо просто их носителей) часто бывает достаточно затруднительной, если ареал распространения языка далек от физического местоположения занимающейся машинным переводом компании. Статистический машинный перевод избавлен от данных недостатков: благодаря высокой степени автоматизации процесса, разрабатывать системы перевода и, в определенной степени, оценивать получившиеся результаты могут даже специалисты, не владеющие языками выбранной пары. Таким образом, использование статистического машинного перевода позволяет компаниям значительно сокращать издержки на разработку моделей перевода требуемых языковых пар и делает возможным такую разработку в крайне сжатые сроки.
Несмотря на то, что лингвистические задачи в статистическом машинном переводе решаются алгоритмически, у разработчика системы перевода все равно остаются возможности улучшить качество продукта для выбранной пары языков. Одним из способов добиться этого является предобработка текста на исходном языке. Практическая реализация этой идеи выбирается на основе особенностей рассматриваемых языков. В частности, если в исходном языке существует тенденция включать ряд морфем в состав других слов, а в целевом – записывать их отдельно, то проведение морфологической сегментации способно улучшить поиск соответствий между словами и снизить недостаточность данных, что, в свою очередь, может благоприятно сказаться на переводе. Кроме того, в некоторых языках текст в принципе не делится на слова каким-либо явным образом. Арабскому языку свойственна запись некоторых частей речи слитно с другими словами в качестве клитиков, поэтому при переводе арабских текстов на языки, в которых не наблюдается такой особенности – к примеру, на русский – логичной кажется идея использовать морфологическую сегментацию арабской части тренировочного корпуса.
Арабский язык является одним из наиболее распространенных в мире. Согласно некоторым оценкам, на нем разговаривает около 295 миллионов человек, что делает его пятым языком мира по численности носителей. Важности этому языку добавляет тот факт, что арабский является государственным языком ряда экономически развитых государств – экспортеров углеводородов и международным экономических центров. Кроме того, многие арабские страны традиционно предоставляют большое количество информационных поводов из-за напряженной внутренней обстановки. При этом, было опубликовано достаточно малое количество исследований о машинном переводе с арабского на русский язык, что обуславливает актуальность данной работы. В частности, работы по изучению различных вариантов предобработки арабского текста для статистического машинного перевода на русский язык практически отсутствуют.
Практическая значимость исследования заключается в том, что его результаты могут помочь улучшить качество статистического машинного перевода с арабского на русский язык. Также, рассмотренные идеи могут применяться в гибридных системах перевода. Кроме того, они могут использоваться в дальнейших исследованиях по арабско-русскому машинному переводу.
Основой целью данной работы является изучение того, как морфологическая сегментация арабского текста влияет на его перевод на русский язык.
В задачи работы входило:
• рассмотреть следующие этапы, необходимые для построения модели статистического машинного перевода:
выравнивание по словам параллельного корпуса на исходном и целевом языке,
построение фразовой таблицы,
создание модели перестановок,
обучение языковой модели,
работа декодера,
тюнинг,
• сформулировать основные варианты сегментации,
• изучить инструменты для осуществления требуемой обработки,
• подготовить систему перевода, в том числе:
удалить диакритические знаки в арабском тексте,
сегментировать тексты согласно выбранным схемам,
обучить модели перевода с помощью системы Moses,
провести тюнинг получившихся моделей,
получить оценки переводов по метрике BLEUScore,
• проанализировать результаты.
Материалом для исследований стал корпус лекций платформы TED, доступный и на арабском, и на русском языке. Объем корпуса составлял 117 987 строк. Из данного корпуса были выделены тренировочный, тюнинговый и тестовый корпуса.
В данной работе был проведен эксперимент по использованию морфологической сегментации арабского текста для улучшения качества статистического машинного перевода.
В теоретической части работы были рассмотрены основные идеи статистического машинного перевода. В частности, был описан процесс выравнивания текстов параллельного корпуса по словам, построение фразовой таблицы и таблицы перестановок. Кроме того, были изучены наиболее популярные в наши дни способы построения языковых моделей. Помимо этого, было разработано четыре основных варианта сегментации арабского текста. Гипотезы об этих вариантах были сформулированы на основе сведений о грамматике арабского языка. Затем, были выбраны программные средства, позволяющие обрабатывать арабскую часть корпуса нужным для исследования образом. Базовая сегментация проводилась с помощью инструмента Stanford Word Segmenter, а дальнейшее видоизменение арабской части корпуса – при помощи языка программирования Perl и текстового редактора Akelpad. Кроме того, для построения модели статистического машинного перевода использовалась система Moses.
В результате была проведена серия экспериментов, в ходе которой было обучен четыре модели машинного перевода согласно вышеупомянутым схемам морфологической сегментации арабского текста. По результатам оценок получившихся текстов был выбран наилучший с точки зрения статистического машинного перевода вариант разбиения арабских слов на морфемы – этим вариантом оказалось базовая сегментация, предполагающая отделение вспомогательных частей речи, которые пишутся отдельно в русском языке. При этом, данный вариант морфологической сегментации привел к улучшению на 0,95 пунктов по метрике BLEUScore. Таким образом, работа показала, что использование морфологической сегментации действительно способно улучшить качество статистического машинного перевода с арабского на русский язык.
1. Сайт системы Moses. URL: http://www.statmt.org/
2. Al-Haj H., Lavie A. The Impact of Arabic Morphological Segmentation on Broad-coverage English-to-Arabic Statistical Machine Translation // Machine Translation, Vol. 26, No. 1/2, Machine Translation for Arabic (March 2012), pp. 3-24. URL: https://www.cs.cmu.edu/~alavie/papers/AMTA-10-Hassan.pdf
3. Badr I., Zbib R., Glass J. Segmentation for English-to-Arabic Statistical Machine Translation // Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies: Short Papers. URL: 153-156. http://www.aclweb.org/anthology/P08-2#page=185
4. Banerjee S., Lavie A. METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments // Proceedings of Workshop in Intrinsic and Extrinsic Evaluations Measures for MT and/or Summarization at ACL. URL: https://www.cs.cmu.edu/~alavie/papers/BanerjeeLavie2005-final.pdf
5. Brown P., Cocke J., Della Pietra S., Della Pietra V., Jelinek F., Mercer R., Roossin P. A Statistical Approach To Language Translation // COLING'88 (Association for Computational Linguistics) 1: 71–76. URL: http://dl.acm.org/citation.cfm?id=991651
6. Callison-Burch C., Koehn P., Osborne M. Improved Statistical Machine Translation Using Paraphrases // Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL, pages 17–24, New York, June 2006. URL: http://www.aclweb.org/anthology/N/N06/N06-1003.pdf
7. Cer D., Jurafsky D., Manning C. Regularization and Search for Minimum Error Rate Training // Proceedings of the Third Workshop on Statistical Machine Translation, pages 26–34, Columbus, Ohio, USA, June 2008 URL: http://www.aclweb.org/anthology/W/W08/W08-0304.pdf
8. Chang P., Galley M., and Manning C. Optimizing Chinese Word Segmentation for Machine Translation Performance // Proceedings of the Third Workshop on Statistical Machine Translation, pages 224–232, Columbus, Ohio, USA, June 2008. URL: http://nlp.stanford.edu/manning/papers/acl08-cws-final.pdf
9. Chen S., Goodman J. An Empirical Study of smoothing techniques for Language Modeling // ACL '96 Proceedings of the 34th annual meeting on Association for Computational Linguistics, pages 310-318, Association for Computational Linguistics Stroudsburg, PA, USA,1996 URL: http://www.speech.sri.com/projects/srilm/manpages/pdfs/chen-goodman-tr-10-98.pdf
10. Habash N., Sadat F. Arabic Preprocessing Schemes for Statistical Machine Translation // Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL, pages 49–52, New York, June 2006. URL: http://www.mt-archive.info/HLT-NAACL-2006-Habash.pdf
11. Habash N., Sadat F. Combination of Arabic Preprocessing Schemes for Statistical Machine Translation // Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages 1–8, Sydney, July 2006. URL: http://dl.acm.org/citation.cfm?id=1220176
12. Koehn P., “Statistical Machine Translation”, Cambridge University Press, New York, 2009
13. Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M., Bertoldi N., Cowan B., Shen W., Moran C., Zens R., Dyer C., Bojar O., Constantin A., Herbst E. // Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. URL: http://homepages.inf.ed.ac.uk/pkoehn/publications/acl2007-moses.pdf
14. Kneser R., Ney H. Improved Backing-Off for m-gramm Modeling // Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, volume 1, pages 181-184, 1995. URL: https://www.semanticscholar.org/paper/Improved-backing-off-for-M-gram-language-modeling-Kneser-Ney/9548ac30c113562a51e603dbbc8e9fa651cfd3ab/pdf
15. Madnani N., Ayan N., Resnik P., Dorr B. Using Paraphrases for Parameter Tuning in Statistical Machine Translation // Proceedings of the Second Workshop on Statistical Machine Translation, pages 120–127, Prague, June 2007. URL: http://www.aclweb.org/anthology/W07-0716
16. Mansour S., Ney H. Arabic-Segmentation Combination Strategies for Statistical Machine Translation // (LREC), pages 3915-3920, Istanbul, Turkey, May 2012. URL: http://www.lrec-conf.org/proceedings/lrec2012/pdf/509_Paper.pdf
17. Marcu D., Wong W., A Phrase-Based, Joint Probability Model for Statistical Machine Translation // Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Philadelphia, July 2002, pp. 133-139. URL: http://www.aclweb.org/anthology/W02-1018
18. Moore R., Quirk C. Random Restarts in Minimum Error Rate Training for Statistical Machine Translation // Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008), pages 585–592, Manchester, August 2008. URL: http://www.aclweb.org/anthology/C08-1074.pdf
19. Nelder J., Mead R. A Simplex Method For Function Minimization // The Computer Journal (1965) 7(4): 308-313. URL: http://comjnl.oxfordjournals.org/content/7/4/308.full.pdf+html
20. Och F., Minimum Error Rate Training in Statistical Machine Translation // ACL '03 Proceedings of the 41st Annual Meeting on Association for Computational Linguistics - Volume 1 Pages 160-167. URL: http://www.aclweb.org/anthology/P03-1021
21. Och F., Ney H. A Systematic Comparison of Various Statistical Alignment Models // Journal Computational Linguistics Volume 29 Issue 1, March 2003, pages 19-51, MIT Press Cambridge, MA, USA. URL: http://dl.acm.org/citation.cfm?id=778824
22. Papineni K., Roukos S., Ward T., Zhu W. BLEU: a Method for Automatic Evaluation of Machine Translation // Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002, pp. 311-318. URL: http://aclweb.org/anthology/P/P02/P02-1040.pdf
23. Russo-Lassner G., Lin J., Resnik P. A Paraphrase-Based Approach to Machine Translation Evaluation // Technical Report UMIACS-TR-2005-57, University of Maryland, College Park, 2005. URL: https://cs.uwaterloo.ca/~jimmylin/publications/Russo-Lassner_etal_TR2005.pdf
24. Tillmann C., A Projection Extension Algorithm for Statistical Machine Translation // Proceedings of the 2003 conference on Empirical methods in natural language processing, pages 1-8, 2003. URL: http://www.aclweb.org/old_anthology/W/W03/W03-1001.pdf
25. Venugopal A., Vogel S., Waibel A. Effective Phrase Translation Extraction from Alignment Models // ACL '03 Proceedings of the 41st Annual Meeting on Association for Computational Linguistics, Volume 1, Pages 319-326. URL: http://www.aclweb.org/anthology/P03-1041
26. Vogel S, Zhang Y., Huang F., Tribble A., Venugopal A., Zhao B., Waibel A. The CMU Statistical Machine Translation System // Proceedings of the MT Summit IX. New Orleans, LA. September 2003, URL: http://www.cs.cmu.edu/~bzhao/publications/MTSummit2003-CMUSys.pdf
27. Witten I., Bell T. The zero frequency problem: estimating the probabilities of novel events in adaptive text compression // 1-Apr-1989, URL: http://dspace.ucalgary.ca/bitstream/1880/46607/2/1989-347-09.pdf
28. Zhang Y., Vogel S. Competitive Grouping in Integrated Phrase Segmentation and Alignment Model // Proceedings of the ACL Workshop on Building and Using Parallel Texts, pages 159–162, Ann Arbor, June 2005. URL: http://www.aclweb.org/anthology/W05-0829
29. Zollmann A., Venugopal A., Vogel S. Bridging the Inflection Morphology Gap for Arabic Statistical Machine Translation // Proceedings of the HLT-NAACL 2006, Short Paper, New York City, NY. URL: http://www.cs.cmu.edu/~ashishv/dist/hlt2006-morph.pdf