Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык
|
Введение 3
1.Глава I. Статистический машинный перевод 8
1.1. Основные принципы 8
1.2. История SMT 9
1.3. Основные этапы и компоненты SMT 10
1.3.1.Выравнивание по словам 10
1.3.2.Фразовая таблица 11
1.3.3.Вероятностная модель 14
1.3.4.Модель перестановок 15
1.3.5.Языковые модели 17
1.4. Декодер 31
1.4.1. Основной алгоритм 31
1.4.2. Рекомбинация гипотез 33
1.4.3. Прореживание 33
1.4.4. Генерация N-лучших списков 34
1.5.Тюнинг 34
2.Глава II. Поиск оптимальной сегментации 36
2.1.Обзор исследований 36
2.2.Способы сегментации 36
2.2.1.Местоимения 37
2.2.2.Определенный артикль 37
2.2.3.Предлоги и союзы 38
2.2.4.Будущее время 38
2.2.5.’inna 38
2.3.Диакритики 39
2.4.Описание эксперимента 39
2.5.Инструменты 40
2.6.Эксперименты 41
2.7.Результаты 42
Заключение 43
Список использованной литературы 45
Приложение 1. Фрагменты тестового корпуса 50
Приложение 2. Фрагменты фразовых таблиц 66
1.Глава I. Статистический машинный перевод 8
1.1. Основные принципы 8
1.2. История SMT 9
1.3. Основные этапы и компоненты SMT 10
1.3.1.Выравнивание по словам 10
1.3.2.Фразовая таблица 11
1.3.3.Вероятностная модель 14
1.3.4.Модель перестановок 15
1.3.5.Языковые модели 17
1.4. Декодер 31
1.4.1. Основной алгоритм 31
1.4.2. Рекомбинация гипотез 33
1.4.3. Прореживание 33
1.4.4. Генерация N-лучших списков 34
1.5.Тюнинг 34
2.Глава II. Поиск оптимальной сегментации 36
2.1.Обзор исследований 36
2.2.Способы сегментации 36
2.2.1.Местоимения 37
2.2.2.Определенный артикль 37
2.2.3.Предлоги и союзы 38
2.2.4.Будущее время 38
2.2.5.’inna 38
2.3.Диакритики 39
2.4.Описание эксперимента 39
2.5.Инструменты 40
2.6.Эксперименты 41
2.7.Результаты 42
Заключение 43
Список использованной литературы 45
Приложение 1. Фрагменты тестового корпуса 50
Приложение 2. Фрагменты фразовых таблиц 66
Машинный перевод является динамично развивающейся областью обработки естественного языка, широко представленной на современном рынке информационных технологий. Технологии машинного перевода позволяют получать моментальные переводы значительных объемов текста, тем самым позволяя переводчикам экономить время, а компаниям – сокращать затраты на перевод нужных им текстов.
С помощью машинного перевода в наше время решаются многие задачи, которые раньше требовали значительно большего времени и ресурсов. В качестве примера таких ситуаций можно привести локализации веб-сайтов и программного обеспечения, перевод технической документации, анализ медиапространства интересующих компании регионов, ускорение деловой переписки. Помимо корпоративного сегмента, машинный перевод также широко применяется для личных целей – общения между людьми, перевода интересующих пользователя текстов и изучения иностранных языков.
Кроме непосредственного перевода текстов, машинный перевод применяется также и в ряде смежных областей, связанных с обработкой естественного языка. Например, в последнее время все более пристальное внимание обращает на себя идея сочетать машинный перевод с автоматическим распознаванием и синтезом речи, что в перспективе позволяет решить многие коммуникативные проблемы. Кроме того, важным направлением для занимающихся машинным переводом компаний является его интеграция с автоматическим распознаванием текста, предоставляющая возможность перевода текста, размещенного на неэлектронных носителях. В-третьих, машинный перевод можно применять вместе с семантико-синтаксическими парсерами либо инструментами для извлечения мнений для того, чтобы анализировать интересующие компанию документы.
Статистический машинный перевод – один из наиболее популярных видов машинного перевода, наряду с переводом, основанным на правилах и гибридном переводом (сочетающим в себе элементы статистического перевода и перевода, основанного на правилах). Основной идеей статистического машинного перевода является обучение модели с помощью параллельного корпуса на целевом и исходном языке. При этом, такие лингвистические задачи, как установления соответствий между словами двух языков, определение правильно порядка слов в генерируемом тексте и обеспечение его «естественности» с точки зрения носителя решаются алгоритмически.
Важным преимуществом статистического машинного перевода является возможность быстрой разработки решений для пары языков. В самом деле, для обучения модели достаточно иметь параллельный корпус достаточного размера и вычислительные мощности для запуска программного обеспечения. При этом, для разработки систем перевода, основанных на правилах, необходимо потратить достаточно большое количество средств на специалистов, владеющих языками рассматриваемой пары. Кроме того, создание системы, способной генерировать сколько-либо приемлемые тексты на целевом языке, займет большое количество времени из-за сложности и многообразия естественного языка. Вдобавок к этому, сама задача поиска лингвистов, специализирующихся в изучении некоторых языков (либо просто их носителей) часто бывает достаточно затруднительной, если ареал распространения языка далек от физического местоположения занимающейся машинным переводом компании. Статистический машинный перевод избавлен от данных недостатков: благодаря высокой степени автоматизации процесса, разрабатывать системы перевода и, в определенной степени, оценивать получившиеся результаты могут даже специалисты, не владеющие языками выбранной пары. Таким образом, использование статистического машинного перевода позволяет компаниям значительно сокращать издержки на разработку моделей перевода требуемых языковых пар и делает возможным такую разработку в крайне сжатые сроки.
Несмотря на то, что лингвистические задачи в статистическом машинном переводе решаются алгоритмически, у разработчика системы перевода все равно остаются возможности улучшить качество продукта для выбранной пары языков. Одним из способов добиться этого является предобработка текста на исходном языке. Практическая реализация этой идеи выбирается на основе особенностей рассматриваемых языков. В частности, если в исходном языке существует тенденция включать ряд морфем в состав других слов, а в целевом – записывать их отдельно, то проведение морфологической сегментации способно улучшить поиск соответствий между словами и снизить недостаточность данных, что, в свою очередь, может благоприятно сказаться на переводе. Кроме того, в некоторых языках текст в принципе не делится на слова каким-либо явным образом. Арабскому языку свойственна запись некоторых частей речи слитно с другими словами в качестве клитиков, поэтому при переводе арабских текстов на языки, в которых не наблюдается такой особенности – к примеру, на русский – логичной кажется идея использовать морфологическую сегментацию арабской части тренировочного корпуса.
Арабский язык является одним из наиболее распространенных в мире. Согласно некоторым оценкам, на нем разговаривает около 295 миллионов человек, что делает его пятым языком мира по численности носителей. Важности этому языку добавляет тот факт, что арабский является государственным языком ряда экономически развитых государств – экспортеров углеводородов и международным экономических центров. Кроме того, многие арабские страны традиционно предоставляют большое количество информационных поводов из-за напряженной внутренней обстановки. При этом, было опубликовано достаточно малое количество исследований о машинном переводе с арабского на русский язык, что обуславливает актуальность данной работы. В частности, работы по изучению различных вариантов предобработки арабского текста для статистического машинного перевода на русский язык практически отсутствуют.
Практическая значимость исследования заключается в том, что его результаты могут помочь улучшить качество статистического машинного перевода с арабского на русский язык. Также, рассмотренные идеи могут применяться в гибридных системах перевода. Кроме того, они могут использоваться в дальнейших исследованиях по арабско-русскому машинному переводу.
Основой целью данной работы является изучение того, как морфологическая сегментация арабского текста влияет на его перевод на русский язык.
В задачи работы входило:
• рассмотреть следующие этапы, необходимые для построения модели статистического машинного перевода:
выравнивание по словам параллельного корпуса на исходном и целевом языке,
построение фразовой таблицы,
создание модели перестановок,
обучение языковой модели,
работа декодера,
тюнинг,
• сформулировать основные варианты сегментации,
• изучить инструменты для осуществления требуемой обработки,
• подготовить систему перевода, в том числе:
удалить диакритические знаки в арабском тексте,
сегментировать тексты согласно выбранным схемам,
обучить модели перевода с помощью системы Moses,
провести тюнинг получившихся моделей,
получить оценки переводов по метрике BLEUScore,
• проанализировать результаты.
Материалом для исследований стал корпус лекций платформы TED, доступный и на арабском, и на русском языке. Объем корпуса составлял 117 987 строк. Из данного корпуса были выделены тренировочный, тюнинговый и тестовый корпуса.
С помощью машинного перевода в наше время решаются многие задачи, которые раньше требовали значительно большего времени и ресурсов. В качестве примера таких ситуаций можно привести локализации веб-сайтов и программного обеспечения, перевод технической документации, анализ медиапространства интересующих компании регионов, ускорение деловой переписки. Помимо корпоративного сегмента, машинный перевод также широко применяется для личных целей – общения между людьми, перевода интересующих пользователя текстов и изучения иностранных языков.
Кроме непосредственного перевода текстов, машинный перевод применяется также и в ряде смежных областей, связанных с обработкой естественного языка. Например, в последнее время все более пристальное внимание обращает на себя идея сочетать машинный перевод с автоматическим распознаванием и синтезом речи, что в перспективе позволяет решить многие коммуникативные проблемы. Кроме того, важным направлением для занимающихся машинным переводом компаний является его интеграция с автоматическим распознаванием текста, предоставляющая возможность перевода текста, размещенного на неэлектронных носителях. В-третьих, машинный перевод можно применять вместе с семантико-синтаксическими парсерами либо инструментами для извлечения мнений для того, чтобы анализировать интересующие компанию документы.
Статистический машинный перевод – один из наиболее популярных видов машинного перевода, наряду с переводом, основанным на правилах и гибридном переводом (сочетающим в себе элементы статистического перевода и перевода, основанного на правилах). Основной идеей статистического машинного перевода является обучение модели с помощью параллельного корпуса на целевом и исходном языке. При этом, такие лингвистические задачи, как установления соответствий между словами двух языков, определение правильно порядка слов в генерируемом тексте и обеспечение его «естественности» с точки зрения носителя решаются алгоритмически.
Важным преимуществом статистического машинного перевода является возможность быстрой разработки решений для пары языков. В самом деле, для обучения модели достаточно иметь параллельный корпус достаточного размера и вычислительные мощности для запуска программного обеспечения. При этом, для разработки систем перевода, основанных на правилах, необходимо потратить достаточно большое количество средств на специалистов, владеющих языками рассматриваемой пары. Кроме того, создание системы, способной генерировать сколько-либо приемлемые тексты на целевом языке, займет большое количество времени из-за сложности и многообразия естественного языка. Вдобавок к этому, сама задача поиска лингвистов, специализирующихся в изучении некоторых языков (либо просто их носителей) часто бывает достаточно затруднительной, если ареал распространения языка далек от физического местоположения занимающейся машинным переводом компании. Статистический машинный перевод избавлен от данных недостатков: благодаря высокой степени автоматизации процесса, разрабатывать системы перевода и, в определенной степени, оценивать получившиеся результаты могут даже специалисты, не владеющие языками выбранной пары. Таким образом, использование статистического машинного перевода позволяет компаниям значительно сокращать издержки на разработку моделей перевода требуемых языковых пар и делает возможным такую разработку в крайне сжатые сроки.
Несмотря на то, что лингвистические задачи в статистическом машинном переводе решаются алгоритмически, у разработчика системы перевода все равно остаются возможности улучшить качество продукта для выбранной пары языков. Одним из способов добиться этого является предобработка текста на исходном языке. Практическая реализация этой идеи выбирается на основе особенностей рассматриваемых языков. В частности, если в исходном языке существует тенденция включать ряд морфем в состав других слов, а в целевом – записывать их отдельно, то проведение морфологической сегментации способно улучшить поиск соответствий между словами и снизить недостаточность данных, что, в свою очередь, может благоприятно сказаться на переводе. Кроме того, в некоторых языках текст в принципе не делится на слова каким-либо явным образом. Арабскому языку свойственна запись некоторых частей речи слитно с другими словами в качестве клитиков, поэтому при переводе арабских текстов на языки, в которых не наблюдается такой особенности – к примеру, на русский – логичной кажется идея использовать морфологическую сегментацию арабской части тренировочного корпуса.
Арабский язык является одним из наиболее распространенных в мире. Согласно некоторым оценкам, на нем разговаривает около 295 миллионов человек, что делает его пятым языком мира по численности носителей. Важности этому языку добавляет тот факт, что арабский является государственным языком ряда экономически развитых государств – экспортеров углеводородов и международным экономических центров. Кроме того, многие арабские страны традиционно предоставляют большое количество информационных поводов из-за напряженной внутренней обстановки. При этом, было опубликовано достаточно малое количество исследований о машинном переводе с арабского на русский язык, что обуславливает актуальность данной работы. В частности, работы по изучению различных вариантов предобработки арабского текста для статистического машинного перевода на русский язык практически отсутствуют.
Практическая значимость исследования заключается в том, что его результаты могут помочь улучшить качество статистического машинного перевода с арабского на русский язык. Также, рассмотренные идеи могут применяться в гибридных системах перевода. Кроме того, они могут использоваться в дальнейших исследованиях по арабско-русскому машинному переводу.
Основой целью данной работы является изучение того, как морфологическая сегментация арабского текста влияет на его перевод на русский язык.
В задачи работы входило:
• рассмотреть следующие этапы, необходимые для построения модели статистического машинного перевода:
выравнивание по словам параллельного корпуса на исходном и целевом языке,
построение фразовой таблицы,
создание модели перестановок,
обучение языковой модели,
работа декодера,
тюнинг,
• сформулировать основные варианты сегментации,
• изучить инструменты для осуществления требуемой обработки,
• подготовить систему перевода, в том числе:
удалить диакритические знаки в арабском тексте,
сегментировать тексты согласно выбранным схемам,
обучить модели перевода с помощью системы Moses,
провести тюнинг получившихся моделей,
получить оценки переводов по метрике BLEUScore,
• проанализировать результаты.
Материалом для исследований стал корпус лекций платформы TED, доступный и на арабском, и на русском языке. Объем корпуса составлял 117 987 строк. Из данного корпуса были выделены тренировочный, тюнинговый и тестовый корпуса.
В данной работе был проведен эксперимент по использованию морфологической сегментации арабского текста для улучшения качества статистического машинного перевода.
В теоретической части работы были рассмотрены основные идеи статистического машинного перевода. В частности, был описан процесс выравнивания текстов параллельного корпуса по словам, построение фразовой таблицы и таблицы перестановок. Кроме того, были изучены наиболее популярные в наши дни способы построения языковых моделей. Помимо этого, было разработано четыре основных варианта сегментации арабского текста. Гипотезы об этих вариантах были сформулированы на основе сведений о грамматике арабского языка. Затем, были выбраны программные средства, позволяющие обрабатывать арабскую часть корпуса нужным для исследования образом. Базовая сегментация проводилась с помощью инструмента Stanford Word Segmenter, а дальнейшее видоизменение арабской части корпуса – при помощи языка программирования Perl и текстового редактора Akelpad. Кроме того, для построения модели статистического машинного перевода использовалась система Moses.
В результате была проведена серия экспериментов, в ходе которой было обучен четыре модели машинного перевода согласно вышеупомянутым схемам морфологической сегментации арабского текста. По результатам оценок получившихся текстов был выбран наилучший с точки зрения статистического машинного перевода вариант разбиения арабских слов на морфемы – этим вариантом оказалось базовая сегментация, предполагающая отделение вспомогательных частей речи, которые пишутся отдельно в русском языке. При этом, данный вариант морфологической сегментации привел к улучшению на 0,95 пунктов по метрике BLEUScore. Таким образом, работа показала, что использование морфологической сегментации действительно способно улучшить качество статистического машинного перевода с арабского на русский язык.
В теоретической части работы были рассмотрены основные идеи статистического машинного перевода. В частности, был описан процесс выравнивания текстов параллельного корпуса по словам, построение фразовой таблицы и таблицы перестановок. Кроме того, были изучены наиболее популярные в наши дни способы построения языковых моделей. Помимо этого, было разработано четыре основных варианта сегментации арабского текста. Гипотезы об этих вариантах были сформулированы на основе сведений о грамматике арабского языка. Затем, были выбраны программные средства, позволяющие обрабатывать арабскую часть корпуса нужным для исследования образом. Базовая сегментация проводилась с помощью инструмента Stanford Word Segmenter, а дальнейшее видоизменение арабской части корпуса – при помощи языка программирования Perl и текстового редактора Akelpad. Кроме того, для построения модели статистического машинного перевода использовалась система Moses.
В результате была проведена серия экспериментов, в ходе которой было обучен четыре модели машинного перевода согласно вышеупомянутым схемам морфологической сегментации арабского текста. По результатам оценок получившихся текстов был выбран наилучший с точки зрения статистического машинного перевода вариант разбиения арабских слов на морфемы – этим вариантом оказалось базовая сегментация, предполагающая отделение вспомогательных частей речи, которые пишутся отдельно в русском языке. При этом, данный вариант морфологической сегментации привел к улучшению на 0,95 пунктов по метрике BLEUScore. Таким образом, работа показала, что использование морфологической сегментации действительно способно улучшить качество статистического машинного перевода с арабского на русский язык.



