Экспериментальное исследование эволюции автоматического перевода научно-технических текстов
|
Введение 4
Глава 1. Основные понятия машинного перевода 8
1.1 Функции машинного перевода 9
1.2 История развития машинного перевода 9
1.3 Системы машинного перевода, их преимущества и недостатки 12
1.3.1 Машинный перевод, основанный на правилах 12
1.3.2 Статистический машинный перевод 13
1.3.3 Гибридный машинный перевод 14
1.3.4 Нейронный машинный перевод 15
1.3.5 Память переводов 15
1.4 Методы оценки перевода 16
1.5 Выводы к главе 1. 25
Глава 2. Исследования эволюции и оценка эффективности систем машинного перевода 26
2. 1 Основные проблемы перевода научно-технического текста 26
2.2 Экспериментальное исследование переводов, выполненных системами машинного перевода Translate, Yandex и Google 29
2.2.1 Сравнительный анализ эволюции СМП Translate 31
2.2.2 Сравнительный анализ эволюции СМП Yandex 35
2.2.3 Сравнительный анализ эволюции СМП Google 42
2.2.4 Выводы к подразделу 2.2 45
2.3 Сравнительный анализ переводов, выполненных СМП и профессиональным переводчиком .46
2.3.1 Лексические ошибки 47
2.3.2 Грамматические ошибки 49
2.3.3 Стилистические ошибки 50
2.3.4 Сужение контекста 54
2.3.5 Искажение смысла 55
2.3.6 Орфографические ошибки 57
2.3.7 Выводы к подразделу 2.3 58
2.4 Выводы к главе 2 60
Заключение 61
Список сокращений 64
Список литературы 65
Приложение 1
Приложение 2
Приложение 3
Приложение 4
Приложение 5
Глава 1. Основные понятия машинного перевода 8
1.1 Функции машинного перевода 9
1.2 История развития машинного перевода 9
1.3 Системы машинного перевода, их преимущества и недостатки 12
1.3.1 Машинный перевод, основанный на правилах 12
1.3.2 Статистический машинный перевод 13
1.3.3 Гибридный машинный перевод 14
1.3.4 Нейронный машинный перевод 15
1.3.5 Память переводов 15
1.4 Методы оценки перевода 16
1.5 Выводы к главе 1. 25
Глава 2. Исследования эволюции и оценка эффективности систем машинного перевода 26
2. 1 Основные проблемы перевода научно-технического текста 26
2.2 Экспериментальное исследование переводов, выполненных системами машинного перевода Translate, Yandex и Google 29
2.2.1 Сравнительный анализ эволюции СМП Translate 31
2.2.2 Сравнительный анализ эволюции СМП Yandex 35
2.2.3 Сравнительный анализ эволюции СМП Google 42
2.2.4 Выводы к подразделу 2.2 45
2.3 Сравнительный анализ переводов, выполненных СМП и профессиональным переводчиком .46
2.3.1 Лексические ошибки 47
2.3.2 Грамматические ошибки 49
2.3.3 Стилистические ошибки 50
2.3.4 Сужение контекста 54
2.3.5 Искажение смысла 55
2.3.6 Орфографические ошибки 57
2.3.7 Выводы к подразделу 2.3 58
2.4 Выводы к главе 2 60
Заключение 61
Список сокращений 64
Список литературы 65
Приложение 1
Приложение 2
Приложение 3
Приложение 4
Приложение 5
Технический бум последних лет и связанная с ним гонка за новейшими моделями техники приводит к тому, что появляется огромное количество текстов, которые сопровождают эту продукцию: руководства по эксплуатации, информация по техническому обслуживанию, рекламные брошюры, пресс-релизы, адресованные и потребителю, и производителю, и торговой и сервисной службе. Тексты, касающиеся импортных товаров, перед выпуском на российский рынок необходимо перевести на русский язык и локализовать.
С информационным взрывом и глобализацией всех видов коммерческой деятельности мир остро нуждается в компетентных переводчиках. Столкнувшись с огромными объемами документов, составленными или переводимыми на все большее количество разных языков, люди приходят к выводу о необходимости в использовании машинных ресурсов для перевода, так как его значительная часть является механической, рутинной и подавляющей воображение работой. Все виды машинного перевода неизбежно становятся глобальной индустрией в этой сфере.
Растущие практические требования к дешевому, быстрому, качественному автоматизированному способу перевода обуславливают актуальность данного исследования.
Перевод научно-технического текста является синтетическим действием, в идеале требующим равно высокой компетентности переводчика как в технике, так и в языке. Поскольку очень мало людей, которые одновременно хорошо разбираются в той технической сфере, к которой относится описываемый предмет, и одинаково хорошо владеют родным и иностранным языками, то и технический перевод, адресованный массовой аудитории, неизбежно становится принципиально коллективным продуктом. Перед профессиональным переводчиком, имеющим развитые навыки активной работы с разного рода текстами (устными и письменными), стоит задача придать материалу ясное звучание, формулировкам – четкость; он должен проверить фактический материал; устранить погрешности композиции, языка, стиля; адаптировать текст для той аудитории, которой он предназначен. Все вышеописанные трудности, связанные с переводом научно-технических текстов обуславливают его стоимость.
Все большее количество компаний-производителей нуждаются в быстром, качественном и недорогом переводе научно-технической литературы: ассортимент продукции расширяется, производимые модели постоянно обновляются, что предполагает выпуск большого количества инструкций по эксплуатации и обслуживанию технических единиц.
Для исследования развития и дальнейшего оценки эффективности систем машинного перевода (СМП) была выбрана инструкция по эксплуатации и техническому обслуживанию определенных моделей генераторного агрегата компании Thermo King. Выбор технической литературы связан с практической значимостью: американская компания Thermo King, занимающая лидирующее положение в мировых масштабах, имеет представительство в Северной Америке, Европе, Среднем Востоке, Индии, Азии, Латинской Америке, Африке и в России. На сегодняшний день решения компании включают в себя системы регулирования температуры для автофургонов, грузовых автомобилей, полуприцепов, железнодорожных платформ, контейнеров для воздушных, морских и смешанных перевозок. А также продукция ОВиК (обогрев, вентиляция и кондиционирование воздуха) для вагонов метрополитена, железнодорожных вагонов и автобусов. Все изделия компании Thermo King обеспечены широкой дилерской сетью, которая предоставляет услуги квалифицированного, обученного на заводе обслуживающего персонала. (http://www.europe.thermoking.com/brand/ru) Для обучения персонала компания проводит тренинги в странах-представителях, для чего печатает большое количество технической литературы на английском языке и переводит на соответствующие странам языки. Продукция компании постоянно обновляется, что предполагает выпуск новых инструкций и квалифицированный перевод....
С информационным взрывом и глобализацией всех видов коммерческой деятельности мир остро нуждается в компетентных переводчиках. Столкнувшись с огромными объемами документов, составленными или переводимыми на все большее количество разных языков, люди приходят к выводу о необходимости в использовании машинных ресурсов для перевода, так как его значительная часть является механической, рутинной и подавляющей воображение работой. Все виды машинного перевода неизбежно становятся глобальной индустрией в этой сфере.
Растущие практические требования к дешевому, быстрому, качественному автоматизированному способу перевода обуславливают актуальность данного исследования.
Перевод научно-технического текста является синтетическим действием, в идеале требующим равно высокой компетентности переводчика как в технике, так и в языке. Поскольку очень мало людей, которые одновременно хорошо разбираются в той технической сфере, к которой относится описываемый предмет, и одинаково хорошо владеют родным и иностранным языками, то и технический перевод, адресованный массовой аудитории, неизбежно становится принципиально коллективным продуктом. Перед профессиональным переводчиком, имеющим развитые навыки активной работы с разного рода текстами (устными и письменными), стоит задача придать материалу ясное звучание, формулировкам – четкость; он должен проверить фактический материал; устранить погрешности композиции, языка, стиля; адаптировать текст для той аудитории, которой он предназначен. Все вышеописанные трудности, связанные с переводом научно-технических текстов обуславливают его стоимость.
Все большее количество компаний-производителей нуждаются в быстром, качественном и недорогом переводе научно-технической литературы: ассортимент продукции расширяется, производимые модели постоянно обновляются, что предполагает выпуск большого количества инструкций по эксплуатации и обслуживанию технических единиц.
Для исследования развития и дальнейшего оценки эффективности систем машинного перевода (СМП) была выбрана инструкция по эксплуатации и техническому обслуживанию определенных моделей генераторного агрегата компании Thermo King. Выбор технической литературы связан с практической значимостью: американская компания Thermo King, занимающая лидирующее положение в мировых масштабах, имеет представительство в Северной Америке, Европе, Среднем Востоке, Индии, Азии, Латинской Америке, Африке и в России. На сегодняшний день решения компании включают в себя системы регулирования температуры для автофургонов, грузовых автомобилей, полуприцепов, железнодорожных платформ, контейнеров для воздушных, морских и смешанных перевозок. А также продукция ОВиК (обогрев, вентиляция и кондиционирование воздуха) для вагонов метрополитена, железнодорожных вагонов и автобусов. Все изделия компании Thermo King обеспечены широкой дилерской сетью, которая предоставляет услуги квалифицированного, обученного на заводе обслуживающего персонала. (http://www.europe.thermoking.com/brand/ru) Для обучения персонала компания проводит тренинги в странах-представителях, для чего печатает большое количество технической литературы на английском языке и переводит на соответствующие странам языки. Продукция компании постоянно обновляется, что предполагает выпуск новых инструкций и квалифицированный перевод....
В результате исследования было раскрыто понятие автоматического перевода, рассмотрена история появления МП, определены его функции. В данной работе машинный перевод рассматривается как процесс перевода некоторого текста с одного естественного языка на другой, полностью реализуемый компьютером. Главными достоинствами МП являются его скорость и низкая стоимость.
В настоящее время существует большое количество систем машинного перевода. В процессе исследования были определены наиболее популярные среди пользователей системы МП: Translate, Yandex и Google. СМП Translate использует машинный перевод, основанный на правилах, в отличие от СМП Google, до недавнего времени использующей статистический метод перевода. В марте 2017 года компания Google полностью перешла на нейросети для повышения качества выходного текста. Компания Yandex внедрила гибридную систему, которая умеет выбирать между нейронным машинным переводом и статистической моделью.
Рассмотрение методик оценки эффективности СМП привело к выводу, что многообразие подходов и методик оценки качества машинного перевода свидетельствует о продолжающихся исследованиях в данной области и отсутствии единого стандарта определения эффективности действующих систем.
В настоящей работе был предпринят эксперимент по исследованию эволюции автоматизированного перевода (в пределах 6 месяцев) и выполнен сравнительный анализ качества выходного текста (по состоянию на май 2018 года).
Для проведения исследования эволюции СМП были переведены одни и те же тексты научно-технический направленности с помощью трех онлайн-переводчиков в ноябре 2017 года и в мае 2018 года (Приложение 4). Также, одним из переводчиков выступал человек. Таким образом, по каждому исследуемому фрагменту имелось несколько вариантов машинного перевода для сверки и оценки качества (Приложение 1,2,3). Результаты сравнительного анализа переводов с разницей в 6 месяцев позволяют сделать следующие выводы:
1. СМП Yandex развивается активнее остальных исследуемых СМП (32% изменений), однако вместе с развитием система выдает переводы, сравнительный анализ которых свидетельствуют об ухудшении качества выходного текста, в т.ч. появление орфографических ошибок, которых не было ранее;
2. Изменения в переводах СМП Translate составляют около 10%, но данный результат нельзя отнести к эволюции - были выявлены многочисленные случаи по снижению качества перевода, система по-прежнему имеет ряд неразрешенных задач;
3. Переводы СМП Google претерпели наименьшие изменения (2%), важным фактом является то, что эволюция системы приводит только к повышению качества перевода.
Сравнительный анализ переводов показал, что все СМП эволюционируют на уровне лексики. Это свидетельствует о том, что автоматические словари пополняются; тем не менее проблема лексической омонимии и полисемии остается нерешенной.
В результате сравнительного анализа переводов научно-технической литературы, выполненных системами МП (по состоянию на май 2018 года), в разной мере были выявлены грамматические ошибки, лексические несоответствия, а также незначительные морфологические и синтаксические ошибки, в ряде случаев стилистические черты технического текста были утеряны. И это далеко не полный список.
Результаты сравнительного анализа качества переводов СМП Translate, Yandex и Google позволяют сделать вывод:
1. Среди исследуемых машинных переводчиков качество перевода СМП Google оказалось на самом высоком уровне. Учитывая полученный результат, относительную стабильность (изменения за 6 месяцев всего 2%) и развитие системы, направленное только на повышение качества перевода, можно предположить, что ошибки перевода СМП Google в обозримом будущем будут сведены к минимуму;
2. СМП Yandex занимает второе место по уровню качества выходного текста. Однако, эту систему можно назвать самой нестабильной: СМП "справляется" с трудностями перевода там, где другие ошибаются и "ломается" в самых неожиданных местах. Учитывая что СМП Yandex стремительно развивается, можно предположить, что в ближайшем будущем система выйдет на достойный уровень по качеству перевода;....
В настоящее время существует большое количество систем машинного перевода. В процессе исследования были определены наиболее популярные среди пользователей системы МП: Translate, Yandex и Google. СМП Translate использует машинный перевод, основанный на правилах, в отличие от СМП Google, до недавнего времени использующей статистический метод перевода. В марте 2017 года компания Google полностью перешла на нейросети для повышения качества выходного текста. Компания Yandex внедрила гибридную систему, которая умеет выбирать между нейронным машинным переводом и статистической моделью.
Рассмотрение методик оценки эффективности СМП привело к выводу, что многообразие подходов и методик оценки качества машинного перевода свидетельствует о продолжающихся исследованиях в данной области и отсутствии единого стандарта определения эффективности действующих систем.
В настоящей работе был предпринят эксперимент по исследованию эволюции автоматизированного перевода (в пределах 6 месяцев) и выполнен сравнительный анализ качества выходного текста (по состоянию на май 2018 года).
Для проведения исследования эволюции СМП были переведены одни и те же тексты научно-технический направленности с помощью трех онлайн-переводчиков в ноябре 2017 года и в мае 2018 года (Приложение 4). Также, одним из переводчиков выступал человек. Таким образом, по каждому исследуемому фрагменту имелось несколько вариантов машинного перевода для сверки и оценки качества (Приложение 1,2,3). Результаты сравнительного анализа переводов с разницей в 6 месяцев позволяют сделать следующие выводы:
1. СМП Yandex развивается активнее остальных исследуемых СМП (32% изменений), однако вместе с развитием система выдает переводы, сравнительный анализ которых свидетельствуют об ухудшении качества выходного текста, в т.ч. появление орфографических ошибок, которых не было ранее;
2. Изменения в переводах СМП Translate составляют около 10%, но данный результат нельзя отнести к эволюции - были выявлены многочисленные случаи по снижению качества перевода, система по-прежнему имеет ряд неразрешенных задач;
3. Переводы СМП Google претерпели наименьшие изменения (2%), важным фактом является то, что эволюция системы приводит только к повышению качества перевода.
Сравнительный анализ переводов показал, что все СМП эволюционируют на уровне лексики. Это свидетельствует о том, что автоматические словари пополняются; тем не менее проблема лексической омонимии и полисемии остается нерешенной.
В результате сравнительного анализа переводов научно-технической литературы, выполненных системами МП (по состоянию на май 2018 года), в разной мере были выявлены грамматические ошибки, лексические несоответствия, а также незначительные морфологические и синтаксические ошибки, в ряде случаев стилистические черты технического текста были утеряны. И это далеко не полный список.
Результаты сравнительного анализа качества переводов СМП Translate, Yandex и Google позволяют сделать вывод:
1. Среди исследуемых машинных переводчиков качество перевода СМП Google оказалось на самом высоком уровне. Учитывая полученный результат, относительную стабильность (изменения за 6 месяцев всего 2%) и развитие системы, направленное только на повышение качества перевода, можно предположить, что ошибки перевода СМП Google в обозримом будущем будут сведены к минимуму;
2. СМП Yandex занимает второе место по уровню качества выходного текста. Однако, эту систему можно назвать самой нестабильной: СМП "справляется" с трудностями перевода там, где другие ошибаются и "ломается" в самых неожиданных местах. Учитывая что СМП Yandex стремительно развивается, можно предположить, что в ближайшем будущем система выйдет на достойный уровень по качеству перевода;....





