ПАРАЛЛЕЛЬНЫЙ КОНКОРДАНС: ПОИСК И РАНЖИРОВАНИЕ ПЕРЕВОДНЫХ КОНТЕКСТОВ ДЛЯ ИЛЛЮСТРАЦИИ ПЕРЕВОДОВ В МАШИННОМ СЛОВАРЕ
|
ВВЕДЕНИЕ 4
1. КОМПЬЮТЕРНАЯ ДВУЯЗЫЧНАЯ ЛЕКСИКОГРАФИЯ 7
1.1. ОСНОВНЫЕ ЗАДАЧИ И НАПРАВЛЕНИЯ РАБОТЫ В КОМПЬЮТЕРНОЙ ЛЕКСИКОГРАФИИ 7
1.2. ЗАДАЧИ И МЕТОДЫ ИХ РЕШЕНИЯ, ОБЩИЕ ДЛЯ КОРПУСНОЙ ЛИНГВИСТИКИ, МАШИННОГО ПЕРЕВОДА И КОМПЬЮТЕРНОЙ ЛЕКСИКОГРАФИИ 9
1.3. КОМПЬЮТЕРНАЯ ДВУЯЗЫЧНАЯ ЛЕКСИКОГРАФИЯ 10
1.4. ЭЛЕКТРОННЫЕ ДВУЯЗЫЧНЫЕ СЛОВАРИ 10
1.5. СЛОВАРИ СИСТЕМ МАШИННОГО ПЕРЕВОДА 15
1.6. АВТОМАТИЧЕСКИ СОСТАВЛЕННЫЕ (МАШИННЫЕ) ДВУЯЗЫЧНЫЕ СЛОВАРИ: МЕТОДОЛОГИЯ
СОСТАВЛЕНИЯ И ПРИМЕНЕНИЕ 18
1.7. ПАРАЛЛЕЛЬНЫЕ КОНКОРДАНСЫ 22
1.8. ВЫВОДЫ 26
2. ИЛЛЮСТРАТИВНЫЙ БЛОК ОДНО- И МНОГОЯЗЫЧНЫХ СЛОВАРЕЙ 28
2.1. ПРИНЦИПЫ ФОРМИРОВАНИЯ ИЛЛЮСТРАТИВНОГО БЛОКА В СЛОВАРЯХ 28
2.2. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ ИЛЛЮСТРАТИВНОГО БЛОКА В ДВУЯЗЫЧНЫХ СЛОВАРЯХ 35
Русско-английский словарь под общим руководством проф. А.И. Смирницкого 35
Англо-русский словарь В.К. Мюллера 36
Большой англо-русский словарь под общим руководством И.Р. Гальперина 36
The Oxford Russian dictionary : Russian-English, English-Russian 37
Большой англо-русский словарь Abbyy Lingvo 37
Новый большой англо-русский словарь под руководством Ю.Д. Апресяна 38
2.3. ВЫВОДЫ 39
3. УСТОЙЧИВЫЕ СОЧЕТАНИЯ РАЗЛИЧНЫХ ТИПОВ И ОПЫТ ИХ
ЛЕКСИКОГРАФИРОВАНИЯ 41
3.1. ОСНОВНЫЕ КОНЦЕПЦИИ УСТОЙЧИВЫХ СОЧЕТАНИЙ 41
3.2. ПРЕДСТАВЛЕНИЕ КОЛЛОКАЦИЙ В СЛОВАРЯХ СОЧЕТАНИЙ 50
Толково-комбинаторный словарь русского языка 51
A Dictionary of English Collocations 52
Oxford Collocations Dictionary 53
Устойчивые словосочетания русского языка 58
Русские глаголы и предикативы 59
Пособие по лексической сочетаемости слов русского языка 60
Словарь сочетаемости слов русского языка 61
3.3. ВЫВОДЫ 62
4. ПОИСК И РАНЖИРОВАНИЕ КОНТЕКСТОВ ДЛЯ АНГЛО-РУССКОГО МАШИННОГО
СЛОВАРЯ 63
4.1. МАТЕРИАЛ И ИНСТРУМЕНТЫ ИССЛЕДОВАНИЯ 64
4.2. ОПИСАНИЕ ПРОЦЕДУРЫ ПОИСКА КОНТЕКСТОВ 66
4.3. ПОДГОТОВКА ОБУЧАЮЩЕЙ И ТЕСТОВОЙ ВЫБОРКИ 68
4.4. АНАЛИЗ ОШИБОК В КОНТЕКСТАХ-КАНДИДАТАХ 71
4.5. ОБЩИЙ АЛГОРИТМ РАНЖИРОВАНИЯ ПАРАЛЛЕЛЬНЫХ КОНТЕКСТОВ 73
4.6. ФАКТОРЫ (ПРИЗНАКИ) РАНЖИРОВАНИЯ 74
Оценка по языковой модели (группа LM)74 Относительная частота контекста (RelF)76 Взаимная информация (MI)76 Векторные модели (WV)78 Семантическая близость (Sim)80
4.7. МЕТОДЫ КЛАССИФИКАЦИИ 80
Случайный лес (Random forest)80
Нейронная сеть прямого распространения 82
Оценка мультиклассификации 84
4.8. ОЦЕНКА КАЧЕСТВА КЛАССИФИКАЦИИ 84
4.9. РЕЗУЛЬТАТЫ КЛАССИФИКАЦИИ 85
4.10. СРАВНЕНИЕ РАНЖИРОВАНИЯ С ПРОСТЫМИ ЭВРИСТИЧЕСКИМИ МЕТОДАМИ 86
4.11. ЗНАЧИМОСТЬ ПРИЗНАКОВ КЛАССИФИКАЦИИ 87
4.12. ВЫВОДЫ 88
ЗАКЛЮЧЕНИЕ 90
ЛИТЕРАТУРА 92
ПРИЛОЖЕНИЕ А. СРАВНЕНИЕ И ОЦЕНКА РАНЖИРОВАНИЯ ИЛЛЮСТРИРУЮЩИХ
КОНТЕКСТОВ С ПОМОЩЬЮ РАЗНЫХ МЕТОДОВ 101
РАНЖИРОВАНИЕ КОНТЕКСТОВ НА ОСНОВЕ МЕРЫMI 101
РАНЖИРОВАНИЕ КОНТЕКСТОВ НА ОСНОВЕ ЧАСТОТЫ ПЕРЕВОДА 104
РАНЖИРОВАНИЕ RF1 108
РАНЖИРОВАНИЕ RF 2 111
РАНЖИРОВАНИЕ RF3 114
РАНЖИРОВАНИЕ
1. КОМПЬЮТЕРНАЯ ДВУЯЗЫЧНАЯ ЛЕКСИКОГРАФИЯ 7
1.1. ОСНОВНЫЕ ЗАДАЧИ И НАПРАВЛЕНИЯ РАБОТЫ В КОМПЬЮТЕРНОЙ ЛЕКСИКОГРАФИИ 7
1.2. ЗАДАЧИ И МЕТОДЫ ИХ РЕШЕНИЯ, ОБЩИЕ ДЛЯ КОРПУСНОЙ ЛИНГВИСТИКИ, МАШИННОГО ПЕРЕВОДА И КОМПЬЮТЕРНОЙ ЛЕКСИКОГРАФИИ 9
1.3. КОМПЬЮТЕРНАЯ ДВУЯЗЫЧНАЯ ЛЕКСИКОГРАФИЯ 10
1.4. ЭЛЕКТРОННЫЕ ДВУЯЗЫЧНЫЕ СЛОВАРИ 10
1.5. СЛОВАРИ СИСТЕМ МАШИННОГО ПЕРЕВОДА 15
1.6. АВТОМАТИЧЕСКИ СОСТАВЛЕННЫЕ (МАШИННЫЕ) ДВУЯЗЫЧНЫЕ СЛОВАРИ: МЕТОДОЛОГИЯ
СОСТАВЛЕНИЯ И ПРИМЕНЕНИЕ 18
1.7. ПАРАЛЛЕЛЬНЫЕ КОНКОРДАНСЫ 22
1.8. ВЫВОДЫ 26
2. ИЛЛЮСТРАТИВНЫЙ БЛОК ОДНО- И МНОГОЯЗЫЧНЫХ СЛОВАРЕЙ 28
2.1. ПРИНЦИПЫ ФОРМИРОВАНИЯ ИЛЛЮСТРАТИВНОГО БЛОКА В СЛОВАРЯХ 28
2.2. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ ИЛЛЮСТРАТИВНОГО БЛОКА В ДВУЯЗЫЧНЫХ СЛОВАРЯХ 35
Русско-английский словарь под общим руководством проф. А.И. Смирницкого 35
Англо-русский словарь В.К. Мюллера 36
Большой англо-русский словарь под общим руководством И.Р. Гальперина 36
The Oxford Russian dictionary : Russian-English, English-Russian 37
Большой англо-русский словарь Abbyy Lingvo 37
Новый большой англо-русский словарь под руководством Ю.Д. Апресяна 38
2.3. ВЫВОДЫ 39
3. УСТОЙЧИВЫЕ СОЧЕТАНИЯ РАЗЛИЧНЫХ ТИПОВ И ОПЫТ ИХ
ЛЕКСИКОГРАФИРОВАНИЯ 41
3.1. ОСНОВНЫЕ КОНЦЕПЦИИ УСТОЙЧИВЫХ СОЧЕТАНИЙ 41
3.2. ПРЕДСТАВЛЕНИЕ КОЛЛОКАЦИЙ В СЛОВАРЯХ СОЧЕТАНИЙ 50
Толково-комбинаторный словарь русского языка 51
A Dictionary of English Collocations 52
Oxford Collocations Dictionary 53
Устойчивые словосочетания русского языка 58
Русские глаголы и предикативы 59
Пособие по лексической сочетаемости слов русского языка 60
Словарь сочетаемости слов русского языка 61
3.3. ВЫВОДЫ 62
4. ПОИСК И РАНЖИРОВАНИЕ КОНТЕКСТОВ ДЛЯ АНГЛО-РУССКОГО МАШИННОГО
СЛОВАРЯ 63
4.1. МАТЕРИАЛ И ИНСТРУМЕНТЫ ИССЛЕДОВАНИЯ 64
4.2. ОПИСАНИЕ ПРОЦЕДУРЫ ПОИСКА КОНТЕКСТОВ 66
4.3. ПОДГОТОВКА ОБУЧАЮЩЕЙ И ТЕСТОВОЙ ВЫБОРКИ 68
4.4. АНАЛИЗ ОШИБОК В КОНТЕКСТАХ-КАНДИДАТАХ 71
4.5. ОБЩИЙ АЛГОРИТМ РАНЖИРОВАНИЯ ПАРАЛЛЕЛЬНЫХ КОНТЕКСТОВ 73
4.6. ФАКТОРЫ (ПРИЗНАКИ) РАНЖИРОВАНИЯ 74
Оценка по языковой модели (группа LM)74 Относительная частота контекста (RelF)76 Взаимная информация (MI)76 Векторные модели (WV)78 Семантическая близость (Sim)80
4.7. МЕТОДЫ КЛАССИФИКАЦИИ 80
Случайный лес (Random forest)80
Нейронная сеть прямого распространения 82
Оценка мультиклассификации 84
4.8. ОЦЕНКА КАЧЕСТВА КЛАССИФИКАЦИИ 84
4.9. РЕЗУЛЬТАТЫ КЛАССИФИКАЦИИ 85
4.10. СРАВНЕНИЕ РАНЖИРОВАНИЯ С ПРОСТЫМИ ЭВРИСТИЧЕСКИМИ МЕТОДАМИ 86
4.11. ЗНАЧИМОСТЬ ПРИЗНАКОВ КЛАССИФИКАЦИИ 87
4.12. ВЫВОДЫ 88
ЗАКЛЮЧЕНИЕ 90
ЛИТЕРАТУРА 92
ПРИЛОЖЕНИЕ А. СРАВНЕНИЕ И ОЦЕНКА РАНЖИРОВАНИЯ ИЛЛЮСТРИРУЮЩИХ
КОНТЕКСТОВ С ПОМОЩЬЮ РАЗНЫХ МЕТОДОВ 101
РАНЖИРОВАНИЕ КОНТЕКСТОВ НА ОСНОВЕ МЕРЫMI 101
РАНЖИРОВАНИЕ КОНТЕКСТОВ НА ОСНОВЕ ЧАСТОТЫ ПЕРЕВОДА 104
РАНЖИРОВАНИЕ RF1 108
РАНЖИРОВАНИЕ RF 2 111
РАНЖИРОВАНИЕ RF3 114
РАНЖИРОВАНИЕ
Работа посвящена поиску и ранжированию переводных контекстов для иллюстрации переводов в машинном словаре. Создание словарей автоматическими методами - сравнительно молодое направление компьютерной лексикографии, поэтому неудивительно, что исследования, посвящённые автоматическому составлению иллюстративного блока, очень редки. Можно предположить, что машинные словари в этом отношении следуют принципам классических «бумажных» словарей, но в действительности словарь, создаваемый «с нуля» или на основе бумажного издания и предназначенный для той или иной системы автоматического понимания текстов, - это реализация модели семантического, морфологического, синтаксического и других уровней естественного языка, основанной на идеях искусственного интеллекта [Караулов и др. 1982].
С другой стороны, та же проблема наблюдается и в лексикографии в целом и связана с разрывом между лингвистической теорией и лексикографической практикой. Лингвистическая описательная и аналитическая работа направлена на регистрацию широкого спектра явлений - нормы и отклонения от нормы, кода и узуса. Особенно это касается грамматики, то есть явлений морфологии и синтаксиса.
В лексикографической работе также проводится анализ наблюдаемых явлений языка и речи, но регистрации и систематизации подлежит не всё, а определённый класс явлений. В одних случаях описывается только норма, которая может быть в некоторых случаях результатом сознательного выбора специалистов, в других - параметры, характеризующие единицу языка с определённой точки зрения. Так, в словарях может описываться слово и его значение, восстанавливаемое на основе наблюдений за употреблением слова с текстах, слово и его происхождение, слово и его прагматические характеристики, например, сфера употребления.
Словари предназначаются обычно для широкой аудитории (носителей языка, изучающих язык) и при создании рассчитываются на долговременное использование. Лингвистические теории, в том числе касающиеся лексикографических проблем, разрабатываются специалистами для специалистов. Кроме того, они часто охватывают лишь конкретное языковое явление или класс случаев, тогда как словарь (в первую очередь, общего типа) должен охватить всё разнообразие одного или нескольких языков. Сложность разработки лексикографических принципов обусловлена и трудностью создания словаря вообще (некоторые толковые словари создаются десятилетиями, например, Словарь современного русского литературного языка издавался с 1948 по 1965 год, а работы по его созданию начались в 1937 году): словарь невозможно быстро переработать, чтобы принять во внимание новую трактовку какого-либо явления. Всё это приводит к тому, что составители словарей часто опираются либо на уже сложившуюся практику, либо на общепринятую теорию, а большинство теоретических разработок не используется вообще. Исключением является проект Толково-комбинаторного словаря, о котором подробнее будет сказано ниже.
Следует лишь отметить, что в данном случае речь идёт о лексикографическом произведении, полностью основанном на лингвистической теории (модели «Смысл ~ Текст»).
Лингвистические теории, касающиеся сочетаемости лексем, практически не употребляются в лексикографической практике. Говоря же об иллюстративных контекстах в двуязычном словаре, неизбежно приходится упоминать понятие сочетаемости. Поэтому в дальнейшем мы будем рассматривать и теоретические работы, возможно, отчасти отражённые в существующих словарях, и особенности лексикографической практики (то есть существующие словари).
Целью работы является разработка алгоритма ранжирования иллюстрирующих контекстов для англо-русского машинного переводного словаря. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи:
1) анализ принципов составления и особенностей существующих электронных словарей различных типов;
2) описание и анализ реализации иллюстративного блока в современной лексикографической практике;
3) описание подходов к сочетаемости и анализ их отражения в лексикографической практике;
4) выделение необходимых признаков для описания двуязычных контекстов, подходящих для иллюстрации статей в переводном словаре.
Предполагается также решение следующих практических задач:
1) разметка потенциальных иллюстраций для создания обучающей выборки и дополнения набора признаков ранжирования;
2) реализация алгоритма ранжирования параллельных контекстов;
3) оценка качества ранжирования и релевантности выделенных признаков.
Для ранжирования параллельных контекстов, описанных с помощью набора признаков, используются такие методы машинного обучения, как метод случайного леса и нейронная сеть прямого распространения.
Материалом для исследования реализации иллюстративного блока послужили существующие англо-русские словари и словари сочетаемости английского и русского языка. Параллельные контексты для машинного переводного словаря, которые используются при ранжировании, извлечены из параллельного англо-русского интернет-корпуса.
Актуальность работы обусловлена тем, что, как сказано выше, проблема иллюстративного блока практически не разработана в машинной лексикографии вообще, а особенно - в двуязычной. С другой стороны, компьютерная лексикография практически не учитывает опыт «безмашинной» лексикографии и многочисленные лингвистические исследования. Наша работа направлена на восполнение этого пробела.
Практические результаты работы используются в рамках сервиса «Яндекс. Переводчик» и обсуждались в статье [Protopopova и др. 2015], а также в докладе на конференции «Диалог’2015».
С другой стороны, та же проблема наблюдается и в лексикографии в целом и связана с разрывом между лингвистической теорией и лексикографической практикой. Лингвистическая описательная и аналитическая работа направлена на регистрацию широкого спектра явлений - нормы и отклонения от нормы, кода и узуса. Особенно это касается грамматики, то есть явлений морфологии и синтаксиса.
В лексикографической работе также проводится анализ наблюдаемых явлений языка и речи, но регистрации и систематизации подлежит не всё, а определённый класс явлений. В одних случаях описывается только норма, которая может быть в некоторых случаях результатом сознательного выбора специалистов, в других - параметры, характеризующие единицу языка с определённой точки зрения. Так, в словарях может описываться слово и его значение, восстанавливаемое на основе наблюдений за употреблением слова с текстах, слово и его происхождение, слово и его прагматические характеристики, например, сфера употребления.
Словари предназначаются обычно для широкой аудитории (носителей языка, изучающих язык) и при создании рассчитываются на долговременное использование. Лингвистические теории, в том числе касающиеся лексикографических проблем, разрабатываются специалистами для специалистов. Кроме того, они часто охватывают лишь конкретное языковое явление или класс случаев, тогда как словарь (в первую очередь, общего типа) должен охватить всё разнообразие одного или нескольких языков. Сложность разработки лексикографических принципов обусловлена и трудностью создания словаря вообще (некоторые толковые словари создаются десятилетиями, например, Словарь современного русского литературного языка издавался с 1948 по 1965 год, а работы по его созданию начались в 1937 году): словарь невозможно быстро переработать, чтобы принять во внимание новую трактовку какого-либо явления. Всё это приводит к тому, что составители словарей часто опираются либо на уже сложившуюся практику, либо на общепринятую теорию, а большинство теоретических разработок не используется вообще. Исключением является проект Толково-комбинаторного словаря, о котором подробнее будет сказано ниже.
Следует лишь отметить, что в данном случае речь идёт о лексикографическом произведении, полностью основанном на лингвистической теории (модели «Смысл ~ Текст»).
Лингвистические теории, касающиеся сочетаемости лексем, практически не употребляются в лексикографической практике. Говоря же об иллюстративных контекстах в двуязычном словаре, неизбежно приходится упоминать понятие сочетаемости. Поэтому в дальнейшем мы будем рассматривать и теоретические работы, возможно, отчасти отражённые в существующих словарях, и особенности лексикографической практики (то есть существующие словари).
Целью работы является разработка алгоритма ранжирования иллюстрирующих контекстов для англо-русского машинного переводного словаря. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи:
1) анализ принципов составления и особенностей существующих электронных словарей различных типов;
2) описание и анализ реализации иллюстративного блока в современной лексикографической практике;
3) описание подходов к сочетаемости и анализ их отражения в лексикографической практике;
4) выделение необходимых признаков для описания двуязычных контекстов, подходящих для иллюстрации статей в переводном словаре.
Предполагается также решение следующих практических задач:
1) разметка потенциальных иллюстраций для создания обучающей выборки и дополнения набора признаков ранжирования;
2) реализация алгоритма ранжирования параллельных контекстов;
3) оценка качества ранжирования и релевантности выделенных признаков.
Для ранжирования параллельных контекстов, описанных с помощью набора признаков, используются такие методы машинного обучения, как метод случайного леса и нейронная сеть прямого распространения.
Материалом для исследования реализации иллюстративного блока послужили существующие англо-русские словари и словари сочетаемости английского и русского языка. Параллельные контексты для машинного переводного словаря, которые используются при ранжировании, извлечены из параллельного англо-русского интернет-корпуса.
Актуальность работы обусловлена тем, что, как сказано выше, проблема иллюстративного блока практически не разработана в машинной лексикографии вообще, а особенно - в двуязычной. С другой стороны, компьютерная лексикография практически не учитывает опыт «безмашинной» лексикографии и многочисленные лингвистические исследования. Наша работа направлена на восполнение этого пробела.
Практические результаты работы используются в рамках сервиса «Яндекс. Переводчик» и обсуждались в статье [Protopopova и др. 2015], а также в докладе на конференции «Диалог’2015».
Одной из наиболее существенных частей словарной статьи в двуязычном словаре, в частности, вследствие его учебных задач, является иллюстративный блок, включающий примеры употребления заголовочного слова. При этом принципы его создания не разработаны ни в классической лексикографии, ни в машинной. Анализ существующих двуязычных словарей (англо-русского направления) позволяет выделить несколько критериев отбора материала для иллюстративного блока: словосочетания предпочитаются предложениям, словосочетания содержат дополнительную информацию о сочетаемости, стилистических особенностях опорного слова и так далее.
Поскольку сочетаемость становится одним из важнейших критериев для двуязычных иллюстраций, в работе так же рассматриваются различные концепции устойчивых сочетаний - от классических до новейших. Из приведённого обзора словарей сочетаемости и словарей коллокаций можно также сделать выводы о некоторых принципах, на которых базируется понятие устойчивости.
Аналитический обзор, изложенный в главах 1-3, позволяет нам выделить признаки для автоматического ранжирования параллельных контекстов относительно их релевантности для иллюстративного блока машинного словаря. Проведены эксперименты с различными наборами признаков, методами машинного обучения, сделана оценка полученных результатов. Наилучшая комбинация методов и признаков показывает точность 84% на английских контекстах и 71% при ранжировании пар контекстов. Полученные результаты используются при составлении машинного словаря сервиса «Яндекс.Переводчик».
Поскольку сочетаемость становится одним из важнейших критериев для двуязычных иллюстраций, в работе так же рассматриваются различные концепции устойчивых сочетаний - от классических до новейших. Из приведённого обзора словарей сочетаемости и словарей коллокаций можно также сделать выводы о некоторых принципах, на которых базируется понятие устойчивости.
Аналитический обзор, изложенный в главах 1-3, позволяет нам выделить признаки для автоматического ранжирования параллельных контекстов относительно их релевантности для иллюстративного блока машинного словаря. Проведены эксперименты с различными наборами признаков, методами машинного обучения, сделана оценка полученных результатов. Наилучшая комбинация методов и признаков показывает точность 84% на английских контекстах и 71% при ранжировании пар контекстов. Полученные результаты используются при составлении машинного словаря сервиса «Яндекс.Переводчик».
Подобные работы
- ПАРАЛЛЕЛЬНЫЙ КОНКОРДАНС: ПОИСКИ РАНЖИРОВАНИЕ ПЕРЕВОДНЫХ КОНТЕКСТОВ ДЛЯ ИЛЛЮСТРАЦИИ ПЕРЕВОДОВ В МАШИННОМ СЛОВАРЕ
Магистерская диссертация, филология. Язык работы: Русский. Цена: 4925 р. Год сдачи: 2016 - ЛЕММАТИЧЕСКИЙ КОРПУС БОЛЬШОГО РУССКО-НЕМЕЦКОГО ФРАЗЕО-ПАРЕМИОЛОГИЧЕСКОГО СЛОВАРЯ НА БУКВУ «Я»
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 4315 р. Год сдачи: 2019



