ВВЕДЕНИЕ 4
1. КОМПЬЮТЕРНАЯ ДВУЯЗЫЧНАЯ ЛЕКСИКОГРАФИЯ 7
1.1. ОСНОВНЫЕ ЗАДАЧИ И НАПРАВЛЕНИЯ РАБОТЫ В КОМПЬЮТЕРНОЙ ЛЕКСИКОГРАФИИ 7
1.2. ЗАДАЧИ И МЕТОДЫ ИХ РЕШЕНИЯ, ОБЩИЕ ДЛЯ КОРПУСНОЙ ЛИНГВИСТИКИ, МАШИННОГО ПЕРЕВОДА И КОМПЬЮТЕРНОЙ ЛЕКСИКОГРАФИИ 9
1.3. КОМПЬЮТЕРНАЯ ДВУЯЗЫЧНАЯ ЛЕКСИКОГРАФИЯ 10
1.4. ЭЛЕКТРОННЫЕ ДВУЯЗЫЧНЫЕ СЛОВАРИ 10
1.5. СЛОВАРИ СИСТЕМ МАШИННОГО ПЕРЕВОДА 15
1.6. АВТОМАТИЧЕСКИ СОСТАВЛЕННЫЕ (МАШИННЫЕ) ДВУЯЗЫЧНЫЕ СЛОВАРИ: МЕТОДОЛОГИЯ
СОСТАВЛЕНИЯ И ПРИМЕНЕНИЕ 18
1.7. ПАРАЛЛЕЛЬНЫЕ КОНКОРДАНСЫ 22
1.8. ВЫВОДЫ 26
2. ИЛЛЮСТРАТИВНЫЙ БЛОК ОДНО- И МНОГОЯЗЫЧНЫХ СЛОВАРЕЙ 28
2.1. ПРИНЦИПЫ ФОРМИРОВАНИЯ ИЛЛЮСТРАТИВНОГО БЛОКА В СЛОВАРЯХ 28
2.2. ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ ИЛЛЮСТРАТИВНОГО БЛОКА В ДВУЯЗЫЧНЫХ СЛОВАРЯХ 35
Русско-английский словарь под общим руководством проф. А.И. Смирницкого 35
Англо-русский словарь В.К. Мюллера 36
Большой англо-русский словарь под общим руководством И.Р. Гальперина 36
The Oxford Russian dictionary : Russian-English, English-Russian 37
Большой англо-русский словарь Abbyy Lingvo 37
Новый большой англо-русский словарь под руководством Ю.Д. Апресяна 38
2.3. ВЫВОДЫ 39
3. УСТОЙЧИВЫЕ СОЧЕТАНИЯ РАЗЛИЧНЫХ ТИПОВ И ОПЫТ ИХ
ЛЕКСИКОГРАФИРОВАНИЯ 41
3.1. ОСНОВНЫЕ КОНЦЕПЦИИ УСТОЙЧИВЫХ СОЧЕТАНИЙ 41
3.2. ПРЕДСТАВЛЕНИЕ КОЛЛОКАЦИЙ В СЛОВАРЯХ СОЧЕТАНИЙ 50
Толково-комбинаторный словарь русского языка 51
A Dictionary of English Collocations 52
Oxford Collocations Dictionary 53
Устойчивые словосочетания русского языка 58
Русские глаголы и предикативы 59
Пособие по лексической сочетаемости слов русского языка 60
Словарь сочетаемости слов русского языка 61
3.3. ВЫВОДЫ 62
4. ПОИСК И РАНЖИРОВАНИЕ КОНТЕКСТОВ ДЛЯ АНГЛО-РУССКОГО МАШИННОГО
СЛОВАРЯ 63
4.1. МАТЕРИАЛ И ИНСТРУМЕНТЫ ИССЛЕДОВАНИЯ 64
4.2. ОПИСАНИЕ ПРОЦЕДУРЫ ПОИСКА КОНТЕКСТОВ 66
4.3. ПОДГОТОВКА ОБУЧАЮЩЕЙ И ТЕСТОВОЙ ВЫБОРКИ 68
4.4. АНАЛИЗ ОШИБОК В КОНТЕКСТАХ-КАНДИДАТАХ 71
4.5. ОБЩИЙ АЛГОРИТМ РАНЖИРОВАНИЯ ПАРАЛЛЕЛЬНЫХ КОНТЕКСТОВ 73
4.6. ФАКТОРЫ (ПРИЗНАКИ) РАНЖИРОВАНИЯ 74
Оценка по языковой модели (группа LM)74 Относительная частота контекста (RelF)76 Взаимная информация (MI)76 Векторные модели (WV)78 Семантическая близость (Sim)80
4.7. МЕТОДЫ КЛАССИФИКАЦИИ 80
Случайный лес (Random forest)80
Нейронная сеть прямого распространения 82
Оценка мультиклассификации 84
4.8. ОЦЕНКА КАЧЕСТВА КЛАССИФИКАЦИИ 84
4.9. РЕЗУЛЬТАТЫ КЛАССИФИКАЦИИ 85
4.10. СРАВНЕНИЕ РАНЖИРОВАНИЯ С ПРОСТЫМИ ЭВРИСТИЧЕСКИМИ МЕТОДАМИ 86
4.11. ЗНАЧИМОСТЬ ПРИЗНАКОВ КЛАССИФИКАЦИИ 87
4.12. ВЫВОДЫ 88
ЗАКЛЮЧЕНИЕ 90
ЛИТЕРАТУРА 92
ПРИЛОЖЕНИЕ А. СРАВНЕНИЕ И ОЦЕНКА РАНЖИРОВАНИЯ ИЛЛЮСТРИРУЮЩИХ
КОНТЕКСТОВ С ПОМОЩЬЮ РАЗНЫХ МЕТОДОВ 101
РАНЖИРОВАНИЕ КОНТЕКСТОВ НА ОСНОВЕ МЕРЫMI 101
РАНЖИРОВАНИЕ КОНТЕКСТОВ НА ОСНОВЕ ЧАСТОТЫ ПЕРЕВОДА 104
РАНЖИРОВАНИЕ RF1 108
РАНЖИРОВАНИЕ RF 2 111
РАНЖИРОВАНИЕ RF3 114
РАНЖИРОВАНИЕ
Работа посвящена поиску и ранжированию переводных контекстов для иллюстрации переводов в машинном словаре. Создание словарей автоматическими методами - сравнительно молодое направление компьютерной лексикографии, поэтому неудивительно, что исследования, посвящённые автоматическому составлению иллюстративного блока, очень редки. Можно предположить, что машинные словари в этом отношении следуют принципам классических «бумажных» словарей, но в действительности словарь, создаваемый «с нуля» или на основе бумажного издания и предназначенный для той или иной системы автоматического понимания текстов, - это реализация модели семантического, морфологического, синтаксического и других уровней естественного языка, основанной на идеях искусственного интеллекта [Караулов и др. 1982].
С другой стороны, та же проблема наблюдается и в лексикографии в целом и связана с разрывом между лингвистической теорией и лексикографической практикой. Лингвистическая описательная и аналитическая работа направлена на регистрацию широкого спектра явлений - нормы и отклонения от нормы, кода и узуса. Особенно это касается грамматики, то есть явлений морфологии и синтаксиса.
В лексикографической работе также проводится анализ наблюдаемых явлений языка и речи, но регистрации и систематизации подлежит не всё, а определённый класс явлений. В одних случаях описывается только норма, которая может быть в некоторых случаях результатом сознательного выбора специалистов, в других - параметры, характеризующие единицу языка с определённой точки зрения. Так, в словарях может описываться слово и его значение, восстанавливаемое на основе наблюдений за употреблением слова с текстах, слово и его происхождение, слово и его прагматические характеристики, например, сфера употребления.
Словари предназначаются обычно для широкой аудитории (носителей языка, изучающих язык) и при создании рассчитываются на долговременное использование. Лингвистические теории, в том числе касающиеся лексикографических проблем, разрабатываются специалистами для специалистов. Кроме того, они часто охватывают лишь конкретное языковое явление или класс случаев, тогда как словарь (в первую очередь, общего типа) должен охватить всё разнообразие одного или нескольких языков. Сложность разработки лексикографических принципов обусловлена и трудностью создания словаря вообще (некоторые толковые словари создаются десятилетиями, например, Словарь современного русского литературного языка издавался с 1948 по 1965 год, а работы по его созданию начались в 1937 году): словарь невозможно быстро переработать, чтобы принять во внимание новую трактовку какого-либо явления. Всё это приводит к тому, что составители словарей часто опираются либо на уже сложившуюся практику, либо на общепринятую теорию, а большинство теоретических разработок не используется вообще. Исключением является проект Толково-комбинаторного словаря, о котором подробнее будет сказано ниже.
Следует лишь отметить, что в данном случае речь идёт о лексикографическом произведении, полностью основанном на лингвистической теории (модели «Смысл ~ Текст»).
Лингвистические теории, касающиеся сочетаемости лексем, практически не употребляются в лексикографической практике. Говоря же об иллюстративных контекстах в двуязычном словаре, неизбежно приходится упоминать понятие сочетаемости. Поэтому в дальнейшем мы будем рассматривать и теоретические работы, возможно, отчасти отражённые в существующих словарях, и особенности лексикографической практики (то есть существующие словари).
Целью работы является разработка алгоритма ранжирования иллюстрирующих контекстов для англо-русского машинного переводного словаря. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи:
1) анализ принципов составления и особенностей существующих электронных словарей различных типов;
2) описание и анализ реализации иллюстративного блока в современной лексикографической практике;
3) описание подходов к сочетаемости и анализ их отражения в лексикографической практике;
4) выделение необходимых признаков для описания двуязычных контекстов, подходящих для иллюстрации статей в переводном словаре.
Предполагается также решение следующих практических задач:
1) разметка потенциальных иллюстраций для создания обучающей выборки и дополнения набора признаков ранжирования;
2) реализация алгоритма ранжирования параллельных контекстов;
3) оценка качества ранжирования и релевантности выделенных признаков.
Для ранжирования параллельных контекстов, описанных с помощью набора признаков, используются такие методы машинного обучения, как метод случайного леса и нейронная сеть прямого распространения.
Материалом для исследования реализации иллюстративного блока послужили существующие англо-русские словари и словари сочетаемости английского и русского языка. Параллельные контексты для машинного переводного словаря, которые используются при ранжировании, извлечены из параллельного англо-русского интернет-корпуса.
Актуальность работы обусловлена тем, что, как сказано выше, проблема иллюстративного блока практически не разработана в машинной лексикографии вообще, а особенно - в двуязычной. С другой стороны, компьютерная лексикография практически не учитывает опыт «безмашинной» лексикографии и многочисленные лингвистические исследования. Наша работа направлена на восполнение этого пробела.
Практические результаты работы используются в рамках сервиса «Яндекс. Переводчик» и обсуждались в статье [Protopopova и др. 2015], а также в докладе на конференции «Диалог’2015».
Одной из наиболее существенных частей словарной статьи в двуязычном словаре, в частности, вследствие его учебных задач, является иллюстративный блок, включающий примеры употребления заголовочного слова. При этом принципы его создания не разработаны ни в классической лексикографии, ни в машинной. Анализ существующих двуязычных словарей (англо-русского направления) позволяет выделить несколько критериев отбора материала для иллюстративного блока: словосочетания предпочитаются предложениям, словосочетания содержат дополнительную информацию о сочетаемости, стилистических особенностях опорного слова и так далее.
Поскольку сочетаемость становится одним из важнейших критериев для двуязычных иллюстраций, в работе так же рассматриваются различные концепции устойчивых сочетаний - от классических до новейших. Из приведённого обзора словарей сочетаемости и словарей коллокаций можно также сделать выводы о некоторых принципах, на которых базируется понятие устойчивости.
Аналитический обзор, изложенный в главах 1-3, позволяет нам выделить признаки для автоматического ранжирования параллельных контекстов относительно их релевантности для иллюстративного блока машинного словаря. Проведены эксперименты с различными наборами признаков, методами машинного обучения, сделана оценка полученных результатов. Наилучшая комбинация методов и признаков показывает точность 84% на английских контекстах и 71% при ранжировании пар контекстов. Полученные результаты используются при составлении машинного словаря сервиса «Яндекс.Переводчик».
1. Амосова Н.Н. Большой англо-русский словарь / Сост. Амосова, Н.Н., Апресян, Ю.Д., Гальперин И.Р.; под общ. руководством Гальперина И.Р. - 2-е изд., стер. - М. : Русский язык, 1977.
2. Англо-русский русско-английский словарь = English-russian Russian- English dictionary : 35573 слова, значения и словосочетания / [ред. и рук. проекта: В.Ю. Бурнашева]. - М. : ABBYY Press, 2011. - 603 с.
3. Анисимова, Т.И. Пособие по лексической сочетаемости слов русского языка: Словарь-справочник / Сост. Т.И. Анисимова, З.Э. Иванова, Р.В. Ульянко; Под ред. Т.П. Плещенко и Л.Ф. Саковец. - Минск : Вышэйш. школа, 1975. - 303 с.
4. Апресян, Ю.Д. Новый большой англо-русский словарь = New English- Russian Dictionary : Ок. 250000 лексич. единиц : В 3 т / Сост. Ю.Д. Апресян, Э.М. Медникова, А.В. Петрова и др.Под общ. руководством акад. Ю.Д. Апресяна и д.филол.н., проф. Э.М. Медниковой. - 5-е изд., стер. - М. : Рус. яз., 2000.
5. Ахманова, О.С. Русско-английский словарь : Около 50000 слов / Сост. О.С. Ахманова, Т.П. Горбунова, Н.Ф. Ротштейн [и др.]; Под общ. рук. проф. А.И. Смирницкого. - М. : Гос. изд-во иностр. и нац. словарей, 1948 (16-я тип. треста "Полиграфкнига"). - 988 с.
6. Бенсон, М. Комбинаторный словарь английского языка. / Бенсон, М., Бенсон, Э., Илсон, Р - М.: Русский язык, 1990 - 286 с.
7. Большой англо-русский словарь = New English-Russian dictionary : [В 2 т. : Ок. 160000 слов] / Под общ. руководством И.Р. Гальперина, Э.М. Медниковой. - 4-е изд., испр., с доп. - М. : Рус. яз., 1987.
8. Борисова, Е.Г. Слово в тексте. Словарь коллокаций (устойчивых словосочетаний) русского языка с англо-русским словарём ключевых слов. - М.: 1995. (Борисова 1995б).
9. Братусь, Б.В. Russian word-collocations = Словосочетания русского языка : Учеб. словарь для говорящих на англ. яз / Б.В. Братусь, И.Б. Братусь, Е.А. Данциг и др. - М. : Рус. яз., 1979. - 367 с.
10. Гинзбург Р.С. Англо-русский словарь глагольных словосочетаний = English-Russian dictionary of verbal collocations / Р.С. Гинзбург и др.; Под общ. руководством Э.М. Медниковой. - 2-е изд., испр. - М. : Рус. яз., 1990. - 667 с.
11. Козырева, М.Н., Англо-русский словарь = English-Russian dictionary : Около 14000 слов и 63000 словосочетаний / М.Н. Козырева, И.В. Федорова. - М. : Рус. яз., 1998. - 1118 с.
12. Красных, В.И., Русские глаголы и предикативы : Слов. сочетаемости. - М. : Арсис лингва, 1993. - 226 с.
13. Кунин, А.В. Англо-русский фразеологический словарь - М. Русский язык, 1984. - 944 с.
14. Мельчук, И.А., Толково-комбинаторный словарь современного русского языка : Опыты семантико-синтаксического описания русской лексики. - Вена, 1984. - 992 с
15. Мюллер, В.К. Англо-русский словарь, 1928.
16.Ожегов, С. И. Словарь русского языка. Изд. 21-6. - М., 1989.
17. Регинина, К.В. Устойчивые словосочетания русского языка / К.В. Регинина, Г.П. Тюрина, Л.И. Широкова; Под ред. Л.И. Широковой. - 3¬е изд. - М : Рус. яз., 1983. - 300 с.
18. Kjellmer, G. A dictionary of English collocations : based on the Brown cor-pus : in three volumes. - Oxford; New York: Clarendon Press: Oxford Uni-versity Press, 1994.
19. Longman dictionary of contemporary English. / Сост. Procter, P - Harlow ; London : Longman, 1978. - XXXIX, 1303 с.
20. McIntosh, C. Oxford Collocations Dictionary. - Oxford University Press, 2009. - 963 с.
21. Rundell, M. Macmillan Collocations Dictionary. - Macmillan, 2010.
22.Sinclair, J. Collins COBUILD English collocations on CD-ROM / Sinclair,
J., Fox, G., Seymour, D., Clear, J. - London: HarperCollins Publishers, 1995.
23. The BBI combinatory dictionary of English : A guide to word combinations / Сост. Benson, M., Benson, E., Ilson R. - Amsterdam ; Philadelphia : Ben-jamins, 1986. - XXXVI, 286 с.
24. Wheeler, M., Unbegaun, B. The Oxford Russian dictionary : Russian-Eng-lish, English-Russian. - Oxford ; New York : Oxford univ. press, 1997. - XVII, 1340 c.
Литература
25. Азарова, И.В. Принципы построения wordnet-тезауруса RussNet / Азарова, И.В., Синопальникова А.А., Яворская М.В. // Компьютерная лингвистика и интеллектуальные технологии. - М., 2004.
26. Амосова, Н. Н.Основы английской фразеологии. - Л., 1963.
27. Апресян, Ю.Д. Лексическая семантика (синонимические средства языка). - М.: Наука, 1974.
28. Баранов, А.Н. Введение в прикладную лингвистику. Учебное пособие. - М.: Эдиториал УРСС, 2001. - 360 с.
29. Берков, В. П. Двуязычная лексикография. - АСТ, 2006
30. Берков, В.П. Вопросы двуязычной лексикографии. - Л., 1973.
31. Борисова, Е.Г. К типологии составляющих пакета Устойчивые сочетания // Фразеография в Машинном фонде русского языка. М., 1990. - с. 88-103.
32. Борисова, Е.Г. Коллокации. Что это такое и как их изучать. - М.: 1995. (Борисова 1995a).
33. Букия, Г.Т. Корпусная оценка степени близости единиц в лексических конструкциях / Букия, Г.Т., Протопопова, Е.В., Митрофанова, О.А. // Структурная и прикладная лингвистика. Межвузовский сборник. №11. Под. ред. А.С. Герда. - СПб, 2015.
34. Буторова, УВ. Структурная типология словарных статей в словарях русского языка и способы их формального представления / Буторова УВ., Герд А.С., Захаров В.П., Панков Д.И., Пурицкая Е.В., Хохлова М.В. // НТИ. Сер. 2. ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ 2016. № 2. - М., 2016.
35. Бюллетень машинного фонда русского языка /отв. редактор В.М. Андрющенко / - М., 1996, Вып.З
36. Виноградов, В.В. Об основных типах фразеологических единиц в русском языке // Виноградов В. В. Избранные труды. Лексикология и лексикография. - М., 1977. - С. 140-161.
37. Гак, В.Г. К проблеме семантической синтагматики // Проблемы структурной лингвистики. - М.: Наука, 1972. - С. 367-395.
38.Захаров, В.П. Электронный обменный формат проекта TEI (Text Encod-ing Initiative) для словарей. Учебное пособие. - СПб.: СПбГУ РИО. Филологический факультет, 2013. - 80 с.
39.Захаров, В.П., Богданова, С.Ю. Корпусная лингвистика: Учебник для студентов направления Лингвистика. 2-е изд., перераб. и дополн., - СПб.: СПбГУ. РИО. Филологический факультет, 2013. - 148 с.
40.Захаров, В.П., Хохлова, М.В. Анализ эфффективности статистических методов выявления коллокаций в текстах на русском языке // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции Диалог’2010. - М., 2010
41. Караулов, Ю.Н. Анализ метаязыка словаря с помощью ЭВМ / Караулов Ю.Н., Молчанов В.И., Афанасьев В.А., Михалев Н.В. - М., 1982.
42. Кобозева, И.М. Лингвистическая семантика: Учебник для вузов. - М.: УРСС, 2000. 350 с.
43. Кощеева, С.С. Сравнение методов автоматического выделения глагольно-именных словосочетаний // Технологии информационного общества в науке, образовании и культуре: сборник научных статей. Труды XVII Всероссийской объединённой конференции «Интернет и современное общество» (IMS-2014), Санкт-Петербург, 19-20 ноября 2014 г. - СПб: Университет ИТМО, 2014. - С. 298-303.
44. Крижановский, А.А. Оценка использования корпусов и электронных библиотек в Русском Викисловаре // Труды Международной научной конференции Корпусная лингвистика-2011. - СПбГУ, Филологический факультет Санкт-Петербург, 2011. С. 217-222.
45. Крижановский, А.А. Построение машинно-читаемого словаря на основе русского викисловаря. Тр. СПИИРАН, 2009, в. 11. С. 228-233
46. Крылов, С.А., Митрофанова, О.А. «Типовой контекст»: случайность или закономерность? // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции Диалог’2006 (Бекасово, 31 мая - 4 июня 2006 г.). - М.: Издательство РГГУ, 2006. - C. 382-388.
47. Крылов, С.А., Старостин, С.А. Металингвистическая разметка текстовых баз данных в системе STARLING и современные задачи корпусной лингвистики // Прикладная лингвистика в поиске новых путей. Международная конференция Megaling’2005. 27 июня - 2 июля 2005. - Симферополь, Таврический национальный университет им. В.И. Вернадского, 2005. С. 33.
48. Марчук Ю.Н. Вычислительная лексикография. - М.: ВЦП, 1976, 175 с.
49. Мельчук, И.А. Опыт теории лингвистических моделей "Смысл-Текст" : Семантика, синтаксис / И.А. Мельчук. - [Переизд.]. - М : Шк. "Языки рус. культуры", 1999. - 345 с.
50. Мельчук, И.А., Иорданская, Л.Н. Смысл и сочетаемость в словаре. - М., 2007.
51. Панченко, А. RUSSE: семинар по оценке семантической близости для русского языка. / Панченко, А., Лукашевич Н.В., Усталов Д., Паперно Д., Мейер К.М., Константинова Н. // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Москва, 27 - 30 мая 2015 г.). Вып. 14 (21). - М.: Изд-во РГГУ, 2015. - C. 89
52. Телия, В. Н. Русская фразеология: Семантический, прагматический и лингвокультурологический аспекты. - М., 1996.
53. Телия, В.Н., Типы языковых значений : Связан. значение слова в яз. - М : Наука, 1981. - 269 с.
54. Шанский, Н.М.Фразеология современного русского языка / Н. М. Шанский. - 3-е изд., испр. и доп. - М., 1985. - 160 с.
55. Янус, Э. Пять польских словарных статей // Научно-техническая информация, Серия 2, N 11. С. 21-24.
56. Altenberg, B. On the phraseology of spoken English: the evidence of recur-rent word-combinations. // A. P. Cowie (ред.), Phraseology: theory, analysis and applications (pp. 101-122). - Oxford: Oxford University Press, 1998.
57. Amsler, R.A. Computational lexicology: a research program //Proceedings of the June 7-10, 1982, national computer conference, 657-63. - ACM, 1982.
58. Antonova, A., Misyurev, A. Automatic Creation of Human-Oriented Transla¬tion Dictionaries // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2014” [Komp’yuter- naya Lingvistika I Intellektual’nye Tekhnologii: Trudy Mezhdunarodnoy Konferentsii “Dialog 2014”]. - М., 2014.
59. Antonova, A., Misyurev, A. Russian dependency parser SyntAutom at the DIALOGUE-2012 parser evaluation task // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dia-log 2012” [Komp’yuternaya Lingvistika i Intellektual’nye Tekhnologii:
Trudy Mezhdunarodnoy Konferentsii “Dialog 2012”]. - М., 2012.
60. Antonova, A. The influence of different data sources on finding and ranking synonyms for a large-scale vocabulary / Antonova, A., Kobernik, T., Misyurev, A. // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2016” [Komp’yuter- naya Lingvistika i Intellektual’nye Tekhnologii: Trudy Mezhdunarodnoy Konferentsii “Dialog 2016”]. - М., 2016. [в печати]
61. Atkins, S. Theoretical Lexicography and its relation to Dictionary¬making”. // Dictionaries: the Journal of the Dictionary Society of North Americao - DSNA, Cleveland Ohio, 1993. С. 4-43.
62. Atkins, S., Rundell M. The Oxford Guide to Practical Lexicography. - Ox-ford University Press, 2008.
63. Bai M. DOMCAT: a bilingual concordancer for domain-specific computer assisted translation / Bai, M., Hsieh Y., Chen K., Chang J.S. // Proceedings of the ACL 2012 System Demonstrations, 55-60. - Association for Compu-tational Linguistics, 2012.
64. Bally Ch. Traite de stylistique fran^aise. - Paris, 1951.
65. Bansal M. Unsupervised translation sense clustering / Bansal, M., DeNero
J., Lin D. // Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 773-82. - Association for Computational Linguistics, 2012.
66. Barlow, M. Parallel Concordancing and Translation // Translating and the Computer, 2004.
67. Baroni M. Frege in space: A program of compositional distributional seman-tics. / Baroni, M., Bernardi, R., Zamparelli, R. // Linguistic Issues in Lan-guage Technology 9, 2014.
68. Bouamor Dh. Building Specialized Bilingual Lexicons Using Word Sense Disambiguation / Bouamor, D., N. Semmar, P Zweigenbaum. // - IJCNLP, 2013. С. 952-956.
69. Breiman L. Random Forests. // Machine Learning 45 (1): 5-32. 2001.
70. Brown P.F. The mathematics of statistical machine translation: Parameter es-timation / Brown P.F., Della Pietra V., Della Pietra S., Mercer R. // Computa-tional linguistics 19/ 2 (1993). - C. 263-311.
71. Butina-Koller E. Kollokationen im zweisprachigen Worterbuch. Zur Be- handlung lexikalischer Kollokationen in allgemeinsprachlichen Worterbuch- ern des Sprachenpaares Franzosisch/Russisch. Lexicographica. Series Maior 124. - De Gruyter, 2005
72. Chatterjee D. Co-occurrence graph based iterative bilingual lexicon extrac¬tion from comparable corpora / Chatterjee D., Sarkar S., Mishra A. // Pro¬ceedings of the 4th Workshop on Cross Lingual Information Access, COL¬ING 2010 workshop, 2010. С. 25-42.
73. Chen S.F., Goodman J. An Empirical Study of Smoothing Techniques for Language Modeling // Technical Report TR-10-98, Computer Science Group, Harvard University, 1998.
74. Church, K. W., Hanks P Word association norms, mutual information, and lexicography. // Computational linguistics. V.16, No. 1 (1990). С. 22-29.
75. Collocations, corpus, dictionnaires / P Blumenthal, F.J. Hausmann. - Paris : Larousse, 2006. - 128 с.
76. Cowie A.P. The Oxford History of English Lexicography. - Oxford: Claren-don Press, 2009.
77. Dunning, T. Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19(1). - MIT Press, 1999. С. 61-74
78. Evert, S. The Statistics of Word Cooccurences Word Pairs and Collocations. PhD thesis. - Institut fur Maschinelle Sprachverarbeitung (IMS), Universitat Stuttgart: 2004.
79. Firth, J. R. The Technique of Semantics. - Transactions of the Philological Society, 1935. С. 36-72.
80. Firth, J.R. Modes of Meanings. Reprinted in Papers in Linguistics 1934¬1951. - London: Oxford University Press, 1957. С. 190-215.
81. Fiser, D., Ljubesic, N. Bilingual lexicon extraction from comparable corpora for closely related languages // Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP’11), 2011. С. 125-31.
82. Fung, P A statistical view on bilingual lexicon extraction // Parallel Text Processing. - Springer, 2000. C. 219-236.
83. Grundfragen der elektronischen Lexikographie : elexico - das Online-Infor- mationssystem zum deutschen Wortschatz / Сост. Ulrike Ha0. - Berlin ; New York : de Gruyter, cop. 2005. - 334 c. - (Schriften des Instituts fur deutsche Sprache ; Bd. 12).
84. Halliday, M.A.K. Lexis as a linguistic level // In Memory of J.R. Firth. - London: Longman, 1966. C. 150-61.
85. Hanks, P Definitions and Explanations // Looking Up - An account of the Cobuild project in lexical computing. - London: William Collins Sons & Co. Ltd., 1987.
86. Hanks, P How people use words to make meanings: Semantic types meet valencies // Input, Process and Product: Developments in Teaching and Lan-guage Corpora, 2012. C. 54-69.
87. Hausmann, F.J. Un dictionnaire des collocations est-il possible? // Travaux de linguistique et de litterature 17/1. 1979. C. 187-195.
88. Hazem, A., Morin, E. Adaptive Dictionary for Bilingual Lexicon Extraction from Comparable Corpora // LREC, 2012. С. 288-92.
89. Herbst, Th. A Valency Dictionary of English: A Corpus-based Analysis of the Complementation Patterns of English Verbs, Nouns, and Adjectives // Topics in English linguistics (V 40)12004.
90. Herbst, Th. What are collocations: Sandy Beaches or False Teeth? // English Studies V.4, 1996. C. 379-93.
91. Herbst, Th. Why Construction Grammar Catches the Worm and Corpus Data can Drive you Crazy: Accounting for Idiomatic and Non-Idiomatic Id-iomaticity // Journal of Social Sciences 11, V. 3, 2015. C. 91-110.
92. Hjelm, H. Using a Third Language to Improve Extraction of Bilingual Term Correspondences. Term Paper, 2006.
93. Hornby, A.S. Idiomatic and syntactic English dictionary. - Tokyo, Institute for Research in Language Teaching, 1942.
94. Huck, M. Lexicon models for hierarchical phrase-based machine translation / Huck, M., Mansour S., Wiesler S., Ney H. // IWSLT, 2011. С. 191-98.
95.Ismail, A., Manandhar S. Bilingual lexicon extraction from comparable cor-pora using in-domain terms // Proceedings of the 23rd International Confer-ence on Computational Linguistics: Posters. -Association for Computational Linguistics, 2010. С. 481-89.
96. Jian, J. TANGO: Bilingual collocational concordancer / Jian, J., Chang Y., Chang J.S. // Proceedings of the ACL 2004 on Interactive poster and demon-stration sessions, 19. - Association for Computational Linguistics, 2004.
97. Kilgariff, A. GDEX: Automatically finding good dictionary examples in a corpus / Kilgariff A., Rychly, P, Husak M., Rundell, M., Mcadam K. // Pro-ceedings of the XIII EURALEX International Congress. 1. - Barcelona: Institut Universitari de Linguistica Aplicada, 2008. С. 425-432.
98. Kilgarriff A. Collocationality (and how to measure it) // Proceedings of the Euralex International Congress. - Torino, 2006.
99. Kilgarriff, A. Using corpora as data source for dictionaries. The Bloomsbury Companion to Lexicography. - London: Bloomsbury, 2013. С. 77-96.
100. Kitamura, M., Matsumoto Y. Automatic extraction of word sequence correspondences in parallel corpora // Proceedings of the 4th Workshop on Very Large Corpora, 1996. С. 79-87.
101. Kjaersgaard, P S. RefTex - a context-based translation aid // Third conference of the European Chapter of the Association for Computational Linguistics: Proceedings of the conference. - Copenhagen, 1987.
102. Koehn, P Statistical Machine Translation. - Cambrige University Press, 2010.
103. Kucera H. , Francis, W. N. Manual of Information to accompany A Standard Corpus of Present-Day Edited American English, for use with Dig-ital Computers. - Providence, Rhode Island: Department of Linguistics, Brown University, 1964.
104. Langlois, L. Bilingual concordancers: a new tool for bilingual lexicog-raphers // Expanding MT horizons: Proceedings of the Second Conference of the Association for Machine Translation in the Americas. - Montreal, Quebec, Canada, 1996.
105. Laws, F. A Linguistically Grounded Graph Model for Bilingual Lexi-con Extraction. / Laws F., Heid U., Michelbacher L., Christian Scheible, Beate Dorow, и Hinrich Sch’utze. // Coling Poster Session. - COLING, 2010.
106. Li, L. Cyberdictionaries // English Today. V. 14/2. - Cambrige University Press, 1998.
107. Liu, Z. Two-word collocation extraction using monolingual word alignment method / Liu Z., Wang H., Wu H., Li Sh. // ACM Transactions on Intelligent Systems and Technology (TIST) 3/1. - ACM, 2011. C. 16.
108. Luo J., Lepage Y. Extraction of Potentially Useful Phrase Pairs for Statistical Machine Translation // Journal of Information Processing. V. 23, N. 3, 2015.
109. Melamed, I. D. Automatic construction of clean broad-coverage trans-lation lexicons. 1996.
110. Mickievicz, A. Computational Lexicography of Multi-Word Units: How Efficient Can It Be? / Mickiewicz, A., Savary, A., Czerepowicka, M. , Makowiecki F. // 23rd International Conference on Computational Linguis-tics, 2. - ACL, 2010.
111. Mikolov, T. Efficient Estimation of Word Representations in Vector Space / Mikolov T., Chen K., Corrado G., Dean J. // Proceedings of Workshop at ICLR, 2013. (Mikolov 2013a)
112. Mikolov, T. Linguistic Regularities in Continuous Space Word Repre-sentations / Mikolov T., Yih W., Zweig G. // Proceedings of NAACL HLT, 2013. (Mikolov 2013b).
113. Mittman, B. Pragmatik und Worterbucher: Prafabrizierte Einheiten der gesprochenen Sprache. // Th. Herbst, G. Lorenz, B. Mittmann, M. Schnell (ред.): Lexikografie, ihre Basis- und Nachbarwissenschaften. (Englische) Worterbucher zwischen 'common sense' und angewandter Theorie (= Lexi- cographica. Series Maior 118). - Tubingen: Niemeyer, 2004. C. 137-148.