Тип работы:
Предмет:
Язык работы:


ПАРАЛЛЕЛЬНЫЙ КОНКОРДАНС: ПОИСКИ РАНЖИРОВАНИЕ ПЕРЕВОДНЫХ КОНТЕКСТОВ ДЛЯ ИЛЛЮСТРАЦИИ ПЕРЕВОДОВ В МАШИННОМ СЛОВАРЕ

Работа №132340

Тип работы

Магистерская диссертация

Предмет

филология

Объем работы120
Год сдачи2016
Стоимость4925 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
65
Не подходит работа?

Узнай цену на написание


Введение 4
1. Компьютерная двуязычная лексикография 7
1.1. Основные задачи и направления работы в компьютерной лексикографии 7
1.2. Задачи и методы их решения, общие для корпусной лингвистики, машинного перевода и компьютерной лексикографии 9
1.3. Компьютерная двуязычная лексикография 10
1.4. Электронные двуязычные словари 10
1.5. Словари систем машинного перевода 15
1.6. Автоматически составленные (машинные) двуязычные словари: методология составления и применение 18
1.7. Параллельные конкордансы 22
1.8. Выводы 26
2. Иллюстративный блок одно- и многоязычных словарей 28
2.1. Принципы формирования иллюстративного блока в словарях 28
2.2. Практическая реализация иллюстративного блока в двуязычных словарях 35
Русско-английский словарь под общим руководством проф. А.И. Смирницкого 35
Англо-русский словарь В.К. Мюллера 36
Большой англо-русский словарь под общим руководством И.Р. Гальперина 36
The Oxford Russian dictionary : Russian-English, English-Russian 37
Большой англо-русский словарь AbbyyLingvo 37
Новый большой англо-русский словарь под руководством Ю.Д. Апресяна 38
2.3. Выводы 39
3. Устойчивые сочетания различных типов и опыт их лексикографирования 41
3.1. Основные концепции устойчивых сочетаний 41
3.2. Представление коллокаций в словарях сочетаний 50
Толково-комбинаторный словарь русского языка 51
ADictionaryofEnglishCollocations 52
Oxford Collocations Dictionary 53
CollinsCobuildEnglishCollocations 54
The BBI Combinatory Dictionary Of English 55
Англо-русский фразеологический словарь 56
Англо-русский словарь глагольных словосочетаний 57
Macmillan Collocations Dictionary 58
Устойчивые словосочетания русского языка 58
Русские глаголы и предикативы 59
Пособие по лексической сочетаемости слов русского языка 60
Словарь сочетаемости слов русского языка 61
3.3. Выводы 62
4. Поиск и ранжирование контекстов для англо-русского машинного словаря 63
4.1. Материал и инструменты исследования 64
4.2. Описание процедуры поиска контекстов 66
4.3. Подготовка обучающей и тестовой выборки 68
4.4. Анализ ошибок в контекстах-кандидатах 71
4.5. Общий алгоритм ранжирования параллельных контекстов 73
4.6. Факторы (признаки) ранжирования 74
Оценка по языковой модели (группа LM) 74
Относительная частота контекста (RelF) 76
Взаимная информация (MI) 76
Векторные модели (WV) 78
Семантическая близость (Sim) 80
4.7. Методы классификации 80
Случайный лес (Randomforest) 80
Нейронная сеть прямого распространения 82
Оценка мультиклассификации 84
4.8. Оценка качества классификации 84
4.9. Результаты классификации 85
4.10. Сравнение ранжирования с простыми эвристическими методами 86
4.11. Значимость признаков классификации 87
4.12. Выводы 88
Заключение 90
Лексикографические источники 91
Литература 92
Приложение А. Сравнение и оценка ранжирования иллюстрирующих контекстов с помощью разных методов 101
Ранжирование контекстов на основе меры MI 101
Ранжирование контекстов на основе частоты перевода 104
Ранжирование RF1 108
Ранжирование RF2 111
Ранжирование RF3 114
Ранжирование RF4


Работа посвящена поиску и ранжированию переводных контекстов для иллюстрации переводов в машинном словаре. Создание словарей автоматическими методами – сравнительно молодое направление компьютерной лексикографии, поэтому неудивительно, что исследования, посвящённые автоматическому составлению иллюстративного блока, очень редки. Можно предположить, что машинные словари в этом отношении следуют принципам классических «бумажных» словарей, но в действительности словарь, создаваемый «с нуля» или на основе бумажного издания и предназначенный для той или иной системы автоматического понимания текстов, – это реализация модели семантического, морфологического, синтаксического и других уровней естественного языка, основанной на идеях искусственного интеллекта [Караулов и др. 1982].
С другой стороны, та же проблема наблюдается и в лексикографии в целом и связана с разрывом между лингвистической теорией и лексикографической практикой. Лингвистическая описательная и аналитическая работа направлена на регистрацию широкого спектра явлений – нормы и отклонения от нормы, кода и узуса. Особенно это касается грамматики, то есть явлений морфологии и синтаксиса.
В лексикографической работе также проводится анализ наблюдаемых явлений языка и речи, но регистрации и систематизации подлежит не всё, а определённый класс явлений. В одних случаях описывается только норма, которая может быть в некоторых случаях результатом сознательного выбора специалистов, в других – параметры, характеризующие единицу языка с определённой точки зрения. Так, в словарях может описываться слово и его значение, восстанавливаемое на основе наблюдений за употреблением слова с текстах, слово и его происхождение, слово и его прагматические характеристики, например, сфера употребления.
Словари предназначаются обычно для широкой аудитории (носителей языка, изучающих язык) и при создании рассчитываются на долговременное использование. Лингвистические теории, в том числе касающиеся лексикографических проблем, разрабатываются специалистами для специалистов. Кроме того, они часто охватывают лишь конкретное языковое явление или класс случаев, тогда как словарь (в первую очередь, общего типа) должен охватить всё разнообразие одного или нескольких языков. Сложность разработки лексикографических принципов обусловлена и трудностью создания словаря вообще (некоторые толковые словари создаются десятилетиями, например, Словарь современного русского литературного языка издавался с 1948 по 1965 год, а работы по его созданию начались в 1937 году): словарь невозможно быстро переработать, чтобы принять во внимание новую трактовку какого-либо явления. Всё это приводит к тому, что составители словарей часто опираются либо на уже сложившуюся практику, либо на общепринятую теорию, а большинство теоретических разработок не используется вообще. Исключением является проект Толково-комбинаторного словаря, о котором подробнее будет сказано ниже. Следует лишь отметить, что в данном случае речь идёт о лексикографическом произведении, полностью основанном на лингвистической теории (модели «Смысл ↔ Текст»).
Лингвистические теории, касающиеся сочетаемости лексем, практически не употребляются в лексикографической практике. Говоря же об иллюстративных контекстах в двуязычном словаре, неизбежно приходится упоминать понятие сочетаемости. Поэтому в дальнейшем мы будем рассматривать и теоретические работы, возможно, отчасти отражённые в существующих словарях, и особенности лексикографической практики (то есть существующие словари).
Целью работы является разработка алгоритма ранжирования иллюстрирующих контекстов для англо-русского машинного переводного словаря. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи:
анализ принципов составления и особенностей существующих электронных словарей различных типов;
описание и анализ реализации иллюстративного блока в современной лексикографической практике;
описание подходов к сочетаемости и анализ их отражения в лексикографической практике;
выделение необходимых признаков для описания двуязычных контекстов, подходящих для иллюстрации статей в переводном словаре.
Предполагается также решение следующих практических задач:
разметка потенциальных иллюстраций для создания обучающей выборки и дополнения набора признаков ранжирования;
реализация алгоритма ранжирования параллельных контекстов;
оценка качества ранжирования и релевантности выделенных признаков.
Для ранжирования параллельных контекстов, описанных с помощью набора признаков, используются такие методы машинного обучения, как метод случайного леса и нейронная сеть прямого распространения.
Материалом для исследования реализации иллюстративного блока послужили существующие англо-русские словари и словари сочетаемости английского и русского языка. Параллельные контексты для машинного переводного словаря, которые используются при ранжировании, извлечены из параллельного англо-русского интернет-корпуса.
Актуальность работы обусловлена тем, что, как сказано выше, проблема иллюстративного блока практически не разработана в машинной лексикографии вообще, а особенно – в двуязычной. С другой стороны, компьютерная лексикография практически не учитывает опыт «безмашинной» лексикографии и многочисленные лингвистические исследования. Наша работа направлена на восполнение этого пробела.
Практические результаты работы используются в рамках сервиса «Яндекс. Переводчик» и обсуждались в статье [Protopopova и др. 2015], а также в докладе на конференции «Диалог’2015».


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Одной из наиболее существенных частей словарной статьи в двуязычном словаре, в частности, вследствие его учебных задач, является иллюстративный блок, включающий примеры употребления заголовочного слова. При этом принципы его создания не разработаны ни в классической лексикографии, ни в машинной. Анализ существующих двуязычных словарей (англо-русского направления) позволяет выделить несколько критериев отбора материала для иллюстративного блока: словосочетания предпочитаются предложениям, словосочетания содержат дополнительную информацию о сочетаемости, стилистических особенностях опорного слова и так далее.
Поскольку сочетаемость становится одним из важнейших критериев для двуязычных иллюстраций, в работе так же рассматриваются различные концепции устойчивых сочетаний – от классических до новейших. Из приведённого обзора словарей сочетаемости и словарей коллокаций можно также сделать выводы о некоторых принципах, на которых базируется понятие устойчивости.
Аналитический обзор, изложенный в главах 1-3, позволяет нам выделить признаки для автоматического ранжирования параллельных контекстов относительно их релевантности для иллюстративного блока машинного словаря. Проведены эксперименты с различными наборами признаков, методами машинного обучения, сделана оценка полученных результатов. Наилучшая комбинация методов и признаков показывает точность 84% на английских контекстах и 71% при ранжировании пар контекстов. Полученные результаты используются при составлении машинного словаря сервиса «Яндекс. Переводчик».



1. Амосова Н.Н. Большой англо-русский словарь / Сост. Амосова, Н.Н., Апресян, Ю.Д., Гальперин И.Р.; под общ. руководством Гальперина И.Р. - 2-е изд., стер. – М. : Русский язык, 1977.
2. Англо-русский русско-английский словарь = English-russian Russian-English dictionary : 35573 слова, значения и словосочетания / [ред. и рук. проекта: В.Ю. Бурнашева]. – М.: ABBYY Press, 2011. – 603 с.
3. Анисимова, Т.И. Пособие по лексической сочетаемости слов русского языка: Словарь-справочник / Сост. Т.И. Анисимова, З.Э. Иванова, Р.В. Ульянко; Под ред. Т.П. Плещенко и Л.Ф. Саковец. - Минск : Вышэйш. школа, 1975. – 303 с.
4. Апресян, Ю.Д. Новый большой англо-русский словарь = NewEnglish-RussianDictionary : Ок. 250000 лексич. единиц : В 3 т / Сост. Ю.Д. Ап-ресян, Э.М. Медникова, А.В. Петрова и др.Под общ. руководством акад. Ю.Д. Апресяна и д.филол.н., проф. Э.М. Медниковой. - 5-е изд., стер. – М. : Рус. яз., 2000.
5. Ахманова, О.С. Русско-английский словарь : Около 50000 слов / Сост. О.С. Ахманова, Т.П. Горбунова, Н.Ф. Ротштейн [и др.]; Под общ. рук. проф. А.И. Смирницкого. – М. : Гос. изд-во иностр. и нац. словарей, 1948 (16-я тип. треста "Полиграфкнига"). – 988 с.
6. Бенсон, М. Комбинаторный словарь английского языка. / Бенсон, М., Бенсон, Э., Илсон, Р. – М.: Русский язык, 1990 – 286 с.
7. Большой англо-русский словарь = NewEnglish-Russiandictionary : [В 2 т. : Ок. 160000 слов] / Под общ. руководством И.Р. Гальперина, Э.М. Медниковой. - 4-е изд., испр., с доп. – М. : Рус. яз., 1987.
8. Борисова, Е.Г. Слово в тексте. Словарь коллокаций (устойчивых слово-сочетаний) русского языка с англо-русским словарём ключевых слов. – М.: 1995. (Борисова 1995б).
9. Братусь, Б.В. Russianword-collocations = Словосочетания русского языка : Учеб. словарь для говорящих на англ. яз / Б.В. Братусь, И.Б. Братусь, Е.А. Данциг и др. – М. : Рус. яз., 1979. – 367 с.
10. Гинзбург Р.С. Англо-русский словарь глагольных словосочетаний = English-Russiandictionaryofverbalcollocations / Р.С. Гинзбург и др.; Под общ. руководством Э.М. Медниковой. - 2-е изд., испр. – М. : Рус. яз., 1990. – 667 с.
11. Козырева, М.Н., Англо-русский словарь = English-Russiandictionary : Около 14000 слов и 63000 словосочетаний / М.Н. Козырева, И.В. Федо-рова. – М. : Рус. яз., 1998. – 1118 с.
12. Красных, В.И., Русские глаголы и предикативы : Слов. сочетаемости. – М. : Арсис лингва, 1993. – 226 с.
13. Кунин, А.В. Англо-русский фразеологический словарь – М. Русский язык, 1984. – 944 с.
14. Мельчук, И.А., Толково-комбинаторный словарь современного русско-го языка : Опыты семантико-синтаксического описания русской лекси-ки. – Вена, 1984. – 992 с
15. Мюллер, В.К. Англо-русский словарь, 1928.
16. Ожегов, С. И. Словарь русского языка. Изд. 21-6. – М., 1989.
17. Регинина, К.В. Устойчивые словосочетания русского языка / К.В. Ре-гинина, Г.П. Тюрина, Л.И. Широкова; Под ред. Л.И. Широковой. – 3-е изд. – М : Рус. яз., 1983. – 300 с.

18. Kjellmer, G. A dictionary of English collocations : based on the Brown cor-pus : in three volumes. – Oxford; New York: Clarendon Press: Oxford Uni-versity Press, 1994.
19. Longman dictionary of contemporary English. / Сост. Procter, P. – Harlow ; London : Longman, 1978. - XXXIX, 1303 с.
20. McIntosh, C. Oxford Collocations Dictionary. – Oxford University Press, 2009. – 963 с.
21. Rundell, M. Macmillan Collocations Dictionary. – Macmillan, 2010.
22. Sinclair, J. Collins COBUILD English collocations on CD-ROM / Sinclair, J., Fox, G., Seymour, D., Clear, J. – London: HarperCollins Publishers, 1995.
23. The BBI combinatory dictionary of English : A guide to word combinations / Сост. Benson, M., Benson, E., Ilson R.– Amsterdam ; Philadelphia : Ben-jamins, 1986. – XXXVI, 286 с.
24. Wheeler, M., Unbegaun, B. The Oxford Russian dictionary : Russian-English, English-Russian. – Oxford ; New York : Oxford univ. press, 1997. – XVII, 1340 c.
Литература
25. Азарова, И.В. Принципы построения wordnet-тезауруса RussNet / Аза-рова, И.В., Синопальникова А.А., Яворская М.В. // Компьютерная лин-гвистика и интеллектуальные технологии. – М., 2004.
26. Амосова, Н. Н. Основы английской фразеологии. – Л., 1963.
27. Апресян, Ю.Д. Лексическая семантика (синонимические средства язы-ка). – М.: Наука, 1974.
28. Баранов, А.Н. Введение в прикладную лингвистику. Учебное пособие. – М.: Эдиториал УРСС, 2001. – 360 с.
29. Берков, В. П. Двуязычная лексикография. – АСТ, 2006
30. Берков, В.П. Вопросы двуязычной лексикографии. – Л., 1973.
31. Борисова, Е.Г. К типологии составляющих пакета Устойчивые сочета-ния // Фразеография в Машинном фонде русского языка. М., 1990. – с. 88-103.
32. Борисова, Е.Г. Коллокации. Что это такое и как их изучать. – М.: 1995. (Борисова 1995a).
33. Букия, Г.Т. Корпусная оценка степени близости единиц в лексических конструкциях / Букия, Г.Т., Протопопова, Е.В., Митрофанова, О.А. // Структурная и прикладная лингвистика. Межвузовский сборник. №11. Под. ред. А.С. Герда. – СПб, 2015.
34. Буторова, У.В. Структурная типология словарных статей в словарях русского языка и способы их формального представления / Буторова У.В., Герд А.С., Захаров В.П., Панков Д.И., Пурицкая Е.В., Хохлова М.В. // НТИ. Сер. 2. ИНФОРМ. ПРОЦЕССЫ И СИСТЕМЫ 2016. № 2. – М., 2016.
35. Бюллетень машинного фонда русского языка /отв. редактор В.М. Анд-рющенко / – М., 1996, Вып.3
36. Виноградов, В.В. Об основных типах фразеологических единиц в рус-ском языке // Виноградов В. В. Избранные труды. Лексикология и лек-сикография. – М., 1977. - С. 140-161.
37. Гак, В.Г. К проблеме семантической синтагматики // Проблемы струк-турной лингвистики. – М.: Наука, 1972. – С. 367-395.
38. Захаров, В.П. Электронный обменный формат проекта TEI (TextEnco-dingInitiative) для словарей. Учебное пособие. – СПб.: СПбГУ. РИО. Филологический факультет, 2013. – 80 с.
39. Захаров, В.П., Богданова, С.Ю. Корпусная лингвистика: Учебник для студентов направления Лингвистика. 2-е изд., перераб. и дополн., – СПб.: СПбГУ. РИО. Филологический факультет, 2013. – 148 с.
40. Захаров, В.П., Хохлова, М.В. Анализ эфффективности статистических методов выявления коллокаций в текстах на русском языке // Компью-терная лингвистика и интеллектуальные технологии: Труды междуна-родной конференции Диалог’2010. – М., 2010
41. Караулов, Ю.Н. Анализ метаязыка словаря с помощью ЭВМ / Караулов Ю.Н., Молчанов В.И., Афанасьев В.А., Михалев Н.В. – М., 1982.
42. Кобозева, И.М. Лингвистическая семантика: Учебник для вузов. – М.: УРСС, 2000. 350 с.
43. Кощеева, С.С. Сравнение методов автоматического выделения гла-гольно-именных словосочетаний // Технологии информационного об-щества в науке, образовании и культуре: сборник научных статей. Тру-ды XVII Всероссийской объединённой конференции «Интернет и со-временное общество» (IMS-2014), Санкт-Петербург, 19-20 ноября 2014 г. – СПб: Университет ИТМО, 2014. – С. 298-303.
44. Крижановский, А.А. Оценка использования корпусов и электронных библиотек в Русском Викисловаре // Труды Международной научной конференции Корпусная лингвистика-2011. – СПбГУ, Филологический факультет Санкт-Петербург, 2011. С. 217-222.
45. Крижановский, А.А. Построение машинно-читаемого словаря на основе русского викисловаря. Тр. СПИИРАН, 2009, в. 11. С. 228-233
46. Крылов, С.А., Митрофанова, О.А. «Типовой контекст»: случайность или закономерность? // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конференции Диалог’2006 (Бекасово, 31 мая – 4 июня 2006 г.). – М.: Издательство РГГУ, 2006. – C. 382-388.
47. Крылов, С.А., Старостин, С.А. Металингвистическая разметка тексто-вых баз данных в системе STARLING и современные задачи корпусной лингвистики // Прикладная лингвистика в поиске новых путей. Между-народная конференция Megaling’2005. 27 июня - 2 июля 2005. – Сим-ферополь, Таврический национальный университет им. В.И. Вернад-ского, 2005. С. 33.
48. Марчук Ю.Н. Вычислительная лексикография. – М.: ВЦП, 1976, 175 с.
49. Мельчук, И.А. Опыт теории лингвистических моделей "Смысл-Текст" : Семантика, синтаксис / И.А. Мельчук. – [Переизд.]. – М : Шк. "Языки рус. культуры", 1999. – 345 с.
50. Мельчук, И.А., Иорданская, Л.Н. Смысл и сочетаемость в словаре. – М., 2007.
51. Панченко, А. RUSSE: семинар по оценке семантической близости для русского языка. / Панченко, А., Лукашевич Н.В., Усталов Д., Паперно Д., Мейер К.М., Константинова Н. // Компьютерная лингвистика и ин-теллектуальные технологии: По материалам ежегодной Международной конференции Диалог (Москва, 27 - 30 мая 2015 г.). Вып. 14 (21). – М.: Изд-во РГГУ, 2015. – C. 89
52. Телия, В. Н.Русская фразеология: Семантический, прагматический и лингвокультурологический аспекты. – М., 1996.
53. Телия, В.Н., Типы языковых значений : Связан. значение слова в яз. – М : Наука, 1981. – 269 с.
54. Шанский, Н.М. Фразеология современного русского языка / Н. М. Шанский. – 3-е изд., испр. и доп. – М., 1985. – 160 с.
55. Янус, Э. Пять польских словарных статей // Научно-техническая ин-формация, Серия 2, N 11. С. 21-24.

56. Altenberg, B. On the phraseology of spoken English: the evidence of recur-rent word-combinations. // A. P. Cowie (ред.), Phraseology: theory, analysis and applications (pp. 101-122). – Oxford: Oxford University Press, 1998.
57. Amsler, R.A. Computational lexicology: a research program // Proceedings of the June 7-10, 1982, national computer conference, 657-63. – ACM, 1982.
58. Antonova, A., Misyurev, A. Automatic Creation of Human-Oriented Trans-lation Dictionaries // Computational Linguistics and Intellectual Technolo-gies: Proceedings of the International Conference “Dialog 2014” [Komp’yuternaya Lingvistika I Intellektual’nye Tekhnologii: Trudy Mezh-dunarodnoy Konferentsii “Dialog 2014”]. – М., 2014.
59. Antonova, A., Misyurev, A. Russian dependency parser SyntAutom at the DIALOGUE-2012 parser evaluation task // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Di-alog 2012” [Komp’yuternaya Lingvistika i Intellektual’nye Tekhnologii: Trudy Mezhdunarodnoy Konferentsii “Dialog 2012”]. – М., 2012.
60. Antonova, A. The influence of different data sources on finding and ranking synonyms for a large-scale vocabulary / Antonova, A., Kobernik, T., Misyurev, A. //Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialog 2016” [Komp’yuternaya Lingvistika i Intellektual’nye Tekhnologii: Trudy Mezh-dunarodnoy Konferentsii “Dialog 2016”]. – М., 2016. [в печати]
61. Atkins, S. Theoretical Lexicography and its relation to Dictionary-making”. // Dictionaries: the Journal of the Dictionary Society of North Americaю – DSNA, Cleveland Ohio, 1993. С. 4-43.
62. Atkins, S., Rundell M. The Oxford Guide to Practical Lexicography. – Ox-ford University Press, 2008.
63. Bai M. DOMCAT: a bilingual concordancer for domain-specific computer assisted translation / Bai, M., Hsieh Y., Chen K., Chang J.S. // Proceedings of the ACL 2012 System Demonstrations, 55–60. – Association for Compu-tational Linguistics, 2012.
64. Bally Ch. Traité de stylistique française. – Paris, 1951.
65. Bansal M. Unsupervised translation sense clustering / Bansal, M., DeNero J., Lin D. // Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 773–82. – Association for Computational Linguistics, 2012.
66. Barlow, M. Parallel Concordancing and Translation // Translating and the Computer, 2004.
67. Baroni M. Frege in space: A program of compositional distributional seman-tics. / Baroni, M., Bernardi, R., Zamparelli, R. // Linguistic Issues in Lan-guage Technology 9, 2014.
68. Bouamor Dh. Building Specialized Bilingual Lexicons Using Word Sense Disambiguation / Bouamor, D., N. Semmar, P. Zweigenbaum. // – IJCNLP, 2013. С. 952–956.
69. Breiman L. Random Forests. // Machine Learning 45 (1): 5–32. 2001.
70. Brown P.F. The mathematics of statistical machine translation: Parameter estimation / Brown P.F., Della Pietra V., Della Pietra S., Mercer R. // Com-putational linguistics 19/ 2 (1993). – C. 263–311.
71. Butina-Koller E. Kollokationen im zweisprachigen Wörterbuch. Zur Behan-dlung lexikalischer Kollokationen in allgemeinsprachlichen Wörterbüchern des Sprachenpaares Französisch/Russisch. Lexicographica. Series Maior 124. – De Gruyter, 2005
72. Chatterjee D. Co-occurrence graph based iterative bilingual lexicon extrac-tion from comparable corpora / Chatterjee D., Sarkar S., Mishra A. // Pro-ceedings of the 4th Workshop on Cross Lingual Information Access, COL-ING 2010 workshop, 2010. С. 25-42.
73. Chen S.F., Goodman J. An Empirical Study of Smoothing Techniques for Language Modeling // Technical Report TR-10-98, Computer Science Group, Harvard University, 1998.
74. Church, K. W., Hanks P. Word association norms, mutual information, and lexicography. // Computational linguistics.V.16, No. 1 (1990). С. 22–29.
75. Collocations, corpus, dictionnaires / P. Blumenthal, F.J. Hausmann. - Paris : Larousse, 2006. – 128 с.
76. Cowie A.P. The Oxford History of English Lexicography. – Oxford: Cla-rendon Press, 2009.
77. Dunning, T. Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19(1). – MIT Press, 1999. С. 61–74
78. Evert, S. The Statistics of Word Cooccurences Word Pairs and Collocations. PhD thesis. – Institut für Maschinelle Sprachverarbeitung (IMS), Universität Stuttgart: 2004.
79. Firth, J. R. The Technique of Semantics. – Transactions of the Philological Society, 1935.С. 36-72.
80. Firth, J.R. Modes of Meanings. Reprinted in Papers in Linguistics 1934-1951. – London: Oxford University Press, 1957. С. 190-215.
81. Fišer, D., Ljubešic, N. Bilingual lexicon extraction from comparable corpora for closely related languages // Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP’11), 2011. С. 125–31.
82. Fung, P. A statistical view on bilingual lexicon extraction // Parallel Text Processing. – Springer, 2000. C. 219-236.
83. Grundfragen der elektronischen Lexikographie : elexico - das Online-Informationssystem zum deutschen Wortschatz / Сост. Ulrike Haβ. – Berlin ; New York : de Gruyter, cop. 2005. – 334 c. – (Schriften des Instituts für deutsche Sprache ; Bd. 12).
84. Halliday, M.A.K. Lexis as a linguistic level // In Memory of J.R. Firth. – London: Longman, 1966. C. 150-61.
85. Hanks, P. Definitions and Explanations // Looking Up – An account of the Cobuild project in lexical computing. – London: William Collins Sons & Co. Ltd., 1987.
86. Hanks, P. How people use words to make meanings: Semantic types meet valencies // Input, Process and Product: Developments in Teaching and Lan-guage Corpora, 2012. C. 54–69.
87. Hausmann, F.J. Un dictionnaire des collocations est-il possible? // Travaux de linguistique et de litterature 17/1. 1979. C. 187-195.
88. Hazem, A., Morin, E. Adaptive Dictionary for Bilingual Lexicon Extraction from Comparable Corpora // LREC, 2012. С. 288–92.
89. Herbst, Th. A Valency Dictionary of English: A Corpus-based Analysis of the Complementation Patterns of English Verbs, Nouns, and Adjectives‬ // Topics in English linguistics (V. 40)‬‬‬‬, 2004.‬‬‬‬‬‬‬‬
90. Herbst, Th. What are collocations: Sandy Beaches or False Teeth? // English Studies V.4, 1996. C. 379-93.
91. Herbst, Th. Why Construction Grammar Catches the Worm and Corpus Data can Drive you Crazy: Accounting for Idiomatic and Non-Idiomatic Idi-omaticity // Journal of Social Sciences 11, V. 3, 2015. C. 91–110.
92. Hjelm, H. Using a Third Language to Improve Extraction of Bilingual Term Correspondences. Term Paper, 2006.
93. Hornby, A.S. Idiomatic and syntactic English dictionary. – Tokyo, Institute for Research in Language Teaching, 1942.
94. Huck, M. Lexicon models for hierarchical phrase-based machine translation / Huck, M., Mansour S., Wiesler S., Ney H. // IWSLT, 2011. С. 191–98.
95. Ismail, A., Manandhar S. Bilingual lexicon extraction from comparable cor-pora using in-domain terms // Proceedings of the 23rd International Confe-rence on Computational Linguistics: Posters. –Association for Computational Linguistics, 2010. С. 481–89.
96. Jian, J. TANGO: Bilingual collocational concordancer / Jian, J., Chang Y., Chang J.S. // Proceedings of the ACL 2004 on Interactive poster and dem-onstration sessions, 19. – Association for Computational Linguistics, 2004.
97. Kilgariff, A. GDEX: Automatically finding good dictionary examples in a corpus / Kilgariff A., Rychlý, P, Husák M., Rundell, M., Mcadam K. // Pro-ceedings of the XIII EURALEX International Congress. 1. – Barcelona: Institut Universitari de Lingüística Aplicada, 2008. С. 425-432.
98. Kilgarriff A. Collocationality (and how to measure it) // Proceedings of the Euralex International Congress. – Torino, 2006.
99. Kilgarriff, A. Using corpora as data source for dictionaries. The Bloomsbury Companion to Lexicography. – London: Bloomsbury, 2013. С. 77–96.
100. Kitamura, M., Matsumoto Y. Automatic extraction of word sequence correspondences in parallel corpora // Proceedings of the 4th Workshop on Very Large Corpora, 1996. С. 79–87.
101. Kjaersgaard, P. S. RefTex – a context-based translation aid // Third conference of the European Chapter of the Association for Computational Linguistics: Proceedings of the conference. – Copenhagen, 1987.
102. Koehn, P. Statistical Machine Translation. – Cambrige University Press, 2010.
103. Kučera H. , Francis, W. N. Manual of Information to accompany A Standard Corpus of Present-Day Edited American English, for use with Dig-ital Computers. – Providence, Rhode Island: Department of Linguistics, Brown University, 1964.
104. Langlois, L. Bilingual concordancers: a new tool for bilingual lexico-graphers // Expanding MT horizons: Proceedings of the Second Conference of the Association for Machine Translation in the Americas. – Montreal, Quebec, Canada, 1996.
105. Laws, F. A Linguistically Grounded Graph Model for Bilingual Lex-icon Extraction. / Laws F., Heid U., Michelbacher L., Christian Scheible, Beate Dorow, и Hinrich Sch¨utze. // Coling Poster Session. – COLING, 2010.
106. Li, L. Cyberdictionaries // English Today. V. 14/2. – Cambrige University Press, 1998.
107. Liu, Z. Two-word collocation extraction using monolingual word alignment method / Liu Z., Wang H., Wu H., Li Sh. // ACM Transactions on Intelligent Systems and Technology (TIST) 3/1. – ACM, 2011. C. 16.
108. Luo J., Lepage Y. Extraction of Potentially Useful Phrase Pairs for Statistical Machine Translation // Journal of Information Processing. V. 23, N. 3, 2015.
109. Melamed, I. D. Automatic construction of clean broad-coverage trans-lation lexicons. 1996.
110. Mickievicz, A. Computational Lexicography of Multi-Word Units: How Efficient Can It Be? / Mickiewicz, A., Savary, A., Czerepowicka, M. , Makowiecki F. // 23rd International Conference on Computational Linguis-tics, 2. – ACL, 2010.
111. Mikolov, T. Efficient Estimation of Word Representations in Vector Space / Mikolov T., Chen K., Corrado G., Dean J. // Proceedings of Workshop at ICLR, 2013. (Mikolov 2013a)
112. Mikolov, T. Linguistic Regularities in Continuous Space Word Re-presentations / Mikolov T., Yih W., Zweig G. // Proceedings of NAACL HLT, 2013. (Mikolov 2013b).
113. Mittman, B. Pragmatik und Wörterbücher: Präfabrizierte Einheiten der gesprochenen Sprache. // Th. Herbst, G. Lorenz, B. Mittmann, M. Schnell (ред.): Lexikografie, ihre Basis- und Nachbarwissenschaften. (Englische) Wörterbücher zwischen 'common sense' und angewandter Theorie (= Lexicographica. Series Maior 118). – Tübingen: Niemeyer, 2004. C. 137-148.
114. Morin, E., Prochasson E. Bilingual lexicon extraction from compara-ble corpora enhanced with parallel corpora // Proceedings of the 4th work-shop on building and using comparable corpora: comparable corpora and the web. – Association for Computational Linguistics, 2011. С. 27–34.
115. Och F.J., Ney H. Improved Statistical Alignment Models // Proceed-ings of the 38th Annual Meeting on Association for Computational Linguis-tics. – ACL, 2000. C. 440-447.
116. Och, F. J., Ney, H. A Systematic Comparison of Various Statistical Alignment Models // Computational linguistics 29 (1), 2003. C. 19-51.
117. P5: Guidelines for Electronic Text Encoding and Interchange. Chapter 9. Dictionaries. URL: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/DI.html (дата обращения 18.05.2016)
118. Palmer, H. E. Second Interim Report on English Collocations. – Tokyo: Institute for Research in English Teaching, 1933.
119. Panicheva, P. Evaluating Distributional Semantic Models with Russian Noun-Adjective Compositions / Panicheva P., Bukiya G., Protopopova E., Mitrofanova O. // Analysis of Images, Social Networks and Texts: 5th International Conference, AIST 2016. – Yekaterinburg, Russia, 2016, Re-vised Selected Papers. [в печати]
120. Polguere A., Kahane S. Formal foundation of lexical functions. ВProceedings of ACL/EACL 2001 Workshop on Collocation, 8–15, 2001.
121. Polguère, A. Towards a theoretically-motivated general public dictio-nary of semantic derivations and collocations for French // Proceedings of the Ninth EURALEX International Congress, EURALEX 2000. – Stuttgart, Germany, August 8th-12th, 2000. C. 517–27.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ