АННОТАЦИЯ 2
Введение 5
Глава 1. Выделение терминов и терминологических словосочетаний в параллельных корпусах текстов 8
1.1. Понятие термина и кандидата в термины 8
1.2. Термин в переводном многоязычном словаре 9
1.3. Методы выделения терминов-кандидатов в корпусах текстов 11
1.3.1. Методы выделения однословных терминов-кандидатов в корпусах текстов 11
1.3.2. Методы выделения терминологических словосочетаний в корпусах текстов 12
1.3.2.1. Статистический метод 12
1.3.2.2. Лингвистический метод 13
1.3.2.3. Смешанный метод 14
1.4. Алгоритмы выделения терминов-кандидатов на базе многоязычных параллельных корпусах текстов 16
1.5. Многоязычные терминологические базы данных 18
1.6. Выводы 21
Глава 2. Методика извлечения терминов-кандидатов для многоязычного терминологического словаря 23
2.1. Методы исследования 23
2.2. Морфосинтаксические шаблоны 23
2.2.1. Анализ морфосинтаксических шаблонов на основе переводных словарей 24
2.2.2. Анализ переводных соответствий между морфосинтаксическими шаблонами 30
2.2.3. Итоговый набор морфосинтаксических шаблонов и их переводных соответствий 33
2.3. Инструменты исследования 35
2.4. Алгоритм выделения переводных терминов-кандидатов из многоязычного (англо-франко-русского) корпуса текстов 36
2.5. Выводы 38
Глава 3. Эксперимент. Выделение переводных терминов-кандидатов из англо- франко-русского корпуса текстов международных документов 39
3.1. Выделение однословных терминов-кандидатов 39
3.2. Выделение терминологических биграмм 40
3.3. Анализ и оценка работы алгоритма 44
3.3.1. Анализ результатов эксперимента (выделение однословных терминов-кандидатов) 46
3.3.2. Анализ результатов эксперимента (выделение биграмм) 48
3.4. Выводы 53
Заключение 54
Список литературы 57
Приложения 64
Приложение 1. Релевантные переводные однословные термины-кандидаты для англо-франко-русского терминологического словаря 64
Приложение 2. Релевантные переводные терминологические биграммы для англо-франко-русского терминологического словаря 75
Приложение 3. Нерелевантные однословные переводные эквиваленты 104
Приложение 4. Нерелевантные переводные биграммы 106
Извлечение терминологии является важной задачей современных корпусных исследований. С развитием науки и техники терминосистемы различных отраслей знаний меняются, тогда как существующие лексикографические источники - терминологические словари, терминологические банки и базы данных, терминологические стандарты - не всегда своевременно отражают информацию о новых терминах и обозначаемых ими понятиях. В связи с постоянным изменением терминосистем различных предметных областей возникает потребность в разработке и совершенствовании методов выделения современной терминологии, необходимых для решения задач в области терминоведения, общей и прикладной лексикографии, информационного поиска и машинного перевода [5, с. 40]. Немаловажную роль в современном многоязычном мире играет перевод научно-технической литературы: ведутся многочисленные исследования по разработке эффективных методов извлечения переводной терминологии и создания многоязычных переводных терминологических словарей [10; 11; 17; 23; 28; 32; 36; 39; 42; 51; 65].
В многоязычной лексикографии широкое применение находят параллельные корпусы текстов - совокупности документов, переведённых на два или несколько языков и выровненных на уровне слов и предложений. Многоязычные параллельные корпусы используются, в основном, в задачах перевода и переводных исследованиях [33, р. 4]: для автоматического создания переводных словарей, выделения терминов для многоязычных терминологических баз данных, уточнения значений слов и словосочетаний определённой предметной области, верификации значений терминов и терминологических словосочетаний, уже зафиксированных в двуязычных и многоязычных словарях, и оценки адекватности перевода [6, с. 55]. Кроме того, параллельные корпусы текстов широко используются для обучения систем машинного перевода, проверки качества машинного перевода, тестирования и оценки качества выравнивания на уровне предложений (слов, словосочетаний), а также для обучения и тестирования программ по извлечению многоязычной информации и многоязычных классификаторов предметных областей [63].
Благодаря корпусным исследованиям были разработаны и усовершенствованы программные средства для профессиональных переводчиков и пользователей систем машинного перевода [42]. Ярким примером прогресса в области корпусных исследований в лексикографии вообще и переводной лексикографии в частности является корпусный менеджер SketchEngine (www.sketchengine.co.uk). На данный момент в этой системе разработаны специальные модули для работы с параллельными корпусами текстов, а также переводными терминами и терминологическими словосочетаниями (модули Bilingual terminology extraction и Bilingual Wordsketches) [51].
Таким образом, проблема, рассматриваемая в данной работе, является многосторонней и включает в себя такие аспекты, как использование многоязычных параллельных корпусов текстов в исследованиях по терминологии, создание многоязычных терминологических ресурсов (переводных терминологический словарей, многоязычных терминологических банков, баз данных), оценка переводной терминологии, методы выделения терминов в многоязычных корпусах текстов, современные инструменты для работы с многоязычными корпусами текстов и переводной терминологией.
Целью данного исследования является разработка методики выделения кандидатов (терминов и терминологических словосочетаний) для многоязычного (англо-франко-русского) терминологического словаря на основе многоязычного параллельного корпуса текстов.
Для достижения поставленной цели было необходимо решить следующие теоретические и практические задачи:
1. Описать понятие термина-кандидата для переводного терминологического словаря;
2. Описать методы и алгоритмы извлечения переводных терминов-кандидатов из многоязычных параллельных корпусов текстов;
3. Выявить особенности построения терминов и терминологических словосочетаний и их переводных эквивалентов в английском, русском и французском языках (на примере гуманитарной области знаний);
4. Разработать алгоритм выделения терминов-кандидатов и их переводных эквивалентов из многоязычного параллельного корпуса текстов;
5. Проверить работу данного алгоритма на основе англо-франко-русского корпуса международных юридических текстов и оценить его эффективность.
Объектом исследования являются термины и терминологические словосочетания в многоязычных специальных корпусах текстов. Предмет исследования - переводные термины-кандидаты для многоязычного терминологического словаря. В данной работе используются такие методы, как статистический, лексикографический, сопоставительный анализ и эксперимент. Материалом исследования является параллельный англо-франко-русский корпус международных юридических текстов объёмом 412 000 словоупотреблений.
Теоретическая значимость работы определяется разработкой методики выделения переводных терминов-кандидатов на базе многоязычного параллельного корпуса текстов, сочетающей использование морфосинтаксических шаблонов и статистических метрик. Практическая значимость данного исследования заключается в том, что полученные результаты могут использоваться для создания переводных терминологический словарей, расширения существующих многоязычных терминологических ресурсов, а также для создания лингвистических баз данных для систем машинного перевода.
Данная работа состоит из введения, трёх глав, заключения, списка литературы из 65 названий и четырёх приложений. В первой главе рассматриваются теоретические вопросы, связанные с выделением терминов и терминологических словосочетаний в параллельных корпусах текстов. Вторая глава посвящена описанию методики извлечения терминов-кандидатов для многоязычного терминологического словаря. В третьей главе описан эксперимент по извлечению переводных терминов-кандидатов из англо-франко-русского корпуса международных текстов и представлен анализ алгоритма выделения кандидатов в термины, разработанного в рамках данного исследования, и оценка полученных результатов.
Одной из важных задач современных корпусных исследований является извлечение переводной терминологии. Многоязычный параллельный корпус текстов даёт возможность извлекать переводные термины и терминологические словосочетания и тем самым может служить основой для создания и расширения переводных терминологических словарей различных отраслей знаний, а также повышения качества и эффективности машинного перевода.
Извлечение терминологии из корпусов текстов осуществляется с помощью статистического, лингвистического и смешанного методов, описанных в теоретической части данного исследования. Для выделения переводных терминов-кандидатов из многоязычных параллельных корпусов текстов чаще всего используется алгоритм extract-then-align («выделение-выравнивание»), состоящий из двух основных этапов - непосредственно выделение кандидатов в термины в корпусе текстов и установление переводных соответствий между выделенными словами и словосочетаниями.
В ходе данного исследования была разработана методика выделения терминов-кандидатов для англо-франко-русского терминологического словаря на базе параллельного корпуса текстов. В основе методики лежит смешанный подход для извлечения терминологии, который сочетает в себе использование морфосинтаксических шаблонов и статистических мер для определения статистической значимости кандидатов в термины. Анализ морфосинтаксических шаблонов на примере переводных терминологических словарей позволил определить наиболее частотные шаблоны терминов гуманитарной области знаний для английского, французского и русского языков, а также наиболее характерные переводные соответствия между терминами и терминологическими словосочетаниями данных языков. Однословные термины и терминологические биграммы являются наиболее частотными терминологическими конструкциями для английского, французского и русского языков, поэтому алгоритм, разработанный в рамках данного исследования, использовался для выделения именно этих типов терминов.
Экспериментальная часть данной работы была направлена на извлечение переводных терминов-кандидатов из англо-франко-русского параллельного корпуса международных юридических текстов. Однословные термины и терминологические биграммы выделялись в соответствии с наиболее частотными морфосинтаксическими шаблонами терминов, а их статистическая значимость оценивалась с помощью простой частоты встречаемости (для однословных терминов) и статистической меры log-likelihood (для терминологических биграмм). Статистически значимые кандидаты определялись на основании порога статистической значимости, а переводные соответствия между ними устанавливались посредством метода опорного языка. В результате работы алгоритма было выделено 484 однословных переводных кандидата в термины и 224 переводных терминологических словосочетания. Созданный нами параллельный корпус текстов имеет самостоятельную ценность и может быть использован в других исследованиях.
Оценка релевантности выделенных терминов-кандидатов осуществлялась на основе формальных критериев - наличия или отсутствия данного слова или словосочетания в переводных и одноязычных терминологических словарях и многоязычных терминологических базах данных. Международные юридические тексты характеризуются широкой тематической направленностью и терминологической неоднородностью, поэтому для оценки релевантности терминов-кандидатов использовались терминологические словари разных предметных отраслей.
Согласно результатам эксперимента, точность данного алгоритма для выделения однословных терминов-кандидатов составляет 86%, для выделения терминологических биграмм - 60%. Такие показатели точности являются оптимальными для лексикографических задач. Анализ эффективности алгоритма проводился на основании формальных критериев, поэтому для более точной оценки релевантности выделенных переводных терминов-кандидатов требуется участие специалистов данной предметной области и профессиональных переводчиков. Достоверность полученных результатов обеспечивается представительностью корпуса текстов и большим числом использованных лексикографических ресурсов.
Представленная методика, с одной стороны, базируется на обширном анализе научной литературы по данной теме; с другой стороны, полученные результаты хорошо коррелируют с результатами других исследований.
Достоинства разработанного алгоритма заключаются в том, что он позволяет выделять термины-кандидаты, не зафиксированные в существующих переводных терминологических словарях, варианты терминов, а также редкие термины и терминологические словосочетания. Стоит отметить, что описанная методика и алгоритм отличаются простотой реализации, носят достаточно универсальный характер и могут быть использованы для выделения терминов-кандидатов различных предметных областей. При оценке алгоритма необходимо учитывать, что на качество его работы влияет не только собственно методика, но и качество выравнивания на уровне слов, качество морфологической разметки и выбор статистической меры для оценки статистической значимости кандидатов в термины.
Практическая значимость данного исследования заключается в том, что выделенные переводные кандидаты в термины могут использоваться для создания переводных терминологических словарей, расширения существующих многоязычных терминологических ресурсов (терминологических банков, баз данных), а также для создания лингвистических баз данных для систем машинного перевода и других приложений.
1. Англо-русский экономический словарь. - ABBYY, 2001. - [Электронный ресурс]. URL: http://www.lingvo.ua/ru/LingvoDictionaries/Details?dictionary=LingvoEconomic s+(En-Ru) (дата обращения: 16.05.2016).
2. Андрианов С.Н., Никифоров А.С., Берсон А.С. Англо-русский юридический словарь. - М.: ABBYY Press, 2009. - 568 с.
3. Анисимова А.Г. К вопросу о переводе терминов гуманитарных наук // Язык, сознание, коммуникация: Сб. статей / Отв. ред. В.В. Красных, А.И. Изотов. - М.: МАКС Пресс, 2002. - Вып. 21. - 184 с.
4. Ахманова О.С., Минаева Л.В. О предмете и метаязыке учебной лексикографии // Словари и лингвострановедение. - М.: Русский язык, 1982. - С. 5-11.
5. Беляева Л.Н. Автоматизированная лексикография: гуманитарные технологии. - СПб.: Изд-во РГПУ им. А.И. Герцена, 2011. - 75 с.
6. Беляева Л.Н. Лексикографический потенциал параллельного корпуса текстов // Труды международной конференции «Корпусная лингвистика - 2004». - СПб., 2004. - С. 55-64.
7. Беляева Л.Н. Параллельный корпус текстов в задачах лексикографического анализа // Труды международной научной конференции «Корпусная лингвистика - 2013». - СПб., 2013. - [Электронный ресурс]. URL: http://corpora.phil.spbu.ru/Works2013/Беляева.pdf (дата обращения: 16.05.2016).
8. Бенжамен Г., Пике М. Экономический и коммерческий словарь. Англо- франко-русский словарь. - М.: Международные отношения, 1993. - 448 с.
9. Большакова Е.И., Васильева Н.Э., Морозов С.С. Лексико-синтаксические шаблоны для автоматического анализа научно-технических текстов // Десятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2006: Труды конференции в 3-х томах. Т. 2. - М.: Физматлит, 2006. - С. 506-524.
10. Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог-2006».- М.: РГГУ, 2006. - С. 88-94. - [Электронный ресурс]. URL: http: //www.dialog-21.ru/digests / dialog2006/materials/html/Braslavski.htm (дата обращения: 16.05.2016).
11. Браславский, П., Соколов, Е. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог 2008». - М.: РГГУ, 2008. - С. 67-74.
12. Васильева Н. Э. Шаблоны употреблений терминов и их использование при автоматической обработке научно-технических текстов // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог-2004». — М.: РГГУ, 2004. — С. 96-101.
13. Вдовина О. А. Языковая специфика научного текста по международным отношениям // Вестник МГИМО, 2010. - №5. - С.235-245.
14. Герд А.С. Введение в изучение языков для специальных целей: Учеб. пособие. • СПб.: Филологический факультет СПбГУ, 2011. - 60 с.
15. Гринев C. B. Введение в терминоведение. - М.: Московский лицей, 1993. - 309 с.
...