Введение 4
Глава 1. Понятие термина в лингвистике 7
1.1. Определение понятия «термин» 7
1.2. Особенности термина. Требования к термину 8
1.3. Происхождение терминов 12
1.4. Классификации терминов 15
1.5. Термин в финноязычной лингвистике 19
1.6. Экономические термины 22
1.7. Выводы 23
Глава 2. Способы автоматического извлечения терминов 25
2.1. Общая характеристика систем для автоматического извлечения терминов 25
2.2. Классификация систем для автоматического извлечения терминов 27
2.3. Существующие системы автоматического выделения и извлечения терминов 29
2.3.1. Онлайн-системы 29
2.3.2. Программы, находящиеся в свободном доступе 32
2.3.3. Программы с закрытым кодом 34
2.4. Выводы 36
Глава 3. Правила извлечения терминов 37
3.1. Материал исследования 37
3.2. Разметка текстов 38
3.3. SketchEngine и грамматики SketchEngine 39
3.3. Грамматика для извлечения терминов. 42
3.4. Результаты 46
3.4.1. Выделение терминологических словосочетаний 46
3.4.2. Выделение терминов 47
3.5. Ошибки при автоматическом выделении терминов 50
3.6. Выводы 60
Заключение 62
Список использованной литературы 65
Список источников 69
Приложение 1. Грамматика SketchEngine для выделения терминов 71
Основными функциями языка являются коммуникативная (язык предназначен для взаимодействия людей), когнитивная (язык служит для передачи смысла) и аккумулятивная (язык обеспечивает сохранение и передачу знаний) [Жеребило, 2010, с. 442].
Терминология как часть специальной лексики языка обеспечивает осуществление аккумулятивной функции языка, позволяя передавать информацию как о конкретных объектах физического мира, имеющих особое назначение и определенные свойства и качества, так и об абстрактных идеях или понятиях. Изучением терминологии занимается терминоведение, в рамках которой специальные единицы языка анализируются «с точки зрения их типологии, происхождения, формы, содержания (значения) и функционирования, а также использования, упорядочения и создания» [Гринев-Гриневич, 2008, с. 9].
В последнее время в терминоведении все большую актуальность приобретает задача автоматического извлечения терминов в связи с огромными и, более того, постоянно растущими объемами информации [Браславский, Соколов]. Автоматическое выделение терминов может использоваться для создания терминологических словарей различных тематик, а также при переводе [Герд, 2014, с. 4]. Это определяет практическую значимость нашей работы.
Поскольку к терминам, в отличие от остальной лексики, предъявляются определенные требования (в частности, к форме и к значению термина, о которых мы будем говорить далее), автоматизация для их извлечения может быть применима с бо́льшим успехом, чем к остальной лексике языка. Согласно А. С. Герду, особенности терминов позволяют «заранее задать определенную модель параметров описания семантики терминов данного типа» [Герд, 2014, с. 4].
Тема извлечения терминов из текстов разрабатывалась еще с 1990х годов. Начало изучения ознаменовалось появлением в 1990 году TERMINO — первой широкой известной программы для извлечения терминов [Cabré, Estopà, Vivaldi, 2001, p. 2]. В дальнейшем исследователями применялись различные подходы, на их основе создавались алгоритмы, но и по сей день проблема автоматического извлечения терминов не потеряла своей актуальности.
Объектом нашего исследования являются термины финского языка (конкретнее — экономическая терминология, встречающаяся в газетных статьях), а предметом — автоматическое извлечение данных терминов из текстов. Целью нашего исследования является исследование терминов и терминологических словосочетаний в финском языке.
Для достижения данной цели нами были поставлены следующие задачи:
1) теоретическое описание терминов в финском языке (на материале созданного нами корпуса и корпуса fiTenTen);
2) изучение программного обеспечения для выделения терминов;
3) описание моделей терминов в рамках грамматики SketchEngine;
4) выявление выделенных терминов на основе разработанной грамматики из корпуса экономических текстов и последующий анализ результатов.
Мы использовали такие методы как корпусный анализ данных, статистические методы и подход с использованием правил (rule-based approach).
В качестве материала для нашего исследования были отобраны газетные статьи по тематике «Экономика». Объем корпуса составляет 50 тысяч токенов.
Для извлечения терминов нами была написана и протестирована грамматика SketchEngine.
В первой главе мы рассматриваем термин как лексическую единицу, его характеристики и особенности (в частности, морфологические особенности финского термина).
Во второй главе мы приводим краткий обзор существующих способов автоматического извлечения терминов. При рассмотрении программных средств мы ограничились только теми инструментами для выделения ключевых слов и терминов, которые позволяют выявлять именно термины как единицы специального языка.
В третьей главе мы описываем грамматику SketchEngine, с помощью которой нами проводилось извлечение терминов, и материал исследования, анализируем результаты исследования и ошибки, возникшие при автоматическом извлечении терминов.
Количество специальной лексики в языке с каждым годом увеличивается в силу того, что все сферы человеческой жизни быстро развиваются: возникают новые объекты и явления, для которых необходимы новые наименования, изменяется содержание уже существовавших понятий, что приводит к необходимости изменений в названиях.
В большинстве случаев все эти новоприобретенные языком слова могут считаться терминами — единицами специального языка, которые выражают основные характеристики научного понятия.
Термин может образоваться через словообразование, терминологизацию или заимствование из других языков, а также через сочетание этих способов.
Существует несколько классификаций терминов как в рамках русского языкознания, так и в рамках финской лингвистики. С точки зрения морфемной структуры термины-слова могут быть непроизводными, производными, сложными и аббревиатурами, а с точки зрения части речи — существительными, глаголами, прилагательными и наречиями. Стоит также отметить, что, по мнению некоторых исследователей, термином может быть исключительно существительное. В нашем исследовании мы выделяли только термины-существительные, большая часть которых являлась сложными словами.
Корпус, которым мы пользовались для исследования, состоит из газетных статей на экономическую тему (в качестве источников нами использовались финноязычные новостные сайты). Объем корпуса — 50 тыс. токенов. Корпус был размечен с помощью морфологического теггера TreeTagger, существующего в системе SketchEngine.
Мы также рассмотрели существующие системы для автоматического выделения терминов. В большинстве из них используется статистический подход, хотя в некоторых привлекается дополнительная лингвистическая информация (например, морфологическая разметка).
Наш подход, использующий инструмент SketchEngine, также является гибридным, поскольку в нем используются правила, опирающиеся на морфологические характеристики.
Для извлечения терминов мы загрузили свой корпус в систему SketchEngine, разметили его с помощью TreeTagger и написали скетч-грамматику из 51 правила: 50 — для выделения слов, 1 — для словосочетания (см. приложение 1). В некоторых случаях мы дополнительно проверяли работоспособность правил грамматики на корпусе fiTenTen.
Результаты мы оцениваем в целом как положительные: хотя точность извлеченных кандидатов в термины зависит от конкретного случая, (максимальная точность – 0,93, минимальная – 0,22) в целом точность колебалась в районе 0,50 – 0,70, а поскольку наш подход подразумевал выделение всех терминов, содержащих заданную основу, мы можем говорить о 100% полноте. Тем не менее, наша оценка весьма приблизительна, поскольку мы не использовали полноценный словарь экономической лексики для проверки результатов. Мы также не пользовались помощью специалиста в данной области.
Кроме терминов по правилам нашей грамматики выделялись также лексемы, несшие дополнительный экспрессивный оттенок или имевшие метафорическое значение. Мы считаем, что дальнейшее изучение подобных случаев представляет особый интерес с точки зрения семантики, стилистики и словообразования финского языка.
К сожалению, нам не удалось избежать определенных ошибок — как на уровне разметки, так и на уровне функционирования грамматики. Мы сделали небольшую классификацию ошибок и подробно рассмотрели каждый случай.
Мы бы хотели отметить значение нашего исследования для морфологической разметки TreeTagger for Finnish v2. В ходе исследования нами были выявлены определенные ошибки, связанные с неправильной разметкой. Мы надеемся, что наши замечания будут полезны при дальнейшей ручной проверке данной разметки.
1. Бабенко О. В. Linguistic aspects of the economic term system. URL: http://elibrary.nubip.edu.ua/10430/1/11bov.pdf (дата обращения: 19.05.2016).
2. Браславский П. И., Соколов Е. А. Сравнение пяти методов извлечения терминов произвольной длины. URL: http://www.dialog-21.ru/dialog2008/materials/html/11.htm (дата обращения: 19.05.2016).
3. Герд А. С. Ещё раз об автоматизации лексикографических работ // Советская лексикография, Научный совет по лексикологии и лексикографии Академии Наук СССР. М.: Русский язык. С. 225-232 // La Filológica por la Causa, 2014.
4. Герд А. С. Значение термина и научное знание / А. С. Герд // Научно-техническая информация. Сер. 2. – 1991. – № 10. – С. 1–4.
5. Герд А. С. Основы научно-технической лексикографии. Л., 1986.
6. Герд А. С. Прикладная лингвистика. СПб., 2005. Разделы I и II.
7. Головин Б. Н., Кобрин Р. Ю. Лингвистические основы учения о терминах. М.: Высшая школа, 1987. — 105 с.
8. Гринев-Гриневич С. В. Терминоведение. М.: Издательский центр ‘Академия’, 2008. — 304 с. — (Серия: Высшее профессиональное образование)
9. Жеребило Т. В. Словарь лингвистических терминов, издание 5-е, исправленное и дополненное. Назрань: ООО ‘Пилигрим’, 2010. – 486 с.
10. Лантюхова Н. Н., Загоровская О. В., Литвинова Т. А. Термин: определение понятия и его сущностные признаки // Вестник Воронежского института ГПС МЧС России, 2013, выпуск № 1 (6). URL: http://cyberleninka.ru/article/n/termin-opredelenie-ponyatiya-i-ego-suschnostnye-priznaki (дата обращения: 19.05.2016).
11. Лейчик В. М. Терминоведение: предмет, методы, структура. М., 2006.
12. Лейчик В. М., Шелов С. Д. Лингвистические проблемы терминологии и научно-технический перевод // Серия ‘Теория и практика научно-технического перевода’: Обзор информации. Вып. 18. Часть II. М.: Всесоюзный центр переводов научно-технической информации и документации, 1990. 80 с.
13. Литовченко В. И. Классификация и систематизация терминов // Вестник Сибирского государственного аэрокосмического университета им. академика М.Ф. Решетнева, 2006, выпуск № 3, с. 156-159. URL: http://cyberleninka.ru/article/n/klassifikatsiya-i-sistematizatsiya-terminov (дата обращения: 19.05.2016).
14. Лотте Д. С. Основы построения научно-технической терминологии. М.: АН СССР, 1961.
15. Маслов Ю. С. Введение в языкознание: Учеб. для филол. спец. вузов. —2-изд., перераб. и доп. — М.:Высш. шк., 1987. 272 с.
...