Только Word
Введение 3
Глава 1 5
1.1. Определение термина 5
1.2. Классификация терминов 8
1.3. Особенности функционирования терминов в языковой системе 10
1.4. Формальная структура терминов 15
1.5. Способы образования терминов 17
1.6. Общее понятие о термине-эпониме 22
1.7. Употребление терминов-эпонимов в специальной литературе 25
Глава 2 27
2.1. Автоматическое извлечение терминов 27
2.2. Сбор материалов для исследования 30
2.3. Описание программы 32
2.4. Анализ полученных результатов 36
Заключение 39
Список литературы 41
Приложение 1. Словарь терминов 46
Приложение 2. Список извлеченных терминов (Adj + Noun) 50
Приложение 3. Список извлеченных терминов (N+ N2 – N2) 51
Приложение 4. Список извлеченных терминов (N+ N2) 52
Прогресс науки и техники неизбежно сопровождается необходимостью образования специальных слов для обозначения изучаемых объектов. Возникновение все большего количества терминов требует более пристального внимания и изучения их формальной структуры, способов их образования и функционирования в системе языка.
Как и терминологические слова и сочетания, имена собственные также относятся к разряду специальной лексики языка [Суперанская и др. 2012, 30]. Они являются не только особым по структуре пластом лексики, но и основой обогащения словарного запаса языка; на их основе создается огромное количество производных слов, в том числе и терминов.
Термины и терминологические сочетания связаны с исследованиями не только в области собственно терминоведения, но и компьютерной лингвистики. Автоматическое извлечение терминов является одним из важнейших этапов различных задач обработки естественного языка (извлечение информации, построение глоссариев, онтологий, тезаурусов и пр.).
Целью данной работы является разработка алгоритма извлечения терминов-эпонимов с определенной синтаксической структурой и его реализация на языке программирования Python.
Актуальность работы обусловлена растущей тенденцией к использованию имен собственных при терминотворчестве; представляется весьма закономерным и важным изучение терминов, образованных от имен собственных, их функционирования и формальных характеристик.
Новизна работы состоит в рассмотрении имен собственных и терминов, которые обычно изучаются сами по себе, в отрыве друг от друга, как связанных классов.
Для проведения исследования был составлен словарь, содержащий 100 терминов, образованных от имен собственных. В основу словаря легли математические, химические, физические и медицинские термины. Для каждого термина в справочниках, учебных пособиях и научных трудах по вышеперечисленным областям было выбрано по три случая употребления; перечень источников представлен в списке литературы настоящей работы. Таким образом, на основе полученных 300 предложений был составлен корпус размером 5000 словоупотреблений.
Были поставлены следующие задачи:
1. Описание формальной структуры и способов образования терминов
2. Знакомство с основными методами извлечения терминов
3. Создание словаря терминов, образованных от имен собственных
4. Создание корпуса текстов на основе полученного словаря
5. Разработка алгоритма извлечения терминов, образованных от имен собственных
6. Реализация алгоритма на языке Python
7. Анализ полученных результатов
Настоящая работа состоит из введения, двух глав, заключения, списка литературы из 46 названий (в том числе источников материалов работы) и четырех приложений. В первой главе рассматриваются теоретические вопросы, связанные с общей характеристикой терминов, их формальной структурой и способами образования, а также освещается вопрос о терминах-эпонимах и особенностях их употребления в специальной литературе. Вторая глава посвящена автоматическому извлечению терминов; в ней приводится характеристика существующих алгоритмов и описывается программа, созданная в рамках данного исследования; в последнем пункте главы представлен анализ полученных результатов.
На сегодняшний день одной из важнейших задач компьютерной лингвистики является автоматическое извлечение терминов. Результаты работы алгоритмов по выделению терминологических единиц могут быть использованы при создании и пополнении онтологий, тезаурусов, терминологических словарей и т.д.
В ходе данной работы нами были изучены основные характеристики терминологии как особого пласта языка, модели образования терминов и особенности их функционирования в языковой системе. Были исследованы способы формирования терминов на основе имен собственных и выделены наиболее продуктивные структурные схемы, среди которых стоит отметить словосочетания типа существительное + существительное в родительном падеже, существительное + сдвоенное существительное и прилагательное, образованное от имени собственного + существительное.
В работе также приведен обзор основных методов автоматического извлечения терминов, алгоритм их действия, их преимущества и недостатки. Существующие подходы можно разделить на лингвистические и статистические. Методы первой группы выделяют термины, основываясь на определенных синтаксических шаблонах и лексических фильтрах. Алгоритмы, использующие лингвистические методы, не являются универсальными, но с их помощью при извлечении терминологии можно учитывать специфику исследуемого языка. При статистическом подходе проводится оценка важности слова или словосочетания на основании некоторых числовых закономерностей. Такие методы являются универсальными. Помимо всего прочего, можно выделить гибридный подход, сочетающий в себе методы алгоритмов как первой группы, так и второй.
Целью практической части настоящего исследования была разработка алгоритма извлечения терминов, образованных от имен собственных, и его реализация в виде программы. Для этого было собрано 100 терминов-эпонимов трех основных структурных типов и на основе полученного словаря создан корпус размером 5000 словоупотреблений. Для извлечения исследуемых терминов были разработаны алгоритмы, которые в дальнейшем были реализованы на языке программирования Python с использованием библиотеки для обработки естественного языка NLTK и морфологического анализатора PyMorphy.
Анализ полученных в ходе эксперимента результатов показал, что разработанные алгоритмы обладают рядом недостатков, но, тем не менее, демонстрируют неплохие результаты. Для усовершенствования работы программы было предложено подключение распознавателя именованных сущностей, создания словаря основ имен собственных и словаря слов, наиболее часто встречающихся в исследуемых терминологических словосочетаниях.
Таким образом, поставленные во введении настоящей работы задачи выполнены в полном объеме, сформированная цель достигнута.
1. Астраханцев Н.А. Методы и программные средства извлечения терминов из коллекции текстовых документов предметной области: дис. … кандидата физ.-мат. наук. – М., 2014
2. Ахманова О.С. Словарь лингвистических терминов. – М.: Советская энциклопедия, 1966
3. Браславский П.И. Автоматическое извлечение терминологии с использованием поисковых машин Интернета / П.И. Браславский, Е.А. Соколов // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции «Диалог 2007». – М.: Изд-во РГГУ, 2007
4. Браславский П.И. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста / П.И. Браславский, Е.А. Соколов // Компьютерная лингвистика и интеллектуальные технологии: Труды Международной конференции «Диалог 2006». – М.: Изд-во РГГУ, 2006
5. Винокур Г.О. О некоторых явлениях словообразования в русской технической терминологии // Труды Московского института истории, философии и литературы. Т.5. – М., 1939
6. Ворожбитова А.А. Теория текста: антропоцентрическое направление. – М.: Высшая школа, 2005
7. Воронина В.В. Разработка приложений для анализа слабоструктурированных информационных ресурсов: Учеб. пособие / В.В. Воронина, В.С. Мошкин. – Ульяновск: УлГТУ, 2015
8. Головин Б.Н. Лингвистические основы учения о терминах: Учеб. пособие для филол. спец. вузов / Б.Н. Головин, Р.Ю. Кобрин. – М.: Высшая школа, 1987
9. Гринев С.В. Введение в терминоведение. – М.: Московский лицей, 1993
10. Гринев-Гриневич С.В. Терминоведение. – М.: Издательский центр «Академия», 2008
11. Даниленко В.П. Русская терминология: опыт лингвистического описания. – М.: Наука, 1977
12. Захаров В.П. Анализ эффективности статистических методов выявления коллокаций в текстах на русском языке / В.П. Захаров, М.В. Хохлова // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». – М.: Изд-во РГГУ, 2010
13. Звегинцев В.А. О знаковости терминов // Slovenské odborne nazvoslovie. Bratislava, 1957. N. 7. S. 342-349
14. Израильские врачи потребовали переименовать болезнь имени нацистского преступника: [Электронный ресурс] // Ревматология. К., 2001-2015. URL: http://rheumatology.org.ua/blog/news/365 (дата обращения: 19.05.2018)
15. Какзанова Е.М. Англо-русско-немецкий словарь интернациональных эпонимов: Название и происхождение. От A до Z. – М.: ООО «Галлея-Принт», 2015...35