Автоматическое выделение терминов, образованных от имен собственных
|
Только Word
Введение 3
Глава 1 5
1.1. Определение термина 5
1.2. Классификация терминов 8
1.3. Особенности функционирования терминов в языковой системе 10
1.4. Формальная структура терминов 15
1.5. Способы образования терминов 17
1.6. Общее понятие о термине-эпониме 22
1.7. Употребление терминов-эпонимов в специальной литературе 25
Глава 2 27
2.1. Автоматическое извлечение терминов 27
2.2. Сбор материалов для исследования 30
2.3. Описание программы 32
2.4. Анализ полученных результатов 36
Заключение 39
Список литературы 41
Приложение 1. Словарь терминов 46
Приложение 2. Список извлеченных терминов (Adj + Noun) 50
Приложение 3. Список извлеченных терминов (N+ N2 – N2) 51
Приложение 4. Список извлеченных терминов (N+ N2) 52
Введение 3
Глава 1 5
1.1. Определение термина 5
1.2. Классификация терминов 8
1.3. Особенности функционирования терминов в языковой системе 10
1.4. Формальная структура терминов 15
1.5. Способы образования терминов 17
1.6. Общее понятие о термине-эпониме 22
1.7. Употребление терминов-эпонимов в специальной литературе 25
Глава 2 27
2.1. Автоматическое извлечение терминов 27
2.2. Сбор материалов для исследования 30
2.3. Описание программы 32
2.4. Анализ полученных результатов 36
Заключение 39
Список литературы 41
Приложение 1. Словарь терминов 46
Приложение 2. Список извлеченных терминов (Adj + Noun) 50
Приложение 3. Список извлеченных терминов (N+ N2 – N2) 51
Приложение 4. Список извлеченных терминов (N+ N2) 52
Прогресс науки и техники неизбежно сопровождается необходимостью образования специальных слов для обозначения изучаемых объектов. Возникновение все большего количества терминов требует более пристального внимания и изучения их формальной структуры, способов их образования и функционирования в системе языка.
Как и терминологические слова и сочетания, имена собственные также относятся к разряду специальной лексики языка [Суперанская и др. 2012, 30]. Они являются не только особым по структуре пластом лексики, но и основой обогащения словарного запаса языка; на их основе создается огромное количество производных слов, в том числе и терминов.
Термины и терминологические сочетания связаны с исследованиями не только в области собственно терминоведения, но и компьютерной лингвистики. Автоматическое извлечение терминов является одним из важнейших этапов различных задач обработки естественного языка (извлечение информации, построение глоссариев, онтологий, тезаурусов и пр.).
Целью данной работы является разработка алгоритма извлечения терминов-эпонимов с определенной синтаксической структурой и его реализация на языке программирования Python.
Актуальность работы обусловлена растущей тенденцией к использованию имен собственных при терминотворчестве; представляется весьма закономерным и важным изучение терминов, образованных от имен собственных, их функционирования и формальных характеристик.
Новизна работы состоит в рассмотрении имен собственных и терминов, которые обычно изучаются сами по себе, в отрыве друг от друга, как связанных классов.
Для проведения исследования был составлен словарь, содержащий 100 терминов, образованных от имен собственных. В основу словаря легли математические, химические, физические и медицинские термины. Для каждого термина в справочниках, учебных пособиях и научных трудах по вышеперечисленным областям было выбрано по три случая употребления; перечень источников представлен в списке литературы настоящей работы. Таким образом, на основе полученных 300 предложений был составлен корпус размером 5000 словоупотреблений.
Были поставлены следующие задачи:
1. Описание формальной структуры и способов образования терминов
2. Знакомство с основными методами извлечения терминов
3. Создание словаря терминов, образованных от имен собственных
4. Создание корпуса текстов на основе полученного словаря
5. Разработка алгоритма извлечения терминов, образованных от имен собственных
6. Реализация алгоритма на языке Python
7. Анализ полученных результатов
Настоящая работа состоит из введения, двух глав, заключения, списка литературы из 46 названий (в том числе источников материалов работы) и четырех приложений. В первой главе рассматриваются теоретические вопросы, связанные с общей характеристикой терминов, их формальной структурой и способами образования, а также освещается вопрос о терминах-эпонимах и особенностях их употребления в специальной литературе. Вторая глава посвящена автоматическому извлечению терминов; в ней приводится характеристика существующих алгоритмов и описывается программа, созданная в рамках данного исследования; в последнем пункте главы представлен анализ полученных результатов.
Как и терминологические слова и сочетания, имена собственные также относятся к разряду специальной лексики языка [Суперанская и др. 2012, 30]. Они являются не только особым по структуре пластом лексики, но и основой обогащения словарного запаса языка; на их основе создается огромное количество производных слов, в том числе и терминов.
Термины и терминологические сочетания связаны с исследованиями не только в области собственно терминоведения, но и компьютерной лингвистики. Автоматическое извлечение терминов является одним из важнейших этапов различных задач обработки естественного языка (извлечение информации, построение глоссариев, онтологий, тезаурусов и пр.).
Целью данной работы является разработка алгоритма извлечения терминов-эпонимов с определенной синтаксической структурой и его реализация на языке программирования Python.
Актуальность работы обусловлена растущей тенденцией к использованию имен собственных при терминотворчестве; представляется весьма закономерным и важным изучение терминов, образованных от имен собственных, их функционирования и формальных характеристик.
Новизна работы состоит в рассмотрении имен собственных и терминов, которые обычно изучаются сами по себе, в отрыве друг от друга, как связанных классов.
Для проведения исследования был составлен словарь, содержащий 100 терминов, образованных от имен собственных. В основу словаря легли математические, химические, физические и медицинские термины. Для каждого термина в справочниках, учебных пособиях и научных трудах по вышеперечисленным областям было выбрано по три случая употребления; перечень источников представлен в списке литературы настоящей работы. Таким образом, на основе полученных 300 предложений был составлен корпус размером 5000 словоупотреблений.
Были поставлены следующие задачи:
1. Описание формальной структуры и способов образования терминов
2. Знакомство с основными методами извлечения терминов
3. Создание словаря терминов, образованных от имен собственных
4. Создание корпуса текстов на основе полученного словаря
5. Разработка алгоритма извлечения терминов, образованных от имен собственных
6. Реализация алгоритма на языке Python
7. Анализ полученных результатов
Настоящая работа состоит из введения, двух глав, заключения, списка литературы из 46 названий (в том числе источников материалов работы) и четырех приложений. В первой главе рассматриваются теоретические вопросы, связанные с общей характеристикой терминов, их формальной структурой и способами образования, а также освещается вопрос о терминах-эпонимах и особенностях их употребления в специальной литературе. Вторая глава посвящена автоматическому извлечению терминов; в ней приводится характеристика существующих алгоритмов и описывается программа, созданная в рамках данного исследования; в последнем пункте главы представлен анализ полученных результатов.
На сегодняшний день одной из важнейших задач компьютерной лингвистики является автоматическое извлечение терминов. Результаты работы алгоритмов по выделению терминологических единиц могут быть использованы при создании и пополнении онтологий, тезаурусов, терминологических словарей и т.д.
В ходе данной работы нами были изучены основные характеристики терминологии как особого пласта языка, модели образования терминов и особенности их функционирования в языковой системе. Были исследованы способы формирования терминов на основе имен собственных и выделены наиболее продуктивные структурные схемы, среди которых стоит отметить словосочетания типа существительное + существительное в родительном падеже, существительное + сдвоенное существительное и прилагательное, образованное от имени собственного + существительное.
В работе также приведен обзор основных методов автоматического извлечения терминов, алгоритм их действия, их преимущества и недостатки. Существующие подходы можно разделить на лингвистические и статистические. Методы первой группы выделяют термины, основываясь на определенных синтаксических шаблонах и лексических фильтрах. Алгоритмы, использующие лингвистические методы, не являются универсальными, но с их помощью при извлечении терминологии можно учитывать специфику исследуемого языка. При статистическом подходе проводится оценка важности слова или словосочетания на основании некоторых числовых закономерностей. Такие методы являются универсальными. Помимо всего прочего, можно выделить гибридный подход, сочетающий в себе методы алгоритмов как первой группы, так и второй.
Целью практической части настоящего исследования была разработка алгоритма извлечения терминов, образованных от имен собственных, и его реализация в виде программы. Для этого было собрано 100 терминов-эпонимов трех основных структурных типов и на основе полученного словаря создан корпус размером 5000 словоупотреблений. Для извлечения исследуемых терминов были разработаны алгоритмы, которые в дальнейшем были реализованы на языке программирования Python с использованием библиотеки для обработки естественного языка NLTK и морфологического анализатора PyMorphy.
Анализ полученных в ходе эксперимента результатов показал, что разработанные алгоритмы обладают рядом недостатков, но, тем не менее, демонстрируют неплохие результаты. Для усовершенствования работы программы было предложено подключение распознавателя именованных сущностей, создания словаря основ имен собственных и словаря слов, наиболее часто встречающихся в исследуемых терминологических словосочетаниях.
Таким образом, поставленные во введении настоящей работы задачи выполнены в полном объеме, сформированная цель достигнута.
В ходе данной работы нами были изучены основные характеристики терминологии как особого пласта языка, модели образования терминов и особенности их функционирования в языковой системе. Были исследованы способы формирования терминов на основе имен собственных и выделены наиболее продуктивные структурные схемы, среди которых стоит отметить словосочетания типа существительное + существительное в родительном падеже, существительное + сдвоенное существительное и прилагательное, образованное от имени собственного + существительное.
В работе также приведен обзор основных методов автоматического извлечения терминов, алгоритм их действия, их преимущества и недостатки. Существующие подходы можно разделить на лингвистические и статистические. Методы первой группы выделяют термины, основываясь на определенных синтаксических шаблонах и лексических фильтрах. Алгоритмы, использующие лингвистические методы, не являются универсальными, но с их помощью при извлечении терминологии можно учитывать специфику исследуемого языка. При статистическом подходе проводится оценка важности слова или словосочетания на основании некоторых числовых закономерностей. Такие методы являются универсальными. Помимо всего прочего, можно выделить гибридный подход, сочетающий в себе методы алгоритмов как первой группы, так и второй.
Целью практической части настоящего исследования была разработка алгоритма извлечения терминов, образованных от имен собственных, и его реализация в виде программы. Для этого было собрано 100 терминов-эпонимов трех основных структурных типов и на основе полученного словаря создан корпус размером 5000 словоупотреблений. Для извлечения исследуемых терминов были разработаны алгоритмы, которые в дальнейшем были реализованы на языке программирования Python с использованием библиотеки для обработки естественного языка NLTK и морфологического анализатора PyMorphy.
Анализ полученных в ходе эксперимента результатов показал, что разработанные алгоритмы обладают рядом недостатков, но, тем не менее, демонстрируют неплохие результаты. Для усовершенствования работы программы было предложено подключение распознавателя именованных сущностей, создания словаря основ имен собственных и словаря слов, наиболее часто встречающихся в исследуемых терминологических словосочетаниях.
Таким образом, поставленные во введении настоящей работы задачи выполнены в полном объеме, сформированная цель достигнута.
Подобные работы
- ЗАТРАТЫ НА ОБУЧЕНИЕ В МЕХАНИЗМЕ ФИНАНСОВОЙ ПОЛИТИКИ
ГОСУДАРСТВЕННОГО УЧРЕЖДЕНИЯ ВЫСШЕГО
ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ
Диссертация , экономика. Язык работы: Русский. Цена: 500 р. Год сдачи: 2005 - ДЕОФШОРИЗАЦИЯ КАК ПРИОРИТЕТ СОВРЕМЕННОЙ ЭКОНОМИЧЕСКОЙ ПОЛИТИКИ РОССИИ
Дипломные работы, ВКР, экономика. Язык работы: Русский. Цена: 4225 р. Год сдачи: 2017 - Понятия «власть» и «собственность» в отечественной медиевистике XX века
Магистерская диссертация, история . Язык работы: Русский. Цена: 5900 р. Год сдачи: 2016 - Типология комитативных конструкции
Диссертации (РГБ), языкознание. Язык работы: Русский. Цена: 700 р. Год сдачи: 2005 - ДОХОДЫ МУНИЦИПАЛЬНОГО БЮДЖЕТА: НЕТРАДИЦИОННЫЕ ПОДХОДЫ К УКРЕПЛЕНИЮ ФИНАНСОВОЙ БАЗЫ МЕСТНОГО САМОУПРАВЛЕНИЯ (на примере бюджета г. Благовещенска Амурской области)
Диссертация , финансы и кредит. Язык работы: Русский. Цена: 500 р. Год сдачи: 2005 - Типология комитативных конструкций
Диссертация , лингвистика. Язык работы: Русский. Цена: 500 р. Год сдачи: 2005 - АВТОМАТИЗИРОВАННАЯ СИСТЕМА
СМЫСЛОВОЙ ОБРАБОТКИ ТЕКСТОВ
ПРИ СОЗДАНИИ ЭЛЕКТРОННЫХ ФОНДОВ БИБЛИОТЕКИ
Диссертация , информационные системы. Язык работы: Русский. Цена: 5700 р. Год сдачи: 2003 - ДИСТИНКТИВНЫЕ ЧЕРТЫ АМЕРИКАНСКОГО СЛЕНГА (НА МАТЕРИАЛЕ СОВРЕМЕННОЙ ПЕРИОДИЧЕСКОЙ ПЕЧАТИ США)
Дипломные работы, ВКР, филология. Язык работы: Русский. Цена: 4320 р. Год сдачи: 2018 - АКТАНТЫ МОТИВИРУЮЩЕГО ГЛАГОЛА В СЕМАНТИКЕ РУССКИХ
ОТГЛАГОЛЬНЫХ ПРИЛАГАТЕЛЬНЫХ
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 3850 р. Год сдачи: 2016





