Тип работы:
Предмет:
Язык работы:


Сравнительный анализ методов извлечения терминологии

Работа №140416

Тип работы

Магистерская диссертация

Предмет

лингвистика

Объем работы85
Год сдачи2022
Стоимость4985 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
48
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Терминологический словарь и принцип организации его данных 5
1.1 Терминологический словарь: общее понятие и принципы составления
словаря 5
1.2 Термин, его свойства. Виды терминов 7
1.3 Виды терминологических словарей 11
1.4 Методы формирования словника терминологических словарей 17
1.5 Структура терминологических словарей 21
Глава 2. Автоматизация в лексикографии 24
2.1 Автоматическое извлечение терминов 24
2.2 Различные системы для автоматического извлечения терминов 27
2.2.1 Онлайн-системы 27
2.2.2 Программы находящиеся в свободном доступе 34
2.2.3 Программы с закрытым кодом 37
2.3 Выводы 39
Глава 3. Правила извлечения терминов 40
3.1 Подготовка материалов для исследования 40
3.2 Описание программы для извлечения терминологии 40
3.2.1 YAKE 41
3.2.2 TF-IDF 45
3.2.3 T extRank spaCy 49
3.3 Анализ полученных результатов 55
3.4 Результаты сравнительного анализа 80
3.5 Выводы 81
Заключение 82
Список литературы


Широкий размах строительства и необходимость освоения передового опыта зарубежных стран требует разносторонней информации о достижениях этих стран в области строительной техники и технологий.
Современное состояние терминологической работы потребовало создания строительного терминологического словаря для стран, призванного улучшить взаимопонимание учёных и специалистов разных стран, работающих в строительстве и архитектуре.
В некоторых странах в течение ряда лет проводится систематическая работа по созданию, упорядочению и согласованию терминологии в области строительства.
Задача словаря - обеспечить языковое и смысловое согласование, упорядочение и унификацию строительной терминологии, применяемой в странах, помочь международному сотрудничеству и взаимной информации специалистов в области строительства и архитектуры.
Значимость любого терминологического словаря определяется тем, в какой мере он помогает пользователям в понимании необходимых им текстов по специальности, а также в порождении собственной профессиональной обусловленной речи. Словарь является представлением о слове как информационном комплексе, при котором термин рассматривается не только как член определённой понятийной системы, но и как полноправный член лексической системы.
Актуальность работы обусловлена растущей тенденцией к использованию терминологии при термин творчестве; представляется весьма закономерным и важным изучение терминов, образованных от имен собственных, их функционирования и формальных характеристик.
Объектом исследования являются методы сравнительно анализа извлечения терминологии.
Предмет исследования - применение программных методов для сравнительного анализа терминов.
Практическая значимость состоит в реализации программных
методов по извлечению терминологии и сравнительного анализа.
Цель данной работы состоит в изучении методов сравнительного анализа по извлечению терминологии и написания программного кода на языке Python с автоматическим извлечением терминов.
Для проведения исследования был составлен текстовый корпус, содержащий термины, в основу текста легли архитектурно-строительные термины.
Исходя из поставленной цели, были сформулированы следующие задачи:
1. Провести обзор исследований методов сравнительного анализа по извлечению терминологии с помощью программного алгоритма.
2. Изучить программный алгоритм для сравнительного анализа по извлечению терминологии из текста.
3. Провести сравнительный анализ результатов программ, написанный на языке Python.
Настоящая работа состоит из введения, трёх глав, заключения, списка литературы. В первой главе рассматриваются теоретические вопросы, связанные с общей характеристикой терминологией, их формальной структурой и способами образования, а также освещается их употребления в специальной строительной литературе. Вторая глава посвящена автоматическому извлечению терминов; в ней приводится характеристика существующих программ и описывается программа, созданная в рамках данного исследования. В третьей главе описывается практическая часть алгоритмов Yake, TF-IDF, TextRank spaCy. Описывается формулы и получения результатов сравнительного анализа.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Автоматическое извлечение терминов из текстов предметной области представляет собой задачу, которая имеет множество приложений. Термины, извлекаемые автоматическим способом, могут использоваться как классификационные признаки для рубрикации документов, как семантические концепты для генерации тезаурусов, онтологий и терминологических словарей и т.д. Практически во всех задачах, связанных с автоматической обработкой текстов, как то аннотирование, индексирование, классификация, машинный перевод, извлечение знаний и т.д., требуется извлечение терминологии. Для решения указанной задачи разработано большое количество эффективных методов и подходов, среди которых самыми простыми и устойчивыми являются методы, основанные на статистике употребления слов.
В данной работы были изучены основные характеристики терминологии как особого пласта языка, модели образования терминов и особенности их функционирования в языковой системе. Были исследованы способы формирования терминов на основе имен собственных и выделены наиболее продуктивные структурные схемы, среди которых стоит отметить словосочетания типа ‘существительное + прилагательное.
Примеры из таблицы выполнены на языке Python. В Python имеется большое количество библиотек для обработки естественного языка: сверх быстрой токенизации, анализа, лемматизации текстов и распознавания сущностей. Для извлечения исследуемых терминов были разработаны алгоритмы, которые в дальнейшем были реализованы на языке программирования Python с использованием библиотеки для обработки естественного языка.
Анализ полученных в ходе эксперимента результатов показал, что разработанные алгоритмы обладают рядом недостатков, но, тем не менее, демонстрируют неплохие результаты. Для усовершенствования работы программы было предложено подключение распознавателя именованных сущностей, создания словаря основ имен собственных и словаря слов, наиболее часто встречающихся в исследуемых терминологических словосочетаниях.
Таким образом, поставленные во введении настоящей работы задачи выполнены в полном объеме, сформированная цель достигнута.



1. Ахманова О. С. Словарь лингвистических терминов. М.: URSS, 2017. 569 с.
2. Ахманова О. С. Словарь омонимов русского языка / О. С. Ахманова.
— 3-е изд., стереотип. — М.: Рус. яз., 1986. — 448 с
3. Белухина С.Н. Строительная терминология как объект учебной лексикографии 2/2011
4. Вольфберг Д. М., Лойт А. О. Англо-русский и русско-английский токсикологический словарь / под ред. А. С. Герда. М.; СПб., 2006.
5. Г. У. Линдберг и А. С.Герд. Л., Словаря названий пресноводных рыб СССР 1972
6. Герд А.С. К определению понятию «словарь»//Герд А.С. прикладная лингвистика. СПБ, 2005 С. 132.
7. Герд А.С. К определению понятию «словарь»//Герд А.С. прикладная лингвистика. СПБ, 2005
8. Герд А.С. К определению понятию «словарь»//Герд А.С. прикладная лингвистика. СПБ, 2005 С. 141.
9. Гершман Б. Н., Малахова А. Н., Борисовой Л. Т. Толковый словарь по радиофизике: основные термины (с эквивалентами на английском языке) / под ред. М., 1993.
10. Деревянкина А.С. Достижения и перспективы изучения архитектур-ной терминологии в рамках различных направлений терминоведения 2013
11. Климовицкий, Я. А. Некоторые методологические вопросы работы над терминологией науки и техники / Я. А. Климовицкий // Современные проблемы терминологии в науке и технике: сб. ст. — М.: Наука, 1969. — С. 32-61.
12. Лейчик, В. М. Терминоведение: предмет, методы, структура /
В. М. Лейчик. — изд. 3-е. — М.: Изд-во ЛКИ, 2007. — 256 с.
13. Morkovin V.V. Typical Model of a Basic Tutorial Dictionary of Russian (for foreign students of a certain nationality). Publishing House of A.Pushkin Institute of Russian Language, 1985.
14. Реформатский, А. А. Введение в языковедение: учеб. для филол.
фак. пед. ин-тов / А. А. Реформатский. — 4-е изд-е, испр. и доп. — М.: Просвещение, 1967. — 542 с
15. Суперанская А. В., Подольская Н. В., Васильева Н. В. Общая терминология. Вопросы теории. М. Книжный дом «Либроком», 2009
16. Суперанская, А. В. Общая терминология: вопросы теории /
А. В. Суперанская, Н. В. Подольская, Н. В. Васильева. — 6-е изд. — М.: Либроком, 2012. — 248 с.
17. Табанакова В. Д. Идеографическое описание научной терминологии. Тюмень, 1999.
18. Татаринов В. А. Общее терминоведение: энциклопедический словарь. М., 2006.
19. Terminology Extraction.http: //labs.translated. net/terminologyextraction/
(дата обращения: 10.04.2022)
Term Extraction компанииhttp ://termextract.fivefilters. org/
(дата обращения: 10.04.2022)
TerMine.http: //www. nactem. ac. uk/software/termine
(дата обращения: 10.04.2022)
pke - python keyphrase extractionhttps: //github. com/boudinfl/pke
(дата обращения: 10.04.2022)
topia.termextract 1.1.0: Python Package Index.
https://pypi.python.Org/pypi/topia.termextract/1.1.0
(дата обращения: 10.04.2022)
Terminology Extraction < Heartsome Europe GmbH.
http: //www. -heartsome. de/en/termextraction.php
(дата обращения: 10.04.2022)
Sandstone компанияhttps: //www. sandstone .com. au/en-au/idp
(дата обращения: 10.04.2022)
SynchroTerm.
https: //terminotix. com/index. asp?content=item&item=7 &lang=en
(дата обращения: 11.04.2022)
SDL MultiTerm Extract.https: //www. tra-service. ru/multitermextract
(дата обращения: 11.04.2022)
TermoStat Web 3.0.http://termostat.ling.umontreal.ca/
(дата обращения: 11.04.2022)
Terminology ManagerDPOMT.
http://www.promt.ru/press/news/10111/?phrase id=20603485
(дата обращения: 11.04.2022)


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ