Тема: Сравнительный анализ методов извлечения терминологии
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Терминологический словарь и принцип организации его данных 5
1.1 Терминологический словарь: общее понятие и принципы составления словаря 5
1.2 Термин, его свойства. Виды терминов 7
1.3 Виды терминологических словарей 11
1.4 Методы формирования словника терминологических словарей 17
1.5 Структура терминологических словарей 21
Глава 2. Автоматизация в лексикографии 24
2.1 Автоматическое извлечение терминов 24
2.2 Различные системы для автоматического извлечения терминов 27
2.2.1 Онлайн-системы 27
2.2.2 Программы находящиеся в свободном доступе 34
2.2.3 Программы с закрытым кодом 37
2.3 Выводы 39
Глава 3. Правила извлечения терминов 40
3.1 Подготовка материалов для исследования 40
3.2 Описание программы для извлечения терминологии 40
3.2.1 YAKE 41
3.2.2 TF-IDF 45
3.2.3 T extRank spaCy 49
3.3 Анализ полученных результатов 55
3.4 Результаты сравнительного анализа 80
3.5 Выводы 81
Заключение 82
Список литературы 83
📖 Введение
Современное состояние терминологической работы потребовало создания строительного терминологического словаря для стран, призванного улучшить взаимопонимание учёных и специалистов разных стран, работающих в строительстве и архитектуре.
В некоторых странах в течение ряда лет проводится систематическая работа по созданию, упорядочению и согласованию терминологии в области строительства.
Задача словаря - обеспечить языковое и смысловое согласование, упорядочение и унификацию строительной терминологии, применяемой в странах, помочь международному сотрудничеству и взаимной информации специалистов в области строительства и архитектуры.
Значимость любого терминологического словаря определяется тем, в какой мере он помогает пользователям в понимании необходимых им текстов по специальности, а также в порождении собственной профессиональной обусловленной речи. Словарь является представлением о слове как информационном комплексе, при котором термин рассматривается не только как член определённой понятийной системы, но и как полноправный член лексической системы.
Актуальность работы обусловлена растущей тенденцией к использованию терминологии при термин творчестве; представляется весьма закономерным и важным изучение терминов, образованных от имен собственных, их функционирования и формальных характеристик.
Объектом исследования являются методы сравнительно анализа извлечения терминологии.
Предмет исследования - применение программных методов для сравнительного анализа терминов.
Практическая значимость состоит в реализации программных методов по извлечению терминологии и сравнительного анализа.
Цель данной работы состоит в изучении методов сравнительного анализа по извлечению терминологии и написания программного кода на языке Python с автоматическим извлечением терминов.
Для проведения исследования был составлен текстовый корпус, содержащий термины, в основу текста легли архитектурно-строительные термины.
Исходя из поставленной цели, были сформулированы следующие задачи:
1. Провести обзор исследований методов сравнительного анализа по извлечению терминологии с помощью программного алгоритма.
2. Изучить программный алгоритм для сравнительного анализа по извлечению терминологии из текста.
3. Провести сравнительный анализ результатов программ, написанный на языке Python.
Настоящая работа состоит из введения, трёх глав, заключения, списка литературы. В первой главе рассматриваются теоретические вопросы, связанные с общей характеристикой терминологией, их формальной структурой и способами образования, а также освещается их употребления в специальной строительной литературе. Вторая глава посвящена автоматическому извлечению терминов; в ней приводится характеристика существующих программ и описывается программа, созданная в рамках данного исследования. В третьей главе описывается практическая часть алгоритмов Yake, TF-IDF, TextRank spaCy. Описывается формулы и получения результатов сравнительного анализа.
✅ Заключение
В данной работы были изучены основные характеристики терминологии как особого пласта языка, модели образования терминов и особенности их функционирования в языковой системе. Были исследованы способы формирования терминов на основе имен собственных и выделены наиболее продуктивные структурные схемы, среди которых стоит отметить словосочетания типа ‘существительное + прилагательное.
Примеры из таблицы выполнены на языке Python. В Python имеется большое количество библиотек для обработки естественного языка: сверх быстрой токенизации, анализа, лемматизации текстов и распознавания сущностей. Для извлечения исследуемых терминов были разработаны алгоритмы, которые в дальнейшем были реализованы на языке программирования Python с использованием библиотеки для обработки естественного языка.
Анализ полученных в ходе эксперимента результатов показал, что разработанные алгоритмы обладают рядом недостатков, но, тем не менее, демонстрируют неплохие результаты. Для усовершенствования работы программы было предложено подключение распознавателя именованных сущностей, создания словаря основ имен собственных и словаря слов, наиболее часто встречающихся в исследуемых терминологических словосочетаниях.
Таким образом, поставленные во введении настоящей работы задачи выполнены в полном объеме, сформированная цель достигнута.





