Тема: Использование деривационных преобразований терминоэлементов для автоматического поиска терминов (на материале медицинской терминологии)
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Основные понятия словообразования в общелитературном языке и
языках для специальных целей 7
1.1. Деривационные процессы 7
1.2. Понятия «мотивация» и «производность» 8
1.3. Особенности формирования словообразовательного значения 9
1.4. Классификация способов словообразования 10
1.4.1. Образование существительных 16
1.4.2. Образование глаголов 17
1.4.3. Образование прилагательных 17
2. Терминологический компонент содержания текста 20
2.1. Понятие «термин» и его определения 20
2.2. Терминоэлемент и его соотношение с термином 27
2.3. Основные особенности образования терминов 30
2.3.1. Способы терминообразования 31
2.3.2. Характерные черты медицинской терминологии 36
2.4. Подходы к автоматическому выделению терминов 42
2.4.1. Классификация подходов к автоматическому извлечению
терминологии 42
2.4.2. Системы автоматического извлечения терминологии 47
3. Использование деривационных преобразований терминоэлементов
для автоматического поиска терминов 59
3.1. Предварительная подготовка: анализ текста, выделение аффиксов и
опорных основ 60
3.2. Программа по автоматическому извлечению терминов 63
3.3. Анализ результатов эксперимента 67
Заключение 73
Список литературы 76
Приложение 1 76
Приложение 2 82
📖 Введение
Автоматическое извлечение терминологии - подзадача автоматического извлечения информации - область, развивающаяся в данный момент очень активно. Автоматическое извлечение информации, в общем, используется, например, для заполнения баз данных структурированной информацией или для усовершенствования информационного поиска. Автоматическое извлечение терминологии служит для создания словарей, тезаурусов, онтологий, помогает в разработке логико-понятийной системы конкретной области знания и унификации терминологии, используется при создании систем автоматического перевода, при создании баз знаний.
Активное развитие автоматического извлечения терминологии началось в конце 80х - начале 90х гг. XX века. В тот период стали появляться первые большие текстовые автоматически анализируемые корпусы и первые системы автоматического извлечения терминологии. В дальнейшем стало появляться множество систем извлечения терминологии, основанных на статистических и лингвистических данных, каждая из которых имеет ряд особенностей. Примеры таких систем будут приведены во 2 главе.
В нашей работе мы будем проводить эксперимент по извлечению только однословных терминов. Кроме того, мы будем рассматривать узко специальную область офтальмологии, что на данном этапе избавит нас от трудностей, связанных с определением предметной области текста.
Отличительной особенностью медицинской терминологии является то, что макросистема медицинской терминологии включает в себя множество микросистем, таких как эндокринологическая, дерматологическая,
анатомическая и др. Эти системы тесно связаны между собой, часто можно наблюдать пересечение этих систем. В то же время медицинская терминология пересекается с терминологическими системами таких наук, как биология и химия, что усложняет задачу автоматического определения предметной области и тематики текстов: медицинский текст может быть ошибочно отнесен к биологичкой или химической тематике.
Следует так же отметить, что наш алгоритм строится на предположении, что в текстах можно выделить целые деривационные ряды терминов, на основе которых и строится работа нашей программы.
Целью работы является разработка программы автоматического извлечения терминологии из медицинских текстов на основе деривационных преобразований терминоэлементов. Исходя из данной цели, а также учитывая указанные выше проблемы, формулируются следующие задачи:
1) анализ основных понятий словообразования;
2) анализ понятия «термин», его определений, составление списка основных характеристик термина, особенностей терминообразования;
3) описание особенностей медицинской терминологии;
4) описание подходов к автоматическому извлечению терминологии;
Предполагается также решение следующих практических задач:
1) создание корпуса медицинских текстов по офтальмологической тематике;
2) морфологический анализ корпуса с помощью морфологического анализатора;
3) проверка слов корпуса на предмет отсутствия анализа;
4) составление списка опорных основ и основных деривационных моделей, характерных для текстов по данной тематике;
5) создание программы по автоматическому извлечению терминологии на основе списков аффиксов и опорных основ и деривационных преобразований терминоэлементов.
Материалом для исследования корпус медицинских текстов по офтальмологии. Корпус был автоматически размечен морфологическим анализатором, после чего был разработан сам алгоритм выделения терминологии и реализована программа извлечения терминологии.
Актуальность данной работы обусловлена необходимостью создания процедуры автоматического извлечения терминологии из медицинских текстов на русском языке. Такая процедура даст возможность полуавтоматического составления словарей медицинских терминов, заполнения баз данных, улучшит качество поиска по текстам с медицинской тематикой, что, в свою очередь, позволит создать приложения для автоматического заполнения и ведения медицинских документов.
✅ Заключение
Были выполнены поставленные перед нами цели и задачи: результатом нашей работы стала программа по автоматическому извлечению однословных терминов из медицинских текстов.
При создания программы по автоматическому извлечению терминологии были предприняты следующие шаги: был создан корпус медицинских текстов по офтальмологической тематике, который впоследствии был разбит на два подкорпуса (тренировочный и тестовый подкорпусы); для обоих подкорпусов был проведен автоматический морфологический анализ с помощью морфологического анализатора; на основе проведенного морфологического анализа слов тренировочного подкорпуса были созданы списки префиксов, опорных основ и аффиксов; с помощью этих списков в дальнейшем проводилось собственно извлечение медицинской терминологии.
В ходе реализации алгоритма автоматического извлечения терминов мы столкнулись с рядом сложностей, некоторые из которых удалось решить в ходе работы, другие планируется решить в дальнейшем. Одной из проблем, которую нам удалось решить, была проблема лемматизации (приведения слов текста к начальной форме) для того, чтобы можно было удалить окончание и работать только с основой слова (это касается прилагательных). Проблема была решена применением специальной опции морфологического анализатора, позволяющей приводить в скобках лемму или гипотетическую лемму. Таким образом, поиск производился не по словоформам из текста, а по соответствующим леммам.
Как уже было упомянуто ранее, актуальность нашей работы обуславливается тем, то на данный момент существует потребность в создании системы по автоматическому извлечению терминологии из медицинских текстов. Появление такого инструмента способствовало бы дальнейшему развитию методов по созданию баз данных по медицинской тематике, автоматизированному составлению медицинских словарей и энциклопедий, способствовало бы улучшению качества поиска по медицинским текстам, и, как следствие, позволило бы усовершенствовать инструменты для автоматического заполнения медицинской документации и прочих структурированных форм по данной тематике.
В нашей работе была представлена реализация алгоритма выделения однословных терминов. В дальнейшем планируется расширить и модифицировать созданную нами программу для извлечения многословных терминов.



