Введение 4
ГЛАВА 1. АББРЕВИАТУРА КАК КОМПОНЕНТ
ТЕРМИНОСИСТЕМЫ ПРЕДМЕТНОЙ ОБЛАСТИ «БИОМЕДИЦИНА» 9
1.1. Аббревиатура как лингвистическое явление 9
1.2. Аббревиация как словообразовательный процесс 11
1.2.1. Аббревиация в структурном аспекте 11
1.2.2. Аббревиация в семантическом аспекте: компрессия 13
1.3. Причины аббревиации 15
1.3.1. Оптимизация коммуникации 15
1.3.2. Эвфемизация 17
1.4. Самостоятельность аббревиатуры в терминосистеме 17
1.5. Неоднозначная аббревиатура в терминосистеме 25
1.5.1. О подходе к термину и его природе 25
1.5.2. Специфика неоднозначности аббревиатуры в биомедицинской
терминосистеме 26
1.6. Выводы по Главе 1 29
ГЛАВА 2. РАЗРЕШЕНИЕ ЛЕКСИКО-СЕМАНТИЧЕСКОЙ
НЕОДНОЗНАЧНОСТИ: ОБЩИЕ ПОЛОЖЕНИЯ 30
2.1. Неоднозначность в естественном языке 30
2.2. Разрешение лексической неоднозначности (Word Sense
Disambiguation) 32
2.3. Методы WSD 35
2.3.1. Методы WSD, основанные на знаниях 35
2.3.2. WSD с учителем: теоретическая основа 36
2.3.3. WSD с учителем: методы 40
2.3.4. Обзор методов разрешения неоднозначности в
биомедицинских текстах 42
2.3.5. Обзор методов разрешения неоднозначности на материале
русского языка 46
2.4. Выводы по Главе 2 48
ГЛАВА 3. ЭКСПЕРИМЕНТЫ ПО АВТОМАТИЧЕСКОМУ
РАЗРЕШЕНИЮ НЕОДНОЗНАЧНОСТИ БИОМЕДИЦИНСКИХ АББРЕВИАТУР 49
3.1. Принцип работы алгоритма 49
3.2. Описание набора данных 50
3.2.1. Сбор корпуса 50
3.2.2. Структура корпуса и представление данных 53
3.3. Классификация контекстов, содержащих неоднозначные
аббревиатуры 55
3.3.1. Эксперименты по классификации на основе машины опорных
векторов (SVM) 55
3.3.2. Эксперименты по классификации на основе нейросетевой
модели RuBioBERT 61
3.3.3. Эксперименты с узким контекстным окном (BERT) 63
3.4. Выводы по Главе 3 68
Заключение 71
Библиография 73
Список литературы 73
Словари 84
Набор данных 84
Источники материалов исследования 84
Модели и алгоритмы машинного обучения 85
Приложение 86
Настоящая работа посвящена разрешению неоднозначности аббревиатур в биомедицинских текстах с помощью классических алгоритмов машинного обучения и нейросетевых моделей. Таким образом, объектом работы является неоднозначная инициальная аббревиатура как часть терминосистемы предметной области «биомедицина», а предметом - роль аббревиатуры в биомедицинской терминосистеме, специфика самого домена, взаимоотношения аббревиатуры и соответствующей полной формы терминологического словосочетания, основные проблемы и методы автоматического разрешения неоднозначности в узкоспециальных текстах, а также вопросы технической реализации этого процесса средствами NLP.
Актуальность работы обусловлена рядом факторов. Во-первых, аббревиатуры представляют интерес для задачи разрешения неоднозначности не только в узкоспециальных текстах, но и на текстах общей направленности. Это обусловлено прежде всего компрессивной природой сложносокращенных терминов - так, в ходе аббревиации терминологическое словосочетание преобразуется в краткую последовательность графем. Очевидно, что число возможных комбинаций между символами алфавита на несколько порядков меньше числа комбинаций между словоформами определенного языка — таким образом, процесс аббревиации чисто комбинаторно повышает вероятность возникновения неоднозначности.
Кроме того, современная биомедицинская сфера отличается огромной продуктивностью в плане создания текстов разных жанров и форм — клинические заметки, научные и научно-популярные статьи, инструкции к препаратам, техническая документация и т.д. Постоянно растущее количество разноплановых текстов этого домена, а также электронный формат ведения отчетности, принятый в большинстве медицинских учреждений, обуславливает потребность в автоматическом анализе биомедицинских текстов. Модуль разрешения неоднозначности является неотъемлемой частью автоматического анализа текста на любом уровне - известно, что языковая неоднозначность является помехой для автоматической аннотации, парсинга и т.д. Биомедицинские тексты сами со себе характеризуются довольно высоким процентом неоднозначности (по оценкам [Пашук и др. 2019], биомедицинские термины неоднозначны в 11,7%), а сложносокращенные термины, за счет своей коммуникативной эффективности, в них встречаются достаточно часто - из чего следует, что разработка методов дизамбигуации имеет высокую практическую ценность.
Стоит также отметить, что проблема автоматического анализа аббревиатур в русскоязычных текстах, причем как общей тематики, так и узкоспециальных, является недостаточно разработанной. На материале русского языка проблемы NLP в биомедицинской сфере поднимаются в основном в контексте задач NER (Named Entity Recognition) - к примеру, для задачи извлечения вложенных именованных сущностей существует размеченный набор данных NEREL-BIO [Loukachevitch et al. 2022], на котором также проводились эксперименты по нормализации биомедицинских концептов на русском языке с использованием разметки UMLC [Loukachevitch, Sakhovskiy, Tutubalina 2024]. Задача WSD на русскоязычных биомедицинских текстах, равно как и на сложносокращенных единицах, ранее не решалась; не существует и специальных лексических или корпусных ресурсов, посвященных этой задаче и домену.
Для настоящей работы был собран оригинальный набор данных, содержащий неоднозначные аббревиатуры и размеченные контексты, в которых реализуются их значения - это первый датасет такой структуры и наполнения, доступный для русского языка. Набор данных пригоден для дальнейшего тестирования классификационных моделей, а также и других задач NLP.
Поскольку разрешение неоднозначности, как и многие другие разделы NLP, чувствительно к домену, разработка инструмента для разрешения неоднозначности биомедицинских аббревиатур будет представлять собой оригинальную задачу, отличную от разработки аналогичного инструмента для текстов общей тематики. Кроме того, представляет интерес протестировать качество работы основных алгоритмов машинного обучения и нейросетевых моделей на узкоспециальном материале.
Упомянем, что в сфере NLP проблема дизамбигуации аббревиатур имеет междисциплинарный потенциал. Во-первых, разрешение неоднозначности в NLP редко понимается как самоцель - конечным итогом разработки любой системы такого типа будет включение ее в какой-либо более глобальный инструмент для автоматического анализа текста. Так, обычно системы дизамбигуации используются как промежуточное звено в инструментах для синтаксического парсинга, извлечения информации или машинного перевода. Также, аббревиатура в медицинском тексте является, по сути, именованной сущностью, что делает возможным использование результатов настоящей работы для решения задач NER (Named Entity Recognition) или Entity Linking.
Таким образом, настоящая работа имеет несколько практических и теоретических применений: набор данных, собранный в процессе выполнения работы не только пополняет список размеченных структурированных ресурсов по биомедицине, доступных на русском языке, но и пригоден для тестирования других NLP-инструментов и тонкой настройки нейросетевых моделей; тестирование классических и нейросетевых алгоритмов машинного обучения на наборе данных станет первым опытом разработки инструмента для дизамбигуации биомедицинских аббревиатур для русского языка. Также, новизна нашей задачи обязывает нас сделать несколько общих выводов о ее специфике: в частности, прояснить особенности разрешения неоднозначности на сложносокращенных терминах и на терминологических текстах, чтобы получить представление о том, какие модели и какое представление исходных данных является более пригодным для задачи, какие результаты в принципе достижимы на нашем материале, какие характерные особенности домена представляют наибольшие трудности и какими могут быть пути улучшения подобных моделей. Результаты, полученные в настоящей работе могут быть применены в некоторых смежных сферах NLP.
Целью данной работы является тестирование классификационных моделей для разрешения неоднозначности аббревиатур в биомедицинских текстах на русском языке.
Поставленная цель предполагает решение ряда задач:
• теоретическое описание аббревиатуры как компонента терминосистемы;
• обзор основных теоретических положений разрешения неоднозначности как подсферы NLP;
• обзор основных методов разрешения неоднозначности на текстах биомедицинского домена;
• сбор данных: формирование корпуса неоднозначных биомедицинских аббревиатур;
• тестирование линейного классификатора и предобученной нейросетевой модели на корпусе;
• анализ результатов классификации относительно специфики домена.
Работа состоит из трех глав, введения, заключения, списка литературы и приложения. Список литературы включает 100 наименований, из них 48 на английском языке. Основные положения работы и предварительные результаты экспериментов были представлены в докладе «Автоматическое разрешение неоднозначности аббревиатур в русскоязычных медицинских текстах: первые итоги» на конференции «Конкорт - 2024» (Москва, 18-20 апреля 2024 г).
В ходе проведенного исследования была достигнута цель - протестировать классификационные модели для разрешения неоднозначности аббревиатур в биомедицинских текстах на русском языке. Все поставленные задачи были успешно решены.
В первой главе было дано теоретическое описание аббревиатуры как компонента терминосистемы: были оговорены терминологические вопросы, дана краткая структурная классификация сложносокращенных единиц в терминосистемах, описаны основные механизмы аббревиации как словообразовательного процесса - в структурном и семантическом аспекте, прокомментированы коммуникативные цели процесса. Также была дана характеристика аббревиатурному термину как самостоятельному компоненту терминосистемы, отличающегося семантически и функционально от соответствующей полной формы термина; оговорена важность этих теоретических положений для некоторых методологических решений, которые были приняты на практическом этапе работы. Отдельно была охарактеризована непосредственно неоднозначность аббревиатур в русскоязычных биомедицинских текстах.
Во второй главе была дана характеристика неоднозначности как феномену естественного языка, распространенному как в текстах общей тематики, так и в языках для специальных целей и обоснована важность проблемы дизамбигуации в задачах обработки естественного языка. Также были изложены основные теоретические положения задачи разрешения лексико-семантической неоднозначности (WSD, Word Sense Disambiguation) как подсферы NLP: ее роль относительно других задач автоматического анализа текста, основные проблемы и их причины, формулировка задачи в терминах машинного обучения. Кратко описаны основные методы WSD, основанные на высокоструктурированных лексических ресурсах, а также методы WSD с учителем (с использованием классических методов машинного обучения и нейронных сетей). Изложены основные положения дистрибутивной семантики как теоретической базы для классификационных методов разрешения неоднозначности, применяемых в практической части работы. Описаны основные принципы представления данных в обучении таких моделей. Наконец, дан сжатый обзор методов и техник WSD в биомедицинских текстах (на материале английского языка), и основных экспериментов по разрешению неоднозначности на материале русского языка. На основе теоретических положений и обзора литературы обоснован выбор классификационных моделей, применяемых в практической части работы.
В третьей главе описаны эксперименты по автоматическому разрешению неоднозначности аббревиатур в русскоязычных биомедицинских текстах. Изложен принцип работы классификаторов, описан процесс сбора данных - перечислены источники информации, методы и техники сбора контекстов, конвертация выгруженных текстов в определенный формат. Детально описана структура корпуса и представление данных. Наконец, описаны два эксперимента - на классическом алгоритме машинного обучения SVM и на предобученной нейросетевой модели RuBioBERT, дана сводная таблица результатов и прокомментированы потенциальные факторы, оказывающие влияние на классификацию. На модели RuBioBERT также проведены эксперименты с узким и широким контекстным окном, призванные исследовать влияние локального и глобального контекста на дизамбигуацию наших данных.
Библиография
Список литературы
1. Авербух К. Я. Лексическая и терминологическая вариантность. //Язык медицины: международный межвузовский сборник научных трудов в честь юбилея В.Ф. Новодрановой. 2015. C. 6-14.
2. Авербух К. Я. Терминологическая вариантность: теоретический и прикладной аспекты //Вопросы языкознания. 1986. №. 6. С. 38-49.
3. Азарова И. В. и др. Разработка компьютерного тезауруса русского языка типа WordNet //Доклады науч. конф. «Корпусная лингвистика и лингвистические базы данных» /под ред. А. C. Герда. СПб.: Изд-во Санкт-Петербургского университета. 2002. С. 6-18.
4. Азарова И. В., Иванов В. Л., Овчинникова Е. А. Использование схемы наследования рамок валентностей в тезаурусе RussNet для автоматического анализа текста // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог». 2006. С. 18-25.
5. Азарова И. В., Марина А. С. Автоматизированная классификация контекстов при подготовке данных для компьютерного тезауруса RussNet //Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог». 2006. С. 13-17.
6. Азарова И. В., Марина А. С. Автоматизированная классификация контекстов при подготовке данных для компьютерного тезауруса RussNet //Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог-2006».
2006. С. 13-17.
7. Азарова И. В., Митрофанова О. А., Синопальникова А. А., Ушакова А. А., Яворская М. В. Разработка компьютерного тезуаруса русского языка типа WordNet // Материалы конференции «Корпусная лингвистика и лингвистические базы данных». СПб., 2002. С. 6-18
8. Алексеев Д. И., Борисов В. В.. Аббревиация в условиях научно-технической революции. // Научно-техническая революция и функционирование языков мира. Под. ред. М.: Наука, 1977. С. 213-217
9. Алексеев Д. И.. Сокращенные слова в русском языке. М.: Книжный дом «ЛИБРОКОМ», 2019. 346 с.
10. Алексеева Л. М. Проблемы термина и терминообразования. Пермь: ПГНИУ, 1998. 120 с.
11. Апресян Ю. Д. Избранные труды, том I //Лексическая семантика. 1995. Т. 2.
12. Арзуманов Г. Г. Сложносокращенное словообразование в современной научно-технической терминологии. АКД. Баку, 1976.
13. Ахманова О. С. Естественные языки и постановка проблемы создания искусственного вспомогательного языка в эпоху научно-технической революции. // Научно-техническая революция и функционирование языков мира. М.: Наука. 1977. С. 37-41.
14. Беляева В. А. Сложносокращённые слова в лексико-графическом и когнитивном аспектах на материале русского и английского языков. АКД. Барнаул: Бийский педагогический государственный университет им. В.М. Шукшина, 2003. 20 с.
15. Блинова О. В., Белов С. А. Языковая неоднозначность и неопределенность в русских правовых текстах //Вестник Санкт-Петербургского университета. Право. 2020. Т. 11. №. 4. С. 774-812.
16. Большина А. С. Создание псевдоаннотированного обучающего корпуса для задачи разрешения лексической неоднозначности с помощью ансамбля моделей //Интеллектуальные системы. Теория и приложения. 2022. Т 26. №. 1. С. 185-189.
17. Большина А. С., Лукашевич Н. В. Разрешение неоднозначности на основе псевдоаннотированной коллекции //Труды Института системного программирования РАН. - 2022. Т. 33. №. 6. С. 193-204.
18. Борисов В. В. Аббревиация и акронимия. Военные и научно-технические сокращения. М.: Воениздат, 1972.
19. Горбачевич К. С. Вариантность слова как лексико-грамматический феномен (на материале современного русского языка) //Вопросы языкознания. 1975. №. 1. С. 55-64.
20. Гринев С. В., Сорокина Э. А. О состоянии медицинской терминологии//Язык медицины: международный межвузовский сборник научных трудов в честь юбилея В.Ф. Новодрановой. - Самара: KRYPTEN-Волга, 2015. C. 40-50.
... Всего источников –108.