Глоссарий 3
Введение 5
1. Обзор предметной области 7
1.1. Задача извлечения именованных сущностей 7
1.2. Разметка текста 7
1.3. CoNLL формат 9
1.4. Векторное представление слов 10
1.5. Методы оценки систем извелечения именованных сущностей . 13
2. Исследование и построение решения 15
2.1. Машинное обучение 15
2.1.1. Традиционные и рекуррентные нейронные сети 15
2.1.2. Проблема долговременных зависимостей 16
2.1.3. Сети LSTM 17
2.2. Перенос обучения 18
3. Описание практической части 21
3.1. Установка библиотеки Saber 21
3.1.1. Подготовка информации 22
3.1.2. Параметры файлов конфигурации 24
3.1.3. Просчёт вычислений на графическом процессоре 25
3.2. Эксперименты 26
3.2.1. Эксперименты на отдельных коллекциях 26
3.2.2. С переносом обучения 27
3.2.3. Оценка полученных результатов 28
Заключение 32
Список литературы 33
За счёт ежегодного прироста в увеличении количества информации по данным доклада DC «Эра данных 2025» [16] становится всё сложнее и сложнее обрабатывать получаемую информацию. Так как большая часть этой информации представлена в текстовой форме, задачи по поиску в неструктурированном тексте и последующий анализ данных приобретают всё более важное значенние.
Извлечение именованных сущностей является типичной подзадачей извлечения информации, которая в свою очередь является разновидностью информационного поиска и осуществляет обработку текстов на естественном языке. Извлечение сущностей представляет собой нахождение границ именных сущностей в неструктурированном тексте и их классификация по заранее известным группам, чаще всего по одной, и была впервые поставлена на конференции Message Understanding Conference (MUC) в 1996 [7]. Позднее она рассматривалась на конференциях Conference on Computational Natural Language Learning (CoNLL) [17].
Сегодня можно выделить два подхода к решению данной задачи:
• Составление правил и эвристик, а затем преобразование их в алгоритмы.
• Машинное обучение на наборе заранее размеченных документов.
Данная работа посвящена обзору и использованию методов машинного
обучения для выделения именованных сущностей из биомедицинских текстов на английском языке. Эксперименты проводятся на опубликованных в свободном доступе корпусах для задачи извлечения именованных сущностей.
Работа состоит из 3 разделов. Первый посвящен обзору предметной области. Второй раздел представляет собой описание исследования и методологического построения основ для решения задачи выделения именованных сущностей. Третий раздел описывает практическую часть работы и полученные результаты. Заключение включает основные достижения и план дальнейшей работы.
Цель работы. Исследование модели рекуррентной нейронной сети в контексте задачи извлечения именованных сущностей с переносом обучения.
Задачи работы:
• Исследовать предметную область и сформулировать стратегии обучения
• Установить и настроить библиотеку Saber [5]
• Подготовить данные в формате CoNLL
• Провести эксперименты без предварительной настройке весов
• Повторить эксперименты, используя модель, обученную на корпусе CADEC, для переноса обучения
• Проанализировать полученные результаты
Объект исследования. Англоязычные неструктироврованные коллекции биомедицинских текстов на естественном языке.
Предмет исследования. Задача выделения именных сущностей из неструктурированных текстов на естественном языке.
В рамках данной работы была исследована задача извлечения биомедецинских сущностей из неструктурированных текстов на естественном языке (английском) на основе рекуррентной нейронной сети и переноса обучения. Была изучена предметная область, сформулированы стратегии обучения, а затем проведены множественные эксперименты с различными параметрами настройки на нескольких корпусах, находящихся в свободном доступе. Анализ результатов показал правильность стратегий обучения, выбранных на этапе исследования и построения решения данной задачи.
Таким образом, все цели работы были выполнены: была исследована предметная область и сформулированы стратегии обучения, была установлена и настроена библиотека Saber, были подготовлены данные в формате CoNLL, было обучено несколько моделей с использованием разных стратегий обучения, полученные данные проанализированы.