Тема: ИЗВЛЕЧЕНИЕ БИОМЕДИЦИНСКИХ СУЩНОСТЕЙ НА ОСНОВЕ РЕКУРРЕНТНОЙ НЕЙРОННОЙ СЕТИ И ПЕРЕНОСА ОБУЧЕНИЯ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 5
1. Обзор предметной области 7
1.1. Задача извлечения именованных сущностей 7
1.2. Разметка текста 7
1.3. CoNLL формат 9
1.4. Векторное представление слов 10
1.5. Методы оценки систем извелечения именованных сущностей . 13
2. Исследование и построение решения 15
2.1. Машинное обучение 15
2.1.1. Традиционные и рекуррентные нейронные сети 15
2.1.2. Проблема долговременных зависимостей 16
2.1.3. Сети LSTM 17
2.2. Перенос обучения 18
3. Описание практической части 21
3.1. Установка библиотеки Saber 21
3.1.1. Подготовка информации 22
3.1.2. Параметры файлов конфигурации 24
3.1.3. Просчёт вычислений на графическом процессоре 25
3.2. Эксперименты 26
3.2.1. Эксперименты на отдельных коллекциях 26
3.2.2. С переносом обучения 27
3.2.3. Оценка полученных результатов 28
Заключение 32
Список литературы 33
📖 Введение
Извлечение именованных сущностей является типичной подзадачей извлечения информации, которая в свою очередь является разновидностью информационного поиска и осуществляет обработку текстов на естественном языке. Извлечение сущностей представляет собой нахождение границ именных сущностей в неструктурированном тексте и их классификация по заранее известным группам, чаще всего по одной, и была впервые поставлена на конференции Message Understanding Conference (MUC) в 1996 [7]. Позднее она рассматривалась на конференциях Conference on Computational Natural Language Learning (CoNLL) [17].
Сегодня можно выделить два подхода к решению данной задачи:
• Составление правил и эвристик, а затем преобразование их в алгоритмы.
• Машинное обучение на наборе заранее размеченных документов.
Данная работа посвящена обзору и использованию методов машинного
обучения для выделения именованных сущностей из биомедицинских текстов на английском языке. Эксперименты проводятся на опубликованных в свободном доступе корпусах для задачи извлечения именованных сущностей.
Работа состоит из 3 разделов. Первый посвящен обзору предметной области. Второй раздел представляет собой описание исследования и методологического построения основ для решения задачи выделения именованных сущностей. Третий раздел описывает практическую часть работы и полученные результаты. Заключение включает основные достижения и план дальнейшей работы.
Цель работы. Исследование модели рекуррентной нейронной сети в контексте задачи извлечения именованных сущностей с переносом обучения.
Задачи работы:
• Исследовать предметную область и сформулировать стратегии обучения
• Установить и настроить библиотеку Saber [5]
• Подготовить данные в формате CoNLL
• Провести эксперименты без предварительной настройке весов
• Повторить эксперименты, используя модель, обученную на корпусе CADEC, для переноса обучения
• Проанализировать полученные результаты
Объект исследования. Англоязычные неструктироврованные коллекции биомедицинских текстов на естественном языке.
Предмет исследования. Задача выделения именных сущностей из неструктурированных текстов на естественном языке.
✅ Заключение
Таким образом, все цели работы были выполнены: была исследована предметная область и сформулированы стратегии обучения, была установлена и настроена библиотека Saber, были подготовлены данные в формате CoNLL, было обучено несколько моделей с использованием разных стратегий обучения, полученные данные проанализированы.



