Обозначения и сокращения 3
Введение 4
1. Обзор предметной области 6
2. Разработка новой модели 11
2.1 Входные слои 11
2.2 Bi-LSTM 13
2.3 Марковские случайные поля 16
2.4 Многозадачное обучение 16
3. Эксперименты 18
3.1 Метрики качества 18
3.2 Используемые коллекции текстов 19
3.3 Результаты 20
Заключение 24
Список использованных источников 25
Приложение
Распознавание именованных сущностей (NER) является одной из важнейших задач в области обработки естественного языка (NLP). Основная цель NER - извлечь и классифицировать важные именованные сущности для конкретной задачи. Именованные сущности - это слова или фразы, обозначающие определенный объект, например, имена людей, местоположения, организации, объекты, продукты, даты, геополитические объекты, праздники и т.п. NER применяется во многих областях, связанных с NLP и извлечением информации, таких как поиск информации, системы ответов на вопросы, классификация текста, извлечение отношений и т.д. Извлеченные именованные сущности помогают понять тему текста и найти ключевые слова. Продолжающийся рост неструктурированной информации, представленной текстом на естественном языке, и растущая потребность в извлечении из них структурированной информации делают задачу NER актуальной и важной.
Для решения проблемы NER были предложены различные подходы, начиная от простых подходов, основанных на словарях [3], и заканчивая более сложными моделями машинного обучения. Наиболее современной является модель, представленная в [4]. Модель основана на комбинации двунаправленной краткосрочной памяти (BiLSTM) и условного случайного поля (CRF).
Целями данной работы является разработка метода для извлечения именованных сущностей на основе глубокого обучения и подхода к многозадачному обучению, и последующая оценка его качества на нескольких наборах данных.
Объектом работы является система для автоматического извлечения именованных сущностей из текста на естественном языке.
Предметом работы является улучшение результатов NER для русского языка.
Для достижения поставленных целей необходимо было решить следующие задачи:
1. На основании результатов предыдущих работ по данному направлению выбрать наилучшую архитектуру нейронной сети;
2. разработать метод, допускающий многозадачное обучение такой модели;
3. реализовать разработанные методы в комплексах программ;
4. обучить полученные модели и произвести сравнение их качества на различных наборах данных.
В данной работе была исследована эффективность многозадачного подхода для задачи NER на русском языке. Были проведены эксперименты на трех наборах данных NER с различными типами объектов и набором данных POS.
Результаты показывают улучшение оценочных показателей в случае использования многозадачного режима. Сравнение полученных результатов с предыдущими подходами показывает увеличение метрик для двух наборов данных.
Также была оценена эффективность многозадачности для задач разметки NER и POS. Такой подход не привел к увеличению результатов.
Дальнейшая работа может быть посвящена улучшению CNN и LSTM частей предлагаемой модели и использованию механизмов внимания.