СОДЕРЖАНИЕ 2
ВВЕДЕНИЕ 4
1. ПОСТАНОВКА ЗАДАЧИ 6
1.1 Подходы к извлечению событий 6
1.1.1 Извлечение событий на основе данных 6
1.1.2 Извлечение событий на основе знаний 7
1.1.3 Гибридное извлечение событий 8
1.2 Вывод 9
1.3 Техническое задание 9
1.3.1 Терминология 9
1.3.2 Извлечение событий 11
1.3.3 Паттерны 11
1.3.4 Цель работы 11
1.3.5 Задачи 11
2. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ 13
2.1 SemNews 13
2.2 ANNIE 14
2.3 SPEED 15
2.4 Извлечение событий на уровне пересечения событий 17
2.4.1 Исходная система на уровне предложения 17
2.4.2 Модуль сбора информации с учетом степени уверенности на уровне
документа 18
2.4.3 Классификатор статистического пересечения событий 18
2.4.4 Пометка события на уровне документа 19
2.5 Вывод неконтролируемого пересечения документа 20
2.5.1 Система пайплайна 20
2.5.2 Извлечение события в пределах предложения 20
2.5.3 Извлечение события в пределах предложения 22
2.5.4 Поиск информации 22
2.5.5 Неконтролируемый глобальный вывод 23
3. АЛГОРИТМ 24
3.1 Разделитель предложений 24
3.2 Токенайзер 25
3.3 Частеречная разметка 25
3.4 Газеттир 26
3.5 Распознавание события 27
4. АНАЛИЗ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ 29
4.1 Оценка качества 29
4.2 Описание данных 30
4.3 Эксперимент 31
ЗАКЛЮЧЕНИЕ 32
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
С увеличением количества данных и текстовой информации на естественном языке, использование извлеченной информации в процессах принятия решений становится все более актуальной и сложной. Повсеместной проблемой является тот факт, что большинство данных изначально являются неструктурированными, т.е. данные описываются с помощью естественного языка. Эта проблема мешает автоматизации процессов поиска информации и извлечения информации, которые используются для принятия решений с участием большого количества данных.
Идея автоматизации процессов поиска информации и извлечения информации понятна современному человеку. Автоматическое извлечение событий значительно облегчит обработку документов и анализ текстов на естественном языке, представленных в неструктурированном виде.
Извлечение событий из неструктурированных данных, таких как новостные сообщения, может быть полезным для систем извлечения информации в различных областях. Например, это могло бы повысить производительность новостных систем, т.к. новостные сообщения могут быть отобраны более точно, на основе пользовательских предпочтений и определенных событий. Кроме того, извлечение событий может быть применено в приложениях анализа рисков, системах мониторинга и системах поддержки принятия решений.
Извлечение событий также широко применяется в области алгоритмической торговли, где компьютерная система используется для ввода торговых заказов с компьютерным алгоритмом принятия решения по таким аспектам, как сроки, цена и заказываемое количество. Финансовые рынки чрезвычайно чувствительны к срочным новостям. Экономические события, такие как слияние и поглощение, дробление акций, извещение дивидендов и т.д., играют важную роль в принятии решений брокерами. Кроме того, будучи в состоянии обрабатывать новости быстрее, машины могут иметь дело с более значительными объемами формирующихся новостей, чем люди, таким образом, принимая более обоснованные решения.
В результате выполнения дипломной работы были разработаны и спроектированы архитектура и система извлечения событий из новостных текстов, которая значительно облегчит обработку документов и анализ текстов на естественном языке, представленных в неструктурированном виде.
В процессе выполнения дипломной работы были решены следующие задачи:
• Разработан компонент «Разделитель предложений»;
• Разработан компонент «Токенайзер»;
• Разработан компонент «Частеречная разметка»;
• Разработан компонент «Газеттир»;
• Построены паттерны;
• Выполнено извлечение событий на основе паттернов.
Был проведен эксперимент извлечения событий типа «Покупка» над текстовым корпусом новостных статей Российского информационного агентства «РИА Новости».
Для улучшения результатов извлечения событий планируется расширить морфологический словарь, корпус новостных текстов и добавить шаблоны других типов события.