Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА СИСТЕМЫ ИЗВЛЕЧЕНИЯ СОБЫТИЙ ИЗ НОВОСТНЫХ ТЕКСТОВ

Работа №84461

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы34
Год сдачи2016
Стоимость4260 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
36
Не подходит работа?

Узнай цену на написание


СОДЕРЖАНИЕ 2
ВВЕДЕНИЕ 4
1. ПОСТАНОВКА ЗАДАЧИ 6
1.1 Подходы к извлечению событий 6
1.1.1 Извлечение событий на основе данных 6
1.1.2 Извлечение событий на основе знаний 7
1.1.3 Гибридное извлечение событий 8
1.2 Вывод 9
1.3 Техническое задание 9
1.3.1 Терминология 9
1.3.2 Извлечение событий 11
1.3.3 Паттерны 11
1.3.4 Цель работы 11
1.3.5 Задачи 11
2. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ 13
2.1 SemNews 13
2.2 ANNIE 14
2.3 SPEED 15
2.4 Извлечение событий на уровне пересечения событий 17
2.4.1 Исходная система на уровне предложения 17
2.4.2 Модуль сбора информации с учетом степени уверенности на уровне
документа 18
2.4.3 Классификатор статистического пересечения событий 18
2.4.4 Пометка события на уровне документа 19
2.5 Вывод неконтролируемого пересечения документа 20
2.5.1 Система пайплайна 20
2.5.2 Извлечение события в пределах предложения 20
2.5.3 Извлечение события в пределах предложения 22
2.5.4 Поиск информации 22
2.5.5 Неконтролируемый глобальный вывод 23
3. АЛГОРИТМ 24
3.1 Разделитель предложений 24
3.2 Токенайзер 25
3.3 Частеречная разметка 25
3.4 Газеттир 26
3.5 Распознавание события 27
4. АНАЛИЗ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ 29
4.1 Оценка качества 29
4.2 Описание данных 30
4.3 Эксперимент 31
ЗАКЛЮЧЕНИЕ 32
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

С увеличением количества данных и текстовой информации на естественном языке, использование извлеченной информации в процессах принятия решений становится все более актуальной и сложной. Повсеместной проблемой является тот факт, что большинство данных изначально являются неструктурированными, т.е. данные описываются с помощью естественного языка. Эта проблема мешает автоматизации процессов поиска информации и извлечения информации, которые используются для принятия решений с участием большого количества данных.
Идея автоматизации процессов поиска информации и извлечения информации понятна современному человеку. Автоматическое извлечение событий значительно облегчит обработку документов и анализ текстов на естественном языке, представленных в неструктурированном виде.
Извлечение событий из неструктурированных данных, таких как новостные сообщения, может быть полезным для систем извлечения информации в различных областях. Например, это могло бы повысить производительность новостных систем, т.к. новостные сообщения могут быть отобраны более точно, на основе пользовательских предпочтений и определенных событий. Кроме того, извлечение событий может быть применено в приложениях анализа рисков, системах мониторинга и системах поддержки принятия решений.
Извлечение событий также широко применяется в области алгоритмической торговли, где компьютерная система используется для ввода торговых заказов с компьютерным алгоритмом принятия решения по таким аспектам, как сроки, цена и заказываемое количество. Финансовые рынки чрезвычайно чувствительны к срочным новостям. Экономические события, такие как слияние и поглощение, дробление акций, извещение дивидендов и т.д., играют важную роль в принятии решений брокерами. Кроме того, будучи в состоянии обрабатывать новости быстрее, машины могут иметь дело с более значительными объемами формирующихся новостей, чем люди, таким образом, принимая более обоснованные решения.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В результате выполнения дипломной работы были разработаны и спроектированы архитектура и система извлечения событий из новостных текстов, которая значительно облегчит обработку документов и анализ текстов на естественном языке, представленных в неструктурированном виде.
В процессе выполнения дипломной работы были решены следующие задачи:
• Разработан компонент «Разделитель предложений»;
• Разработан компонент «Токенайзер»;
• Разработан компонент «Частеречная разметка»;
• Разработан компонент «Газеттир»;
• Построены паттерны;
• Выполнено извлечение событий на основе паттернов.
Был проведен эксперимент извлечения событий типа «Покупка» над текстовым корпусом новостных статей Российского информационного агентства «РИА Новости».
Для улучшения результатов извлечения событий планируется расширить морфологический словарь, корпус новостных текстов и добавить шаблоны других типов события.



1. Ferrucci, D., Lally, A.: UIMA: An Architectural Approach to Unstructured Information Processing in the Corporate Research Environment. Natural Language Engineering 10(3-4), 327-348 (2004).
2. Hogenboom, F., Frasincar, F., Kaymak, U., & De Jong, F. (2011). An overview of event extraction from text. In CEUR Workshop Proceedings (Vol. 779, pp. 48-57). CEUR-WS.
3. Java A, Finin T, Nirenburg S (2006) SemNews: a semantic news framework. In: Proceedings of the 21st national conference on artificial intelligence (AAAI 2006), pp 1939-1940.
4. Cunningham H., et al. (2016). Developing Language Processing Components with GATE (a User Guide) [Электронный ресурс] / Режим доступа:
http://www.gate.ac.uk/sale/tao/,свободный
5. Hogenboom, A., Hogenboom, F., Frasincar, F., Schouten, K., & van der Meer, O. (2013). Semantics-based information extraction for detecting economic events. Multimedia Tools and Applications, 64(1), 27-52. doi:10.1007/s11042- 012-1122-0.
6. Документация Java [Электронный ресурс] / Режим доступа: https://docs.oracle.com/javase/tutorial/,свободный.
7. Официальный сайт проекта «Открытый корпус» [Электронный ресурс] / Режим доступа:http://opencorpora.org/,свободный.
8. К. Маннинг, П. Рагхаван, Х.Шютце. Введение в информационный поиск. Пер. с англ. - М.: ООО "И.Д. Вильямс", 2011. - 528 с.
9. Российское информационное агентство «РИА Новости» [Электронный ресурс] / Режим доступа:http://ria.ru/,свободный.
10. J. Piskorski, H. Tanev, M. Atkinson and E. Van Der Goot(2008) Cluster¬centric approach to news event extraction. pp. 276-290.
11. J. Piskorski, H. Tanev and P. Oezden Wennerberg(2007) Extracting violent events from on-line news for ontology population. pp. 287-300.
12. H. Tanev, J. Piskorski and M. Atkinson(2008) Real-time news event extraction for global crisis monitoring. pp. 207-218.
13. R. Grishman, D. Westbrook and A. Meyers(2005) Nyu’s english ace 2005 system description.
14. Liao, S., York, N., & Grishman, R. (2010). Using Document Level Cross¬Event Inference to Improve Event Extraction. Computational Linguistics, (July), 789-797.
15. Ralph Grishman, David Westbrook and Adam Meyers. 2005. NYU’s English ACE 2005 System Description. In Proc. ACE 2005 Evaluation Workshop, Gaithersburg, MD.
16. Ji, H., Grishman, R.: Refining Event Extraction Through Unsupervised Cross-document Inference. In: Proceedings of ACL (2008).
17. Поисковая система INDRI - официальный сайт разработчиков [Электронный ресурс] / Режим доступа:http: //www. l emurproj ect. org/indri/,свободный.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ