Тип работы:
Предмет:
Язык работы:


Выделение именованных сущностей в текстовых документах

Работа №141199

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы25
Год сдачи2016
Стоимость4390 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
31
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Глава 1. Теоретический обзор 6
1.1. Классификация. Формальная постановка задачи обучения 7
1.2. Методы выделения именованных сущностей 8
1.3. Признаковое пространство 9
1.4. Методы оценки систем распознавания 10
1.5. Википедия 11
1.6 Методы классификации Википедии 13
Глава 2. Разработка метода 15
2.1. Метод опорных векторов 15
2.2. Объединение методов 16
Глава 3. Реализация метода 19
3.1. Stanford NER 19
3.2. Обучение модели 19
3.3. Результаты эксперимента 20
Заключение 22
Список литературы


Объемы информации, текстовых документов повышаются. С каждым годом количество информации увеличивается. Данный процесс происходит по совершенно естественным причинам: мир растет и развивается, люди учатся и самосовершенствуются, пишут картины, сочиняют стихи, проводят научные исследования, etc. Всё это неуклонно повышает объемы информации.
Письменность давным-давно зарекомендовала себя как надёжный источник сохранения и передачи информации. Ещё совсем недавно, несколько сотен лет назад, объемы текстовой информации весьма эффективно регулировались по крайне прозаичной причине: дороговизна и сложность производства материала для записи. С изобретением и поразительно стремительным развитием цифровых запоминающих устройств и интернета, увеличение объемов информации приобретает лавинообразный характер. Уже сейчас для нормальной работы в Интернете жизненно необходимы методы поиска и извлечения информации.
Существует множество различных задач обработки естественного языка, вот несколько наиболее часто исследуемых задач:
1) Автоматическое реферирование(Automatic summarization) – создание читаемого краткого изложения текста.
2) Машинный перевод(Machine translation) – автоматический перевод с одного естественного языка на другой. Одна из наиболее сложных задач, считается, что она принадлежит к классу так называемых «AI-полных задач».
3) Морфологическая сегментация(Morphological segmentation) – разделение слов на морфемы. Сложность задачи целиком зависит от сложности морфологии рассматриваемого языка.
4) Частеречная разметка(Part-of-speech tagging) – задача определения части речи для поданного на вход предложения. Многие слова могут служить различными частями речи в зависимости от контекста.
5) Синтаксический анализ(Parsing) – создание синтаксического дерева, синтаксическую структуру входной последовательности и хорошо подходит для дальнейшей обработки.
6) Информационный поиск(Information retrieval) - процесс выявления в некотором множестве документов всех тех, которые удовлетворяют заранее определенному запросу.
7) Анализ тональности текста(Sentiment analysis) – определение и извлечение субъективной информации, обычно из множества документов. Часто используется для определения «полярности» отзывов. Особенно эффективно для распознания общественного мнения в социальных медиа.
8) Извлечение информации(Information extraction, IE) – извлечение структурированной семантической информации из текста.
Так же, помимо упомянутых выше, существует ещё множество задач и подзадач так или иначе связанных с обработкой естественных языков.
Термин «Named entity»(Именованная сущность, NE), который сейчас широко используется, впервые был введён в употребление на шестой Message Understanding Conference (MUC-6) в 1996 году. В то время конференция фокусировалась на задаче извлечения информации. В процессе определения задачи заметили, что необходимо уметь распознавать в тексте такие вещи как имена, организации, местоположения и числовые выражения, включая время, дату, деньги, etc. Идентификация ссылок на подобные сущности в тексте была определена как одна из важных подзадач IE и названа «Распознание именованных сущностей».
Решению данной задачи посвящено наше исследование. 
Постановка задачи
Задача данной дипломной работы состоит в разработке метода извлечения именованных сущностей, который использует информацию, полученную из Википедии. Для этого требуется:
1. Исследовать существующие методы извлечения именованных сущностей и извлечения информации из Википедии.
2. Разработать метод извлечения именованных сущностей, который использует полученную из Википедии информацию. Метод должен
3. Выполнить программную реализацию разработанного метода,
4. Провести тестирование качества разработанного метода.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Подводя итоги работы, можно сказать следующее:
Были исследованы существующие методы извлечения именованных сущностей и получения списков именованных сущностей из Википедии.
В рамках работы был предложен и реализован метод классификации Википедии по пяти классам, объединяющий классические подходы извлечения информации из Википедии.
Проведено тестирование качества разработанных методов с использованием набора данных и способа оценки качества, предложенных на конференции CoNLL’03.В результате, тестирование показало, что на данный момент он неконкурентоспособен по сравнению с уже реализованными моделями.
На данный момент вопрос улучшения качества предложенного метода остаётся открытым для дальнейшей работы.



1. Ada Brunstein. Annotation guidelines for answer types, 2002.
2. Sekine S., Nobata C. Definition, Dictionaries and Tagger for Extended Named Entity Hierarchy. // LREC. 2004.
3. L. F. Rau. Extracting company names from text. In Proc. of the Seventh Conference on Artificial Intelligence Applications CAIA-92 (Volume I: Technical Papers), pages 29–32, Miami Beach, FL, 1991.
4. H. L. Chieu. Named entity recognition with a maximum entropy approach. In In Proceedings of the Seventh Conference on Natural Language Learning (CoNLL-2003, pages 160–163, 2003
5. C. Sutton and A. McCallum. An Introduction to Conditional Random Fields for Relational Learning. In L. Getoor and B. Taskar, editors, Introduction to Statistical Relational Learning. MIT Press, 2006.
6. A. McCallum, W. Li. Early results for named entity recognition with conditional random fields. 2003.
7. R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu, P. Kuksa. Natural Language Processing (almost) from Scratch. Cornell University Library. Ithaca, New York, U.S. March 2011
8. Xiaodong He, Jianfeng Gao, Li Deng. Deep Learning for Natural Language Processing: Theory and Practice. Deep Learning Technology Center Microsoft Research, Redmond, WA. 2014
9. Nadeau D., Sekine S. A survey of named entity recognition and classification // Lingvisticae Investigationes. 2007. Vol. 30, no. 1. P. 3–26
10. Christopher Manning. Doing Named Entity Recognition? Don’t optimize for F1. August 2006
11. Iman Saleh, Kareem Darwish, and Aly Fahmy. Classifying wikipedia articles into ne’s using svm’s with threshold adjustment. In Proceedings of the 2010 Named Entities Workshop, NEWS ’10, pages 85–92, Stroudsburg, PA, USA, 2010. Association for Computational Linguistics.
12. Jun’ichi Kazama and Kentaro Torisawa. Exploiting Wikipedia as External Knowledge for Named Entity Recognition. In Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages 698– 707, 2007.
13. Razvan C. Bunescu and Marius Pasca. Using encyclopedic knowledge for named entity disambiguation. In EACL. The Association for Computer Linguistics, 2006.
14. Richman A. E., Schone P. Mining Wiki Resources for Multilingual Named Entity Recognition. // ACL. 2008. P. 1–9
15. Nothman J., Ringland N., Radford W. Learning multilingual named entity recognition from Wikipedia // Artificial Intelligence. 2013. Vol. 194. P. 151–175.
16. Nothman J., Curran J. R., Murphy T. Transforming Wikipedia into named entity training data // Proceedings of the Australian Language Technology Workshop. 2008. P. 124–132.
17. Kazama J., Torisawa K. Exploiting Wikipedia as external knowledge for named entity recognition // Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2007. P. 698–707.
18. Tardif S., Curran J. R., Murphy T. Improved text categorisation for Wikipedia named entities //Australasian Language Technology Association Workshop 2009. P. 104.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ