Тип работы:	Предмет:	Язык работы:

Выделение именованных сущностей в текстовых документах

Работа №	141199
Тип работы	Бакалаврская работа
Предмет	информатика
Объем работы	25
Год сдачи	2016
Стоимость	4390 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	105

Не подходит работа?

Узнай цену на написание

Содержание

Введение 3
Постановка задачи 5
Глава 1. Теоретический обзор 6
1.1. Классификация. Формальная постановка задачи обучения 7
1.2. Методы выделения именованных сущностей 8
1.3. Признаковое пространство 9
1.4. Методы оценки систем распознавания 10
1.5. Википедия 11
1.6 Методы классификации Википедии 13
Глава 2. Разработка метода 15
2.1. Метод опорных векторов 15
2.2. Объединение методов 16
Глава 3. Реализация метода 19
3.1. Stanford NER 19
3.2. Обучение модели 19
3.3. Результаты эксперимента 20
Заключение 22
Список литературы

Введение

Объемы информации, текстовых документов повышаются. С каждым годом количество информации увеличивается. Данный процесс происходит по совершенно естественным причинам: мир растет и развивается, люди учатся и самосовершенствуются, пишут картины, сочиняют стихи, проводят научные исследования, etc. Всё это неуклонно повышает объемы информации.
Письменность давным-давно зарекомендовала себя как надёжный источник сохранения и передачи информации. Ещё совсем недавно, несколько сотен лет назад, объемы текстовой информации весьма эффективно регулировались по крайне прозаичной причине: дороговизна и сложность производства материала для записи. С изобретением и поразительно стремительным развитием цифровых запоминающих устройств и интернета, увеличение объемов информации приобретает лавинообразный характер. Уже сейчас для нормальной работы в Интернете жизненно необходимы методы поиска и извлечения информации.
Существует множество различных задач обработки естественного языка, вот несколько наиболее часто исследуемых задач:
1) Автоматическое реферирование(Automatic summarization) – создание читаемого краткого изложения текста.
2) Машинный перевод(Machine translation) – автоматический перевод с одного естественного языка на другой. Одна из наиболее сложных задач, считается, что она принадлежит к классу так называемых «AI-полных задач».
3) Морфологическая сегментация(Morphological segmentation) – разделение слов на морфемы. Сложность задачи целиком зависит от сложности морфологии рассматриваемого языка.
4) Частеречная разметка(Part-of-speech tagging) – задача определения части речи для поданного на вход предложения. Многие слова могут служить различными частями речи в зависимости от контекста.
5) Синтаксический анализ(Parsing) – создание синтаксического дерева, синтаксическую структуру входной последовательности и хорошо подходит для дальнейшей обработки.
6) Информационный поиск(Information retrieval) - процесс выявления в некотором множестве документов всех тех, которые удовлетворяют заранее определенному запросу.
7) Анализ тональности текста(Sentiment analysis) – определение и извлечение субъективной информации, обычно из множества документов. Часто используется для определения «полярности» отзывов. Особенно эффективно для распознания общественного мнения в социальных медиа.
8) Извлечение информации(Information extraction, IE) – извлечение структурированной семантической информации из текста.
Так же, помимо упомянутых выше, существует ещё множество задач и подзадач так или иначе связанных с обработкой естественных языков.
Термин «Named entity»(Именованная сущность, NE), который сейчас широко используется, впервые был введён в употребление на шестой Message Understanding Conference (MUC-6) в 1996 году. В то время конференция фокусировалась на задаче извлечения информации. В процессе определения задачи заметили, что необходимо уметь распознавать в тексте такие вещи как имена, организации, местоположения и числовые выражения, включая время, дату, деньги, etc. Идентификация ссылок на подобные сущности в тексте была определена как одна из важных подзадач IE и названа «Распознание именованных сущностей».
Решению данной задачи посвящено наше исследование.
Постановка задачи
Задача данной дипломной работы состоит в разработке метода извлечения именованных сущностей, который использует информацию, полученную из Википедии. Для этого требуется:
1. Исследовать существующие методы извлечения именованных сущностей и извлечения информации из Википедии.
2. Разработать метод извлечения именованных сущностей, который использует полученную из Википедии информацию. Метод должен
3. Выполнить программную реализацию разработанного метода,
4. Провести тестирование качества разработанного метода.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

Подводя итоги работы, можно сказать следующее:
Были исследованы существующие методы извлечения именованных сущностей и получения списков именованных сущностей из Википедии.
В рамках работы был предложен и реализован метод классификации Википедии по пяти классам, объединяющий классические подходы извлечения информации из Википедии.
Проведено тестирование качества разработанных методов с использованием набора данных и способа оценки качества, предложенных на конференции CoNLL’03.В результате, тестирование показало, что на данный момент он неконкурентоспособен по сравнению с уже реализованными моделями.
На данный момент вопрос улучшения качества предложенного метода остаётся открытым для дальнейшей работы.

Литература

1. Ada Brunstein. Annotation guidelines for answer types, 2002.
2. Sekine S., Nobata C. Definition, Dictionaries and Tagger for Extended Named Entity Hierarchy. // LREC. 2004.
3. L. F. Rau. Extracting company names from text. In Proc. of the Seventh Conference on Artificial Intelligence Applications CAIA-92 (Volume I: Technical Papers), pages 29–32, Miami Beach, FL, 1991.
4. H. L. Chieu. Named entity recognition with a maximum entropy approach. In In Proceedings of the Seventh Conference on Natural Language Learning (CoNLL-2003, pages 160–163, 2003
5. C. Sutton and A. McCallum. An Introduction to Conditional Random Fields for Relational Learning. In L. Getoor and B. Taskar, editors, Introduction to Statistical Relational Learning. MIT Press, 2006.
6. A. McCallum, W. Li. Early results for named entity recognition with conditional random fields. 2003.
7. R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu, P. Kuksa. Natural Language Processing (almost) from Scratch. Cornell University Library. Ithaca, New York, U.S. March 2011
8. Xiaodong He, Jianfeng Gao, Li Deng. Deep Learning for Natural Language Processing: Theory and Practice. Deep Learning Technology Center Microsoft Research, Redmond, WA. 2014
9. Nadeau D., Sekine S. A survey of named entity recognition and classification // Lingvisticae Investigationes. 2007. Vol. 30, no. 1. P. 3–26
10. Christopher Manning. Doing Named Entity Recognition? Don’t optimize for F1. August 2006
11. Iman Saleh, Kareem Darwish, and Aly Fahmy. Classifying wikipedia articles into ne’s using svm’s with threshold adjustment. In Proceedings of the 2010 Named Entities Workshop, NEWS ’10, pages 85–92, Stroudsburg, PA, USA, 2010. Association for Computational Linguistics.
12. Jun’ichi Kazama and Kentaro Torisawa. Exploiting Wikipedia as External Knowledge for Named Entity Recognition. In Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages 698– 707, 2007.
13. Razvan C. Bunescu and Marius Pasca. Using encyclopedic knowledge for named entity disambiguation. In EACL. The Association for Computer Linguistics, 2006.
14. Richman A. E., Schone P. Mining Wiki Resources for Multilingual Named Entity Recognition. // ACL. 2008. P. 1–9
15. Nothman J., Ringland N., Radford W. Learning multilingual named entity recognition from Wikipedia // Artificial Intelligence. 2013. Vol. 194. P. 151–175.
16. Nothman J., Curran J. R., Murphy T. Transforming Wikipedia into named entity training data // Proceedings of the Australian Language Technology Workshop. 2008. P. 124–132.
17. Kazama J., Torisawa K. Exploiting Wikipedia as external knowledge for named entity recognition // Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. 2007. P. 698–707.
18. Tardif S., Curran J. R., Murphy T. Improved text categorisation for Wikipedia named entities //Australasian Language Technology Association Workshop 2009. P. 104.

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Подобные работы

Выделение именованных сущностей в текстовых документах
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4310 р. Год сдачи: 2016
Выделение именованных сущностей в текстах системы документооборота
Бакалаврская работа, программирование. Язык работы: Русский. Цена: 4700 р. Год сдачи: 2020
ИЗВЛЕЧЕНИЕ БИОМЕДИЦИНСКИХ СУЩНОСТЕЙ НА ОСНОВЕ РЕКУРРЕНТНОЙ НЕЙРОННОЙ СЕТИ И ПЕРЕНОСА ОБУЧЕНИЯ
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 6500 р. Год сдачи: 2019
ИЗВЛЕЧЕНИЕ БИОМЕДИЦИНСКИХ СУЩНОСТЕЙ НА ОСНОВЕ РЕКУРРЕНТНОЙ НЕЙРОННОЙ СЕТИ И ПЕРЕНОСА ОБУЧЕНИЯ
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2019
Автоматическое выделение терминов, образованных от имен собственных
Бакалаврская работа, лингвистика. Язык работы: Русский. Цена: 4600 р. Год сдачи: 2018

Логин
Пароль

Выделение именованных сущностей в текстовых документах

Тип работы

Бакалаврская работа

Предмет

информатика

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

105

Подобные работы