📄Работа №70543

Тема: ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ

📝

Тип работы Магистерская диссертация

📚

Предмет филология

📄

Объем: 45 листов

📅

Год: 2017

👁️

4800 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение
1. Особенности предметной области
2. Основные методы извлечения ИС
2.1 Подходы к извлечению именованных сущностей
2.2 Современные реализации инструментов извлечения именованных сущностей
3. Материал исследования - корпусы текстов
3.1 Корпус текстов микроблогов
3.2. Корпус новостных текстов
4. Практическое применение инструментов выделения именованных сущностей
4.1. Система GATE
4.2. Томита-парсер
5. Методика оценки результатов
6. Количественные результаты исследования
7. Выводы, направления дальнейшей работы
Библиография

📖 Введение

Целью данного исследования является разработка системы для извлечения именованных сущностей из текстов микроблогов (Твиттер) на русском языке на основе анализа существующих методов и инструментов извлечения именованных сущностей.
Для решения заявленной цели были поставлены следующие задачи:
- исследовать существующие методы извлечения именованных сущностей;
- изучить особенности предметной области - текстов микроблогов;
- выбрать и доработать наиболее подходящие инструменты для анализа выбранной предметной области;
- собрать и разметить корпус текстов микроблогов;
- провести эксперименты на корпусе микроблогов и на фоновом корпусе новостных текстов;
- сравнить результаты по двум корпусам и по двум инструментам;
- сделать выводы о результативности систем и дальнейших направлениях работы.
Актуальность работы обусловлена как широким применением методов извлечения именованных сущностей в различных задачах прикладной лингвистики, так и особенностями предметной области. Выделение именованных сущностей является одной из важных задач автоматической обработки текста. Это обязательный этап во многих системах извлечения структурированной информации из неструктурированных данных: в задачах информационного поиска, при построении вопросно-ответных систем, автоматизированном сборе и аннотировании новостей, анализе биологических и медицинских текстов. Извлечение именованных сущностей из текстов микроблогов находит применение в первую очередь в системах, используемых для анализа отзывов о товаре и упоминания бренда в сети.
Новизна исследования состоит в выборе и адаптации инструментов извлечения именованных сущностей к конкретному материалу исследования - текстам микроблога Твиттер на русском языке.
Практическая значимость исследования состоит, во-первых, в создании размеченного корпуса текстов микроблогов на русском языке; во-вторых, в экспериментальной оценке и сравнении результатов различных систем извлечения именованных сущностей. Полученные результаты могут быть использованы для дальнейшего совершенствования инструментов выделения именованных сущностей.

✅ Заключение

Оба инструмента показали неплохие результаты (хотя и значительно ниже state-of-the-art показателей) на корпусе микроблогов.
Несмотря на учет особенностей предметной области и разработку специфических словарей для обработки текстов микроблогов, новостные тексты всё же представляют меньшие трудности для обработки.
Так как оба инструмента являются системами, опирающимися на правила, точность их работы может быть весьма высока, т.е. составленные газеттиры и словари замен были недостаточно полными.
Невысокие показатели системы Gate объясняются отчасти, скорее всего, тем, что специфический модель частеречной разметки с учетом особенностей текстов Твиттера не был использован, а примененный вместо него модуль для русского языка не был построен с учетом данной специфики. Очевидно также, что при таком подходе размер словарей замен (коррекции орфографии и расшифровки аббревиатур) должен быть значительно увеличен.
Также нужно отметить, что выбранные три класса именованных сущностей - Персона, Локация и Организация - не лучшим образом отражают специфику текстов. В частности, сущности типа Организация вызвали наибольшие проблемы у обеих систем в связи с тем, что, во-первых, были хуже представлены в корпусе, и во-вторых, газеттиры для них оказались недостаточно адаптированными.
Включение же в область исследования других типов сущностей, в частности Продукт (Товар), могло бы положительно повлиять на общий результат.
Анализ результатов показывает, что с точки зрения разбиения на классы ИС результаты, полученные при помощи Томита-парсера были более однородны, система Gate же показала большую вариативность, что говорит о недостаточной адаптации всех модулей системы.
Учёт этих недостатков в дальнейшей работе может способствовать улучшению результатов.
Кроме того, представляется интересным применить созданный корпус, газеттиры и признаки, использованные при написании правил, для тестирования методами машинного обучения, в частности с использованием метода условных случайных полей.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Антонова А.Ю., Соловьев А.Н. (2013) Использование метода условных случайных полей для обработки текстов на русском языке - Компьютерная лингвистика и интеллектуальные технологии.
2. Глазова М.А. (2010) Использование Марковской модели максимальной энтропии для задачи извлечения собственных имен из текста - Труды 12-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».
3. Нехай И.В. (2012) Применение n-грамм и других статистик уровня символов и слов для семантической классификации незнакомых собственных имен - сборник докладов «Диалог», том 1.
4. Подобряев А.В. Поиск упоминаний лиц в новостных текстах с использованием модели условных случайных полей - Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».
5. Brykina M. M., Faynveyts A. V., Toldova S. Yu. (2013) Dictionary-based Ambiguity Resolution in Russian Named Entities Recognition - International Workshop on Computational Linguistics and its Applications, ed. A. Narin’yani, v.
1
6. Collins Michael and Singer, Y. (1999) Unsupervised Models for Named Entity Classification - Proc. of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.
7. Maynard, D., V. Tablan, K. Bontcheva, H. Cunningham, and Y. Wilks (2003) Muse: a Multi-Source Entity Recognition System - Submitted to Computers and the Humanities.
8. Nadeau D., Sekine S. (2006) A Survey of Named Entity Recognition and Classification - Lingvisticae Investigationes, 3 - 26.
9. Nigam K., Lafferty J., McCallum A. (1999) Using maximum entropy for text classification - In IJCAI Workshop on Machine Learning for Information Filtering
10. Popov B., Kirilov A., Maynard, D. and Manov, D. (2004) Creation of reusable components and language resources for Named Entity Recognition in Russian - Proc. Conference on Language Resources and Evaluation.
11. Rationov L., Roth D. (2009) Design challenges and misconceptions in named entity recognition - Proceedings of the Thirteenth Conference on Computational Natural Language Learning, pages 147-155
12. Rau, Lisa F. (1991) Extracting Company Names from Text - Proc. Conference on Artificial Intelligence Applications of IEEE.
13. Tweet Segmentation and Its Application to Named Entity Recognition. Chenliang Li, Aixin Sun, Jianshu Weng, Qi He. IEEE Trans. Knowledge and Data Engineering, 2015
14. Augmenting Business Entities with Salient Terms from Twitter. Riham Mansour, Nesma Refaei and Vanessa Murdock. In Proc. COLING 2014.
15. Adapting taggers to Twitter with not-so-distant supervision. Barbara Plank, Dirk Hovy, Ryan McDonald and Anders Sogaard. In Proc. COLING 2014
16. Chenliang Li, Aixin Sun. Fine-Grained Location Extraction from Tweets with Temporal Awareness. In Proc. SIGIR 2014
17. Saeid Hosseini, Sayan Unankard, Xiaofang Zhou, Shazia Sadiq. Location Oriented Phrase Detection in Microblogs. In Proc. DASFAA 2014.
18. Chenliang Li, Aixin Sun, Jianshu Weng, Qi He.Exploiting Hybrid Contexts for Tweet Segmentation. In Proc. SIGIR 2013
19. FS-NER: A Lightweight Filter-Stream Approach to Named Entity Recognition on Twitter Data Diego Marinho de Oliveira, Alberto H. F. Laender, Adriano Veloso, Altigran S. da Silva. In Proc. WWW (Companion) 2013.
20. Nerit:Named Entity Recognition for Informal Text. David Etter and Francis Ferraro and Ryan Cotterell and Buzek, Olivia and Van Durme, Benjamin. Tech Report. Johns Hopkins University. 2013
21. Xiaohua Liu, Ming Zhou. Two-Stage NER for Tweets with Clustering. Inf. Process. Manage. 2013
22. Chenliang Li, Jianshu Weng, Qi He, Yuxia Yao, Anwitaman Datta, Aixin Sun, Bu-Sung Lee. TwiNER: Named Entity Recognition in Targeted Twitter Stream. In Proc. SIGIR 2012
23. Xiaohua Liu, Ming Zhou, Furu Wei, Zhongyang Fu, Xiangyang Zhou. Joint Inference of Named Entity Recognition and Normalization for Tweets. In Proc. ACL 2012
24. Bo Han, Timothy Baldwin. Lexical Normalization of Short Text Messages:
Makn Sens a #twitter. In Proc. ACL 2011
25. K. Gimpel, N. Schneider, B. O’Connor, D.Das, D. Mills, J. Eisenstein, M.
Heilman, D. Yogatama, J. Flanigan, N. A. Smith.Part-of-Speech Tagging for Twitter: Annotation, Features, and Experiments. In Proc. ACL 2011
29. Xiaohua Liu, Shaodian Zhang, Furu Wei, and Ming Zhou.Recognizing Named Entities in Tweets. In Proc. ACL-HLT 2011
30. Alan Ritter, Sam Clark, Mausam, Oren Etzioni. Named Entity Recognition in Tweets: An Experimental Study. In Proc. EMNLP 2011
31. Jason J. Jung. Towards Named Entity Recognition Method for Microtexts in Online Social Networks: A Case Study on Twitter. In Proc. ASONAM 2011
32. Tim Finin, Will Murnane, Anand Karandikar, Nicholas Keller, Justin Martineau, and Mark Dredze. Annotating Named Entities in Twitter Data with Crowdsourcing. In Proc. NAACL-HLT Workshop 2010
33. K. Bontcheva, L. Derczynski, A. Funk, M.A. Greenwood, D. Maynard and N. Aswani. 2013. "TwitIE: An Open-Source Information Extraction Pipeline for Microblog Text". In Proceedings of the International Conference on Recent Advances in Natural Language Processing, ACL.
34. L. Derczynski, A. Ritter, S. Clarke, and K. Bontcheva. 2013. "Twitter Part-of- Speech Tagging for All: Overcoming Sparse and Noisy Data". In Proceedings of the International Conference on Recent Advances in Natural Language Processing, ACL. 3
35. Leon Derczynski, Diana Maynard, Niraj Aswani and Kalina Bontcheva. Microblog-Genre Noise and Impact on Semantic Annotation Accuracy.
Proceedings of the 24th ACM Conference on Hypertext and Social Media. Pages 21-30.
36. Truc-Vien T. NGUYEN and Alessandro MOSCHITTI. 2012. Structural Reranking Models for Named Entity Recognition. Intelligenza Artificiale, vol. 6, no. 2, pp. 177-190, 2012.
37. Рубцова Ю.В. Метод построения и анализа корпуса коротких текстов для задачи классификации отзывов. Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XV Всероссийской научной конференции RCDL’2013, Ярославль, Россия, 14-17 октября 2013 г. - Ярославль: ЯрГУ, 2013. -С. 269-275.
38. Guillaume Lample et al. Neural Architectures for Named Entity Recognition. Proceedings of NAACL 2016.
39. Daniele Bonadiman et al. Deep Neural Networks for Named Entity Recognition in Italian. Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing, 2015.
40. James Hammerton. Named Entity Recognition with Long Short-Term Memory. Proceedings of the seventh conference on Natural language learning at HLT- NAACL 2003 - Volume 4. Pages 172-175.
41. Ronan Collobert et al. Natural Language Processing (Almost) from Scratch. The Journal of Machine Learning Research archive. Volume 12, 2/1/2011. Pages 2493-2537
42. Leon Derczynski et al. Analysis of Named Entity Recognition and Linking for Tweets. Information Processing & Management 51(2):32-49. October 2014.
43. Rinat Gareev et al. 2013. Introducing Baselines for Russian Named Entity Recognition. Conference: Proceedings of the 14th international conference on Computational Linguistics and Intelligent Text Processing - Volume Part I.
45. Darwish, Kareem and Wei Gao. “Simple Effective Microblog Named Entity Recognition: Arabic as an Example.” LREC (2014).
46. Pikakshi Manchanda. Entity Linking and Knowledge Discovery in Microblogs. ISWC-DC 2015 The ISWC 2015 Doctoral Consortium, 25
47. Malmasi S., Dras M. (2016) Location Mention Detection in Tweets and Microblogs. In: Hasida K., Purwarianti A. (eds) Computational Linguistics. Communications in Computer and Information Science, vol 593. Springer, Singapore.
48. Richard Johansson, Alessandro Moschitti. Relational Features in Fine-Grained Opinion Analysis. Computational Linguistics. September 2013, Vol. 39, No. 3, Pages: 473-509
49. Sysoev A. A., Andrianov I. A. Named Entity Recognition in Russian: the Power of Wiki-Based Approach . Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”
59. Popov A. M., Adaskina Yu. V., Andreyeva D. A., Charabet Ja., Moskvina A. D., Protopopova E. V., Yushina T. A. Named Entity Normalization for Fact Extraction Task. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”
51. Stepanova M. E., Budnikov E. A., Chelombeeva A. N., Matavina P. V., Skorinkin D. A. Information Extraction Based on Deep Syntactic-Semantic
Analysis. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”
52. Petra Saskia Bayerl, Karsten Ingmar Paul. What Determines Inter-Coder Agreement in Manual Annotations? A Meta-Analytic Investigation. Computational Linguistics. December 2011, Vol. 37, No. 4, Pages: 699-725
53. Bikel D. M., Miller S., Schwartz R., Weischedel R. Nymble: A highperformance learning name-finder. In Proc. of ANLP-97, 1997. P 194-201.
54. Kaiser K., Miksch S. Information Extraction. A survey. Technical Report: Vienna University of Technology, 2005.
55. McCallum A., W. Li Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons. In Proc. of CoNLL-03, 2003.
56. Ponzetto S. P., Strube M. Exploiting semantic role labeling, WordNet and Wikipedia for coreference resolution. In Proc. of HLT-NAACL-06, 2006. P 192-199.
57. Tjong Kim Sang E. F. Introduction to the CoNLL-2002 shared task: Language¬independent Named Entity Recognition. In Proc. of CoNLL-02, 2002.
58. Tjong Kim Sang E. F., De Meulder F. Introduction to the CoNLL-2003 shared task: Language independent Named Entity Recognition. In Proc. of CoNLL03, 2003. P 142-147.
59. Radu Florian, Abe Ittycheriah, Hongyan Jing, and Tong Zhang. 2003. Named Entity Recognition through Classifier Combination. In Proceedings ofCoNLL-2003.
60. Jason P C. Chiu and Eric Nichols. Named Entity Recognition with Bidirectional LSTM-CNNs.CoRR, abs/1511.08308, 2015.
61. Yang, Z., Salakhutdinov, R., and Cohen, W. (2016). Multi-task cross-lingual sequence tagging from scratch.CoRR, abs/1603.06270.12
62. Xu, C., Bai, Y., Bian, J., Gao, B., Wang, G., Liu, X., and Liu, T.-Y. (2014). Rc- net: A general framework for incorporating knowledge into word representations. In Proceedingsof the 23rd ACM International Conference on Conference on Information and KnowledgeManagement, pages 1219-1228. ACM.
63. Simon Carter, Wouter Weerkamp, and Manos Tsagkias.2013. Microblog language identification: Overcoming the limitations of short, unedited and idiomatic text. Language
Resources and Evaluation, pages 1-21.
64. Y. Choi, E. Breck, C. Cardie. Joint extraction of entities and relations for opinion recognition. Proceedings of the 2006 Conference on Empirical Methods in Natural Language.
65. E Breck, Y Choi, C Cardie. Identifying Expressions of Opinion in Context. IJCAI 7, 2683-2688, 2007.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (208121)

Статьи

»» Все статьи

Вход в личный кабинет