Тип работы:
Предмет:
Язык работы:


ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ ИЗВЛЕЧЕНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ

Работа №133602

Тип работы

Магистерская диссертация

Предмет

филология

Объем работы47
Год сдачи2017
Стоимость4915 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
11
Не подходит работа?

Узнай цену на написание


Введение 3
1. Особенности предметной области 4
2. Основные методы извлечения ИС 7
2.1 Подходы к извлечению именованных сущностей 7
2.2 Современные реализации инструментов извлечения именованных сущностей 14
3. Материал исследования - корпусы текстов 21
3.1 Корпус текстов микроблогов 21
3.2. Корпус новостных текстов 22
4. Практическое применение инструментов выделения именованных сущностей 24
4.1. Система GATE 25
4.2. Томита-парсер 29
5. Методика оценки результатов 33
6. Количественные результаты исследования 36
7. Выводы, направления дальнейшей работы 37
Библиография 39


Целью данного исследования является разработка системы для извлечения именованных сущностей из текстов микроблогов (Твиттер) на русском языке на основе анализа существующих методов и инструментов извлечения именованных сущностей.
Для решения заявленной цели были поставлены следующие задачи:
- исследовать существующие методы извлечения именованных сущностей;
- изучить особенности предметной области – текстов микроблогов;
- выбрать и доработать наиболее подходящие инструменты для анализа выбранной предметной области;
- собрать и разметить корпус текстов микроблогов;
- провести эксперименты на корпусе микроблогов и на фоновом корпусе новостных текстов;
- сравнить результаты по двум корпусам и по двум инструментам;
- сделать выводы о результативности систем и дальнейших направлениях работы.
Актуальность работы обусловлена как широким применением методов извлечения именованных сущностей в различных задачах прикладной лингвистики, так и особенностями предметной области. Выделение именованных сущностей является одной из важных задач автоматической обработки текста. Это обязательный этап во многих системах извлечения структурированной информации из неструктурированных данных: в задачах информационного поиска, при построении вопросно-ответных систем, автоматизированнм сборе и аннотировании новостей, анализе биологических и медицинских текстов. Извлечение именованных сущностей из текстов микроблогов находит применение в первую очередь в системах, используемых для анализа отзывов о товаре и упоминания бренда в сети.
Новизна исследования состоит в выборе и адаптации инструментов извлечения именованных сущностей к конкретному материалу исследования – текстам микроблога Твиттер на русском языке.
Практическая значимость исследования состоит, во-первых, в создании размеченного корпуса текстов микроблогов на русском языке; во-вторых, в экспериментальной оценке и сравнении результатов различных систем извлечения именованных сущностей. Полученные результаты могут быть использованы для дальнейшего совершенствования инструментов выделения именованных сущностей.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


1. Антонова А.Ю., Соловьев А.Н. (2013) Использование метода условных случайных полей для обработки текстов на русском языке - Компьютерная лингвистика и интеллектуальные технологии.
2. Глазова М.А. (2010) Использование Марковской модели максимальной энтропии для задачи извлечения собственных имен из текста - Труды 12-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».
3. Нехай И.В. (2012) Применение n-грамм и других статистик уровня символов и слов для семантической классификации незнакомых собственных имен – сборник докладов «Диалог», том 1.
4. Подобряев А.В. Поиск упоминаний лиц в новостных текстах с использованием модели условных случайных полей - Труды 15-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».
5. Brykina M. M., Faynveyts A. V., Toldova S. Yu. (2013) Dictionary-based Ambiguity Resolution in Russian Named Entities Recognition – International Workshop on Computational Linguistics and its Applications, ed. A. Narin’yani, v.1
6. Collins Michael and Singer, Y. (1999) Unsupervised Models for Named Entity Classification - Proc. of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.
7. Maynard, D., V. Tablan, K. Bontcheva, H. Cunningham, and Y. Wilks (2003) Muse: a Multi-Source Entity Recognition System - Submitted to Computers and the Humanities.
8. Nadeau D.,Sekine S. (2006) A Survey of Named Entity Recognition and Classification - Lingvisticae Investigationes, 3 - 26.
9. Nigam K., Lafferty J., McCallum A. (1999) Using maximum entropy for text classification - In IJCAI Workshop on Machine Learning for Information Filtering
10. Popov B., Kirilov A., Maynard, D. and Manov, D. (2004) Creation of reusable components and language resources for Named Entity Recognition in Russian - Proc. Conference on Language Resources and Evaluation.
11. Rationov L., Roth D. (2009) Design challenges and misconceptions in named entity recognition - Proceedings of the Thirteenth Conference on Computational Natural Language Learning, pages 147–155
12. Rau, Lisa F. (1991) Extracting Company Names from Text - Proc. Conference on Artificial Intelligence Applications of IEEE.
13. Tweet Segmentation and Its Application to Named Entity Recognition. Chenliang Li, Aixin Sun, Jianshu Weng, Qi He. IEEE Trans. Knowledge and Data Engineering, 2015
14. Augmenting Business Entities with Salient Terms from Twitter. Riham Mansour, Nesma Refaei and Vanessa Murdock. In Proc. COLING 2014.
15. Adapting taggers to Twitter with not-so-distant supervision. Barbara Plank, Dirk Hovy, Ryan McDonald and Anders Søgaard. In Proc. COLING 2014
16. Chenliang Li, Aixin Sun.Fine-Grained Location Extraction from Tweets with Temporal Awareness. In Proc. SIGIR 2014
17. Saeid Hosseini, Sayan Unankard, Xiaofang Zhou, Shazia Sadiq. Location Oriented Phrase Detection in Microblogs. In Proc. DASFAA 2014.
18. Chenliang Li, Aixin Sun, Jianshu Weng, Qi He.Exploiting Hybrid Contexts for Tweet Segmentation. In Proc. SIGIR 2013
19. FS-NER: A Lightweight Filter-Stream Approach to Named Entity Recognition on Twitter Data Diego Marinho de Oliveira, Alberto H. F. Laender, Adriano Veloso, Altigran S. da Silva. In Proc. WWW (Companion) 2013.
20. Nerit:Named Entity Recognition for Informal Text. David Etter and Francis Ferraro and Ryan Cotterell and Buzek, Olivia and Van Durme, Benjamin. Tech Report. Johns Hopkins University. 2013
21. Xiaohua Liu, Ming Zhou. Two-Stage NER for Tweets with Clustering. Inf. Process. Manage. 2013
22. Chenliang Li, Jianshu Weng, Qi He, Yuxia Yao, Anwitaman Datta, Aixin Sun, Bu-Sung Lee. TwiNER: Named Entity Recognition in Targeted Twitter Stream. In Proc. SIGIR 2012
23. Xiaohua Liu, Ming Zhou, Furu Wei, Zhongyang Fu, Xiangyang Zhou. Joint Inference of Named Entity Recognition and Normalization for Tweets. In Proc. ACL 2012
24. Bo Han, Timothy Baldwin. Lexical Normalization of Short Text Messages: Makn Sens a #twitter. In Proc. ACL 2011
25. K. Gimpel, N. Schneider, B. O’Connor, D.Das, D. Mills, J. Eisenstein, M. Heilman, D. Yogatama, J. Flanigan, N. A. Smith.Part-of-Speech Tagging for Twitter: Annotation, Features, and Experiments. In Proc. ACL 2011
29. Xiaohua Liu, Shaodian Zhang, Furu Wei, and Ming Zhou.Recognizing Named Entities in Tweets. In Proc. ACL-HLT 2011
30. Alan Ritter, Sam Clark, Mausam, Oren Etzioni. Named Entity Recognition in Tweets: An Experimental Study. In Proc. EMNLP 2011
31. Jason J. Jung.Towards Named Entity Recognition Method for Microtexts in Online Social Networks: A Case Study on Twitter. In Proc. ASONAM 2011
32. Tim Finin, Will Murnane, Anand Karandikar, Nicholas Keller, Justin Martineau, and Mark Dredze. Annotating Named Entities in Twitter Data with Crowdsourcing. In Proc. NAACL-HLT Workshop 2010
33. K. Bontcheva, L. Derczynski, A. Funk, M.A. Greenwood, D. Maynard and N. Aswani. 2013. "TwitIE: An Open-Source Information Extraction Pipeline for Microblog Text". In Proceedings of the International Conference on Recent Advances in Natural Language Processing, ACL.
34. L. Derczynski, A. Ritter, S. Clarke, and K. Bontcheva. 2013. "Twitter Part-of-Speech Tagging for All: Overcoming Sparse and Noisy Data". In Proceedings of the International Conference on Recent Advances in Natural Language Processing, ACL. 3
35. Leon Derczynski, Diana Maynard, Niraj Aswani and Kalina Bontcheva. Microblog-Genre Noise and Impact on Semantic AnnotationAccuracy. Proceedings of the 24th ACM Conference on Hypertext and Social Media. Pages 21-30.
36. Truc-Vien T. NGUYEN and Alessandro MOSCHITTI. 2012. Structural Reranking Models for Named Entity Recognition. IntelligenzaArtificiale, vol. 6, no. 2, pp. 177-190, 2012.
37. Рубцова Ю.В. Метод построения и анализа корпуса коротких текстов для задачи классификации отзывов.Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XV Всероссийской научной конференции RCDL’2013, Ярославль, Россия, 14-17 октября 2013 г. – Ярославль: ЯрГУ, 2013. –С. 269-275.
38. Guillaume Lample et al. Neural Architectures for Named Entity Recognition. Proceedings of NAACL 2016.
39. Daniele Bonadiman et al. Deep Neural Networks for Named Entity Recognition in Italian. Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing, 2015.
40. James Hammerton. Named Entity Recognition with Long Short-Term Memory. Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003 - Volume 4. Pages 172-175.
41. Ronan Collobert et al. Natural Language Processing (Almost) from Scratch. The Journal of Machine Learning Research archive. Volume 12, 2/1/2011. Pages 2493-2537
42. Leon Derczynski et al. Analysis of Named Entity Recognition and Linking for Tweets. Information Processing & Management 51(2):32-49. October 2014.
43. Rinat Gareev et al. 2013. Introducing Baselines for Russian Named Entity Recognition. Conference: Proceedings of the 14th international conference on Computational Linguistics and Intelligent Text Processing - Volume Part I.
45. Darwish, Kareem and Wei Gao. “Simple Effective Microblog Named Entity Recognition: Arabic as an Example.” LREC (2014).
46. Pikakshi Manchanda. Entity Linking and Knowledge Discovery in Microblogs. ISWC-DC 2015 The ISWC 2015 Doctoral Consortium, 25
47. Malmasi S., Dras M. (2016) Location Mention Detection in Tweets and Microblogs. In: Hasida K., Purwarianti A. (eds) Computational Linguistics. Communications in Computer and Information Science, vol 593. Springer, Singapore.
48. Richard Johansson, Alessandro Moschitti. Relational Features in Fine-Grained Opinion Analysis. Computational Linguistics. September 2013, Vol. 39, No. 3, Pages: 473-509
49. Sysoev A. A., Andrianov I. A. Named Entity Recognition in Russian: the Power of Wiki-Based Approach . Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”
59. Popov A. M., Adaskina Yu. V., Andreyeva D. A., Charabet Ja., Moskvina A. D., Protopopova E. V., Yushina T. A. Named Entity Normalization for Fact Extraction Task. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”
51. Stepanova M. E., Budnikov E. A., Chelombeeva A. N., Matavina P. V., Skorinkin D. A. Information Extraction Based on Deep Syntactic-Semantic Analysis. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”
52. Petra Saskia Bayerl, Karsten Ingmar Paul. What Determines Inter-Coder Agreement in Manual Annotations? A Meta-Analytic Investigation. Computational Linguistics. December 2011, Vol. 37, No. 4, Pages: 699-725
53. Bikel D. M., Miller S., Schwartz R., Weischedel R. Nymble: A highperformance learning name-finder. In Proc. of ANLP-97, 1997. P. 194–201.
54. Kaiser K., Miksch S. Information Extraction. A survey. Technical Report: Vienna University of Technology, 2005.
55. McCallum A., W. Li Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons. In Proc. of CoNLL-03, 2003.
56. Ponzetto S. P., Strube M. Exploiting semantic role labeling, WordNet and Wikipedia for coreference resolution. In Proc. of HLT-NAACL-06, 2006. P. 192–199.
57. Tjong Kim Sang E. F. Introduction to the CoNLL-2002 shared task: Language-independent Named Entity Recognition. In Proc. of CoNLL-02, 2002.
58. Tjong Kim Sang E. F., De Meulder F. Introduction to the CoNLL-2003 shared task: Language independent Named Entity Recognition. In Proc. of CoNLL03, 2003. P. 142–147.
59. Radu Florian, Abe Ittycheriah, Hongyan Jing, and Tong Zhang. 2003. Named Entity Recognition through Classifier Combination. In Proceedings ofCoNLL-2003.
60. Jason P. C. Chiu and Eric Nichols. Named Entity Recognition with Bidirectional LSTM-CNNs.CoRR, abs/1511.08308, 2015.
61. Yang, Z., Salakhutdinov, R., and Cohen, W. (2016). Multi-task cross-lingual sequence tagging from scratch.CoRR, abs/1603.06270.12
62. Xu, C., Bai, Y., Bian, J., Gao, B., Wang, G., Liu, X., and Liu, T.-Y. (2014). Rc-net: A general framework for incorporating knowledge into word representations. In Proceedingsof the 23rd ACM International Conference on Conference on Information and KnowledgeManagement, pages 1219–1228. ACM.
63. Simon Carter, Wouter Weerkamp, and Manos Tsagkias.2013. Microblog language identification: Overcoming the limitations of short, unedited and idiomatic text. Language
Resources and Evaluation, pages 1–21.
64. Y. Choi, E. Breck, C. Cardie. Joint extraction of entities and relations for opinion recognition. Proceedings of the 2006 Conference on Empirical Methods in Natural Language.
65. E Breck, Y Choi, C Cardie. Identifying Expressions of Opinion in Context. IJCAI 7, 2683-2688, 2007.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ