Обозначения и сокращения 3
Введение 4
1. Обзор предметной области 6
2. Разработка новой модели 11
2.1 Входные слои 11
2.2 Bi-LSTM 13
2.3 Марковские случайные поля 16
2.4 Многозадачное обучение 16
3. Эксперименты 18
3.1 Метрики качества 18
3.2 Используемые коллекции текстов 19
3.3 Результаты 20
Заключение 24
Список использованных источников 25
Приложение
Распознавание именованных сущностей (NER) является одной из важнейших задач в области обработки естественного языка (NLP). Основная цель NER - извлечь и классифицировать важные именованные сущности для конкретной задачи. Именованные сущности - это слова или фразы, обозначающие определенный объект, например, имена людей, местоположения, организации, объекты, продукты, даты, геополитические объекты, праздники и т.п. NER применяется во многих областях, связанных с NLP и извлечением информации, таких как поиск информации, системы ответов на вопросы, классификация текста, извлечение отношений и т.д. Извлеченные именованные сущности помогают понять тему текста и найти ключевые слова. Продолжающийся рост неструктурированной информации, представленной текстом на естественном языке, и растущая потребность в извлечении из них структурированной информации делают задачу NER актуальной и важной.
Для решения проблемы NER были предложены различные подходы, начиная от простых подходов, основанных на словарях [3], и заканчивая более сложными моделями машинного обучения. Наиболее современной является модель, представленная в [4]. Модель основана на комбинации двунаправленной краткосрочной памяти (BiLSTM) и условного случайного поля (CRF).
Целями данной работы является разработка метода для извлечения именованных сущностей на основе глубокого обучения и подхода к многозадачному обучению, и последующая оценка его качества на нескольких наборах данных.
Объектом работы является система для автоматического извлечения именованных сущностей из текста на естественном языке.
Предметом работы является улучшение результатов NER для русского языка.
Для достижения поставленных целей необходимо было решить следующие задачи:
1. На основании результатов предыдущих работ по данному направлению выбрать наилучшую архитектуру нейронной сети;
2. разработать метод, допускающий многозадачное обучение такой модели;
3. реализовать разработанные методы в комплексах программ;
4. обучить полученные модели и произвести сравнение их качества на различных наборах данных.
В данной работе была исследована эффективность многозадачного подхода для задачи NER на русском языке. Были проведены эксперименты на трех наборах данных NER с различными типами объектов и набором данных POS.
Результаты показывают улучшение оценочных показателей в случае использования многозадачного режима. Сравнение полученных результатов с предыдущими подходами показывает увеличение метрик для двух наборов данных.
Также была оценена эффективность многозадачности для задач разметки NER и POS. Такой подход не привел к увеличению результатов.
Дальнейшая работа может быть посвящена улучшению CNN и LSTM частей предлагаемой модели и использованию механизмов внимания.
1. Blei D., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research, Т. 3, 2003. С. 993-1022.
2. Cristianini N., Shawe-Taylor J. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods // Cambridge University Press. 2000.
3. Brykina M.M., Faynveyts A.V., Toldova S.Y. Dictionary-based Ambiguity Resolution in Russian Named Entities Recognition // International Workshop on Computational Linguistics and its Applications, ed. A. Narin’yam. 2013. Т. 1.
4. Lample G., Ballesteros M., Subramanian S., Kawakami K., Dyer C. Neural Architectures for Named Entity Recognition // Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016. С. 260270.
5. Popov B., Kiryakov A., Ognyanoff D., Manov D., Kirilov A. KIM - a semantic platform for information extraction and retrieval // Natural language engineering, Т. 10, 2004. С. 375-392.
6. Craidlin L.G. Program of allocation of Russian individualized nominal groups TAGLITE // Computational linguistics and intellectual technologies Dialog. 2005.
7. Antonova A.Y., Soloviev A.N. Conditional random field models for the processing of Russian // Communications of the ACM. 2013. С. 56.
8. Podobryaev A.V. Searching for person memories in news texts with the use of a model of conditional random fields // RCDL. 2013.
9. Gareev R., Tkachenko M., Solovyev V., Simanovsky A., Ivanov V. Introducing Baselines for Russian Named Entity Recognition // Computational Linguistics and Intelligent Text Processing. 2013. С. 329-342.
10. Clark A. Combining distributional and morphological information for part of speech induction // Proceedings of 10th EACL. 2003. С. 59-66.
12. Rubaylo A.V., Kosenko M.Y. Software utilities for natural language information retrievial // Almanac of modern science and education. 2016. Т.12.
12. Sysoev A.A., Andrianov I.A. Named entity recognition in Russian: the power of wiki-based approach // Proceedings of International Conference "Dialogue".2016. С. 746-755.
13. Ivanitskiy R., Alexander S., Liubov K. Russian Named Entities Recognition and Classification Using Distributed Word and Phrase Representations // SIMBig. 2016.
14. Huang Z., Xu W., Yu K. Bidirectional LSTM-CRF models for sequence tagging // arXiv. 2015. URL: https://arxiv.org/abs/1508.01991
15. Ma X., Hovy E. End-to-end sequence labeling via bi-directional lstm-cnns-crf // arXiv. 2016. URL: https://arxiv.org/abs/1603.01354
16. Adak C., Chaudhuri B., Blumenstein M. Named entity recognition from unstructured handwritten document images // Document Analysis Systems (DAS), 2016 12th IAPR Workshop on. 2016. С. 375-380.
17. Malykh V., Ozerin A. Reproducing Russian NER Baseline Quality without Additional Data // CDUD@ CLA. 2016. С. 54-59.
18. Anh L.T., Arkhipov M.Y., Burtsev M.S. Application of a Hybrid Bi-LSTM- CRF model to the task of Russian Named Entity Recognition // Communications in Computer and Information Science book series - CCIS.
2017. Т. 789.
19. Vlasova N.A., Suleymanova E.A., Trofimov I.V. Report on Russian corpus for personal name retrieval // Proceedings of computational and cognitive linguistics TEL. 2014. С. 36-40.
20. Starostin A.S., Bocharov V.V., Alexeeva S.V., Bodrova A., Chuchunkov A.S., Dzhumaev S.S., Nikolaeva M.A. Evaluation of Named Entity Recognition and Fact Extraction Systems for Russian // Annual International Conference Dialogue. 2016. С. 702-720.
21. Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // In Proceedings of Workshop at ICLR.2013.
22. Chiu J., Nichols E. Named entity recognition with bidirectional LSTM-CNNs // Transactions of the Association for Computational Linguistics. 2016. Т. 4.С. 357-370.
23. Greff K., Srivastava R.K., Koutnik J., Steunebrink B.R., Schmidhuber J. LSTM: A Search Space Odyssey // IEEE Trans Neural Netw Learn Syst. doi: 10.1109/TNNLS.2016.2582924. 2016.
24. Graves A., Fernandez S., Schmidhuber J. Bidirectional LSTM Networks for Improved Phoneme Classification and Recognition // Artificial Neural Networks: Formal Models and Their Applications - ICANN 2005. 2005. С. 799-804.
25. Kingma D.P., Ba J. Adam: A Method for Stochastic Optimization // 3rd International Conference for Learning Representations, San Diego. 2014.
26. Lafferty J., McCallum A., Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data // Proceedings of the 18th International Conference on Machine Learning. 2001.
27. Starostin A.S., Bocharov V.V., Alexeeva S.V., Bodrova A., Chuchunkov A.S., Dzhumaev S.S., Nikolaeva M.A. Evaluation of Named Entity Recognition and Fact Extraction Systems for Russian // Annual International Conference Dialogue. 2016. С. 702-720.
28. Kaggle. Predict Russian Universal Dependencies POS tags // Kaggle. 2017. URL: https://www.kaggle.com/c/rupos2018