Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Алгоритмы и архитектуры 21
1.1. Методы распознавания именных сущностей 21
1.1.1 Stanza 21
1.1.2 Deep Pavlov 24
1.1.3 Natasha 28
1.2. Метрики оценки качества 29
Глава 2. Данные 31
2.1. Collection5 31
2.2. BSNLP-2019 32
2.3. FactRuEval 2016 33
Глава 3. Реализация 35
3.1. Выбор технологий и инструментов для реализации .... 35
3.2. Сравнение алгоритмов NER 36
3.3. Сбор данных 37
3.4. Выявление адреса в тексте 38
3.5. Визуализация данных 39
Заключение 43
Список литературы
Из всех видов транспорта автомобильный является наиболее популярным, но также и наиболее опасным. Об этом свидетельствует статистика дорожно-транспортных происшествий в России. По состоянию на 2019 год в России на 1000 человек приходится 381 автомобиль, всего автомобилей насчитывается около 55.9 миллионов [1]. По данным МВД с января по ноябрь 2021 года в России произошло 96 314 ДТП с пострадавшими, погибли 10 516 человек и получили ранения 121 573 [2].
В условиях стремительной "автомобилизации" населения России и недо-статочно высокого уровня культуры и правосознания от дорожно-транспортных происшествий ежегодно погибают или получают ранения десятки тысяч человек. Анализ статистических данных о количестве дорожно-транспортных происшествий и их последствиях свидетельствует о том, что уровень дорожно-транспортного травматизма в стране остается крайне высоким и имеет тенденцию к росту.
Масштабы социальных и экономических потерь от негативных последствий автомобилизации, по мнению ряда ученых, сопоставимы с самыми актуальными проблемами правоохранительной деятельности государства. И по сути, общество имеет дело с особым видом преступности.
Но в связи с тем, что дорожно-транспортная авария рассматривается в качестве явления, которое было вызвано некими случайными причинами, ее последствия не вызывают адекватного общественного резонанса, а следовательно, и адекватной реакции со стороны государства. Соответственно, строится и стратегия противостояния со стороны государства и общественности этому злу.
Любое дорожное происшествие возникает вследствие внешнего случайного стечения факторов, но в совокупности эти факторы образуют устойчивые связи и отношения. Они подчиняются строгим законам вероятностного вида.
В настоящее время со стремительным развитием технологий и увеличения количества данных есть возможность разработки информационного продукта, который бы автоматизировано проводил сбор данных о дорожно-транспортных происшествиях, формировал статистику, визуализировал информацию и проводил анализ. Такой продукт мог бы выявлять самые опасные участки дороги и формировать отчет по зависимости уровня аварийности на определенных участках от времени года, суток или погодных условий. Также, можно применять знания об аварийности в картах при построении маршрута.
Итоги работы
В рамках работы были выполнены следующие задачи:
• Обзор существующих методов решения проблемы;
• Обзор литературы на тему распознавания именных сущностей;
• Формирование коллекции данных о ДТП;
• Сравнение методов распознавания именных сущностей.
• Реализация интерактивной карты Санкт-Петербурга;
Цель работы достигнута, реализовано веб-приложение, которое получает данные из открытого источника, группы Вконтакте, выявляет сущности обозначающие местоположения и строит визуальное отображение данных на карте.
Практическое применение
Реализованный продукт можно применить для аналитики и выявления опасных участков дороги, анализ зависимости аварийности на определенных участках от времени суток, времени года и погодных условий. Также после анализа аварийности участков можно оптимизировать построение маршрутов в навигаторах.
Дальнейшее развитие
Требуется улучшить работу геокодера. Найти открытый геокодер с большим количеством бесплатных запросов или реализовать собственный геокодер.
В дальнейшем можно расширить проект на другие города. Также можно попробовать обратиться к государственным структурам, с целью получения доступа к официальным данным по дорожно-транспортным происшествиям. Возможно написание мобильного приложения, либо сотрудничество с существующими приложениями карт, с целью интеграции функционала карты ДТП.
[1] Единая межведомственная информационно-статистическая система: fedstat.ru/indicator/36228.
[2] Статистика аварийности за 2021 год от МВД: media.mvd.ru/files/embed/2256058.
[3] B. JIANG, C. LIU «Street-based topological representations and analyses for predicting traffic flow in GIS>>. International Journal of Geographical Information Science Vol. 23, No. 9, September 2009, 1119-1137.
[4] S.C. LEE «Road traffic monitoring in Hong Kong>>. Proceedings of the Second International Conference on Road Traffic Monitoring, London, UK, 1989, pp. 14-18.
[5] Gabriele Filomena, Judith A.Verstegen, Ed Manley «A computational approach to ’The Image of the City’». Cities Volume 89, June 2019, Pages 14-25.
[6] K. Lynch «The image of the city>. Cambridge, MA: MIT Press 1960.
[7] S. Law «Defining street-based local area and measuring its effect on house price using a hedonic price approach: The case study of Metropolitan London>. Cities Volume 60, 2017, 166-179.
[8] A. Turner «From axial to road-centre lines: A new representation for Space Syntax and a new model of route choice for transport network analysis». Environment and Planning B: Planning and Design, 34(3), 2007, 539-555.
[9] Международная конференция по компьютерной лингвистике «Диалог 2016»:github.com/dialogue-evaluation/factRuEval-2016.
[10] Lample G. et al. «Neural architectures for named entity recognition». arXiv preprint arXiv:1603.01360. - 2016.
[11] Lafferty J., McCallum A., Pereira F. C. N «Conditional random fields: Probabilistic models for segmenting and labeling sequence data». - 2001.
[12] Saeid Asadi, Guowei Yang, Xiaofang Zhou, Yuan Shi, Boxuan Zhai, and Wendy Wen-Rong Jiang «Pattern-Based Extraction of Addresses from Web Page Content». Lecture Notes in Computer Science, 407-418.
[13] Wentao Cai, Shengrui Wang, and Qingshan Jiang «Address Extraction: Extraction of Location-Based Information from the Web». APWeb 2005, LNCS 3399, pp. 925-937, 2005.
[14] Kanita Krdzalic-Koric, Emine Yaman «Address entities extraction using named entity recognition». INTERNATIONAL JOURNAL OF COMPUTERS Volume 13, 2019.
[15] Jeffrey Pennington, Richard Socher, and Christopher D. Manning
«GloVe: Global Vectors for Word Representation». 2014
nlp.stanford.edu/projects/glove/.
[16] Официальная сайт с документацией SDK Pullenti: www.pullenti.ru/Document.
[17] Mikhail Burtsev, Alex Seliverstov et al. «DeepPavlov: Open-Source Library for Dialogue Systems». Moscow Institute of Physics and Technology / 9 Institutskiy per., Dolgoprudny, 141701, Russian Federation.
[18] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding». Google AI Language arXiv:1810.04805.
[19] Статья о работе библиотеки Natasha для извлечения именованных сущ-ностей:natasha.github.io/ner/.
[20] Peng Qi, Yuhao Zhang, Yuhui Zhang, Jason Bolton, Christopher D. Manning «Stanza: A Python Natural Language Processing Toolkit for Many Human Languages». ACL2020 System Demonstration. First two authors contribute equally. arXiv:2003.07082.
[21] Sepp Hochreiter, Jurgen Schmidhuber «Long Short-term Memory». Neural computation. 1997. 9. 1735-80.
[22] Alan Akbik, Duncan Blythe, Roland Vollgraf «Contextual String Embeddings for Sequence Labeling». Proceedings of the 27th International Conference on Computational Linguistics. 1638-1649.
[23] Zhiheng Huang, Wei Xu, Kai Yu «Bidirectional LSTM-CRF Models for Sequence Tagging». arXiv:1508.01991.
[24] The Anh Le, Mikhail S. Burtsev «A Deep Neural Network Model for the Task of Named Entity Recognition». International Journal of Machine Learning and Computing, Vol. 9, No. 1, February 2019.
[25] Можарова В.А., Лукашевич Н.В. «Двухэтапный подход к извлечению именованных сущностей». Труды конференции по искусственному ин¬
теллекту КИИ-2016, т.2., 2016. - С.81-88.
[26] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin «Attention Is All You Need». Advances in Neural Information Processing Systems, pages 6000-6010.
[27] Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, et al. «Google’s neural machine translation system: Bridging the gap between human and machine translation». arXiv:1609.08144.
[28] Yukun Zhu, Ryan Kiros, Rich Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, and Sanja Fidler. «Aligning books and movies: Towards story-like visual explanations by watching movies and reading books». Proceedings of the IEEE international conference on computer vision, 2015, pages 19-27.
[29] Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov «RoBERTa: A Robustly Optimized BERT Pretraining Approach». arXiv:1907.11692.
[30] Коллекция ссылок на публичные русскоязычные датасеты: github.com/natasha/corus.
[31] Большой корпус с автоматической разметкой именованных сущностей, морфологии и синтаксиса:github.com/natasha/nerus.
[32] Репозиторий с новостями с сайта Lenta.ru: github.com/yutkin/Lenta.Ru-News-Dataset.
[33] Erik F. Tjong Kim Sang and Fien De Meulder «Introduction to the CoNLL- 2003 Shared Task: Language-Independent Named Entity Recognition». HLT- NAACL 2003 - Volume 4, May 2003, 142-147.
[34] Piskorski, Jakub and Laskova, Laska and Marcinczuk, Micha l and Pivovarova, Lidia and Priban, Pavel and Steinberger, Josef and Yangarber, Roman «The Second Cross-Lingual Challenge on Recognition, Normalization, Classification, and Linking of Named Entities across Slavic Languages». Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference «Dialogue 2016».
[35] Starostin A. S., Bocharov V. V., Alexeeva S. V., Bodrova A. A., Chuchunkov A. S., Dzhumaev S. S., Efimenko I. V., Granovsky D. V., Khoroshevsky V. F., Krylova I. V., Nikolaeva M. A., Smurov I. M., Toldova S. Y. «FactRuEval 2016: Evaluation of Named Entity Recognition and Fact Extraction Systems for Russian». Proceedings of the 7th Workshop on Balto-Slavic Natural Language Processing.
[36] The pandas development team pandas: «powerful Python data analysis toolkit». pandas.pydata.org/docs/pandas.pdf.
[37] Официальная документация на библиотеку DeepPavlov для Python: docs.deeppavlov.ai/en/master.
[38] Официальная документация на библиотеку Flask для Python: flask.palletsprojects.com/en/2.1.x.
[39] Официальная документация на библиотеку requests для Python: docs.python-requests.org/en/latest.
[40] Официальный сайт API Vkontakte: dev.vk.com/reference.
[41] Официальная документация API yandex map: yandex.ru/dev/maps/geocoder/doc/desc/concepts/about.html.
[42] Официальная документация библиотеки folium: python-visualization.github.io/folium.
[43] Wiki OpenStreetMap: wiki.osmfoundation.org/wiki/Terms_of_Use.
[44] Репозиторий с исходным кодом текущей работы: github.com/roma0398/traffic_accident_map.