Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Алгоритмы и архитектуры 21
1.1. Методы распознавания именных сущностей 21
1.1.1 Stanza 21
1.1.2 Deep Pavlov 24
1.1.3 Natasha 28
1.2. Метрики оценки качества 29
Глава 2. Данные 31
2.1. Collection5 31
2.2. BSNLP-2019 32
2.3. FactRuEval 2016 33
Глава 3. Реализация 35
3.1. Выбор технологий и инструментов для реализации .... 35
3.2. Сравнение алгоритмов NER 36
3.3. Сбор данных 37
3.4. Выявление адреса в тексте 38
3.5. Визуализация данных 39
Заключение 43
Список литературы 45
Из всех видов транспорта автомобильный является наиболее популярным, но также и наиболее опасным. Об этом свидетельствует статистика дорожно-транспортных происшествий в России. По состоянию на 2019 год в России на 1000 человек приходится 381 автомобиль, всего автомобилей насчитывается около 55.9 миллионов [1]. По данным МВД с января по ноябрь 2021 года в России произошло 96 314 ДТП с пострадавшими, погибли 10 516 человек и получили ранения 121 573 [2].
В условиях стремительной "автомобилизации"населения России и недостаточно высокого уровня культуры и правосознания от дорожно-транспортных происшествий ежегодно погибают или получают ранения десятки тысяч человек. Анализ статистических данных о количестве дорожно-транспортных происшествий и их последствиях свидетельствует о том, что уровень дорожно-транспортного травматизма в стране остается крайне высоким и имеет тенденцию к росту.
Масштабы социальных и экономических потерь от негативных последствий автомобилизации, по мнению ряда ученых, сопоставимы с самыми актуальными проблемами правоохранительной деятельности государства. И по сути, общество имеет дело с особым видом преступности.
Но в связи с тем, что дорожно-транспортная авария рассматривается в качестве явления, которое было вызвано некими случайными причинами, ее последствия не вызывают адекватного общественного резонанса, а следовательно, и адекватной реакции со стороны государства. Соответственно, строится и стратегия противостояния со стороны государства и общественности этому злу.
Любое дорожное происшествие возникает вследствие внешнего случайного стечения факторов, но в совокупности эти факторы образуют устойчивые связи и отношения. Они подчиняются строгим законам вероятностного вида.
В настоящее время со стремительным развитием технологий и увеличения количества данных есть возможность разработки информационного продукта, который бы автоматизировано проводил сбор данных о дорожно-транспортных происшествиях, формировал статистику, визуализировал информацию и проводил анализ. Такой продукт мог бы выявлять самые опасные участки дороги и формировать отчет по зависимости уровня аварийности на определенных участках от времени года, суток или погодных условий. Также, можно применять знания об аварийности в картах при построении маршрута.
Итоги работы
В рамках работы были выполнены следующие задачи:
• Обзор существующих методов решения проблемы;
• Обзор литературы на тему распознавания именных сущностей;
• Формирование коллекции данных о ДТП;
• Сравнение методов распознавания именных сущностей.
• Реализация интерактивной карты Санкт-Петербурга;
Цель работы достигнута, реализовано веб-приложение, которое получает данные из открытого источника, группы Вконтакте, выявляет сущности обозначающие местоположения и строит визуальное отображение данных на карте.
Практическое применение
Реализованный продукт можно применить для аналитики и выявления опасных участков дороги, анализ зависимости аварийности на определенных участках от времени суток, времени года и погодных условий. Также после анализа аварийности участков можно оптимизировать построение маршрутов в навигаторах.
Дальнейшее развитие
Требуется улучшить работу геокодера. Найти открытый геокодер с большим количеством бесплатных запросов или реализовать собственный геокодер.
В дальнейшем можно расширить проект на другие города. Также можно попробовать обратиться к государственным структурам, с целью получения доступа к официальным данным по дорожно-транспортным происшествиям. Возможно написание мобильного приложения, либо сотрудничество с существующими приложениями карт, с целью интеграции функционала карты ДТП.