Введение 5
Постановка задачи 7
Обзор литературы 8
1. Парсеры текста. Обзор и сравнение готовых решений. 9
1.1. Основные части библиотек для обработки текста 9
1.1.1. Named Entity Recognition 9
1.1.2. POS tagger 10
1.1.3. Dependency tree parser 11
1.1.4. Stemming 12
1.2. Обзор существующих библиотек для анализа текстов . . 13
2. Методы машинного обучения для векторизации слов 15
2.1. Word2Vec 15
2.2. Glove 19
3. Реализация задачи 20
3.1. Подготовка данных 20
3.2. Разметка полученных данных 20
3.3. Метрики для оценки точности алгоритмов 20
3.3.1. Метрика для сравнения словосочетаний 21
3.3.2. Метрики для определения качества бинарных классификаторов 23
3.4. Основной алгоритм поиска 6 частей преступления .... 26
3.5. Сравнение методов Named Entity Recognition и Dependency
tree parsing для нахождения места и времени 28
3.6. Анализ результатов Dependency tree parsing для поиска
преступника и жертвы 29
3.7. Сравнение обученных моделей w2v и glove для расширения словарей насильственного глагола и оружия 30
Выводы
34
Заключение
35
Список литературы
36
В мире каждый день происходят преступления - криминал, терроризм, мошенничества и прочее. Для их предотвращения необходимо анализировать все события, которые происходят вокруг, иметь базу знаний, в которой события будут структурированы.
Встает необходимость наличия инструмента для анализа информации, которая поступает в большом количестве посредством новостей, на предмет наличия в ней преступного контекста с возможностью полуавтоматической обработки и сохранения результатов.
Проект W6 assess был образован для создания такого инструмента для некоммерческой компании Insecurity Insight, которая занимается сбором и анализом информации о преступлениях.
Компания Insecurity Insight анализирует:
• природу и паттерны человеческих отношений при вооруженных конфликтах
• преступления, связанные с сексуальным насилием, криминалом и восстаниями людей
• оружие, которое используют преступники
• преступления, нацеленные на определенные категории профессий
- журналистов, социальных работников и прочих.
Результатом их работы являются:
• планирование и методики обеспечения безопасности
• получения связей между человеческими мероприятиями (выборы, медицинское обслуживание) и присутствием там насильственных событий
Проект W6 assess нацелен на получение 6 главных частей преступления из текста - что, где, когда, кто сделал, над кем и с помощью какого оружия. Это облегчит разбор больших статей и сразу выделит важные атрибуты преступления.
В результате проект W6 assess представляет из себя веб приложение, которое позволяет загружать новостные статьи, получать 6 частей преступления, сохранять их в необходимом формате.
В рамках данного исследования были получены следующие результаты:
• Обученный алгоритм NER лучше подходит для поиска места и времени в криминальных статьях, чем алгоритм, основанный на анализе дерева зависимостей.
• Алгоритм, основанный на анализе зависимостей не подходит для задачи поиска преступника и жертвы в криминальных статьях.
• Для расширения словарей насильственных глаголов и оружия можно использовать классификаторы, основанные как на обученной модели w2v, так и на модели glove.
Поставленные задачи были выполнены в полной мере.
В дальнейшем планируется создать алгоритм, который будет давать лучшие результаты для поиска преступника и жертвы.