Тип работы:
Предмет:
Язык работы:


Применение методов машинного обучения для полуавтоматической обработки новостей

Работа №127848

Тип работы

Бакалаврская работа

Предмет

информационные системы

Объем работы37
Год сдачи2017
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
33
Не подходит работа?

Узнай цену на написание


Введение 5
Постановка задачи 7
Обзор литературы 8
1. Парсеры текста. Обзор и сравнение готовых решений. 9
1.1. Основные части библиотек для обработки текста 9
1.1.1. Named Entity Recognition 9
1.1.2. POS tagger 10
1.1.3. Dependency tree parser 11
1.1.4. Stemming 12
1.2. Обзор существующих библиотек для анализа текстов . . 13
2. Методы машинного обучения для векторизации слов 15
2.1. Word2Vec 15
2.2. Glove 19
3. Реализация задачи 20
3.1. Подготовка данных 20
3.2. Разметка полученных данных 20
3.3. Метрики для оценки точности алгоритмов 20
3.3.1. Метрика для сравнения словосочетаний 21
3.3.2. Метрики для определения качества бинарных классификаторов 23
3.4. Основной алгоритм поиска 6 частей преступления .... 26
3.5. Сравнение методов Named Entity Recognition и Dependency
tree parsing для нахождения места и времени 28
3.6. Анализ результатов Dependency tree parsing для поиска
преступника и жертвы 29
3.7. Сравнение обученных моделей w2v и glove для расширения словарей насильственного глагола и оружия 30
Выводы
34
Заключение
35
Список литературы
36







В мире каждый день происходят преступления - криминал, терроризм, мошенничества и прочее. Для их предотвращения необходимо анализировать все события, которые происходят вокруг, иметь базу знаний, в которой события будут структурированы.
Встает необходимость наличия инструмента для анализа информации, которая поступает в большом количестве посредством новостей, на предмет наличия в ней преступного контекста с возможностью полуавтоматической обработки и сохранения результатов.
Проект W6 assess был образован для создания такого инструмента для некоммерческой компании Insecurity Insight, которая занимается сбором и анализом информации о преступлениях.
Компания Insecurity Insight анализирует:
• природу и паттерны человеческих отношений при вооруженных конфликтах
• преступления, связанные с сексуальным насилием, криминалом и восстаниями людей
• оружие, которое используют преступники
• преступления, нацеленные на определенные категории профессий
- журналистов, социальных работников и прочих.
Результатом их работы являются:
• планирование и методики обеспечения безопасности
• получения связей между человеческими мероприятиями (выборы, медицинское обслуживание) и присутствием там насильственных событий
Проект W6 assess нацелен на получение 6 главных частей преступления из текста - что, где, когда, кто сделал, над кем и с помощью какого оружия. Это облегчит разбор больших статей и сразу выделит важные атрибуты преступления.
В результате проект W6 assess представляет из себя веб приложение, которое позволяет загружать новостные статьи, получать 6 частей преступления, сохранять их в необходимом формате.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данного исследования были получены следующие результаты:
• Обученный алгоритм NER лучше подходит для поиска места и времени в криминальных статьях, чем алгоритм, основанный на анализе дерева зависимостей.
• Алгоритм, основанный на анализе зависимостей не подходит для задачи поиска преступника и жертвы в криминальных статьях.
• Для расширения словарей насильственных глаголов и оружия можно использовать классификаторы, основанные как на обученной модели w2v, так и на модели glove.
Поставленные задачи были выполнены в полной мере.
В дальнейшем планируется создать алгоритм, который будет давать лучшие результаты для поиска преступника и жертвы.


[1] Apache OpenNLP. — Access mode: https://opennlp.apache.org/.
[2] Continuous Bag of Words (CBOW). — Access mode: https://iksinc. wordpress.com/tag/continuous-bag-of-words-cbow/.
[3] Global Vectors for Word Representation. — Access mode: https:// nlp.stanford.edu/projects/glove/.
[4] Insecurity Insight Webpage. — Access mode: http://www. insecurityinsight.org/.
[5] J. Pennington R. Socher Chr. D. Manning. GloVe: Global Vectors for Word Representation. — Access mode: https://nlp.stanford.edu/ pubs/glove.pdf.
[6] Java fuzzy string matching implemenation of the well known Python’s fuzzywuzzy algorithm. — Access mode: https://github.com/xdrop/ fuzzywuzzy.
[7] K. Toutanova Chr. D. Manning. Enriching the Knowledge Sources Used in a Maximum Entropy Part-of-Speech Tagger. — Access mode: https: //nlp.stanford.edu/~manning/papers/emnlp2000.pdf.
[8] M-C. de Marneffe Chr. D. Manning. Stanford typed dependencies manual. — 2016. — Access mode: https://nlp.stanford.edu/ software/dependencies_manual.pdf.
[9] M.H. Zweig G. Campbell. Receiver-Operating Characteristic (ROC) Plots: A Fundamental Evaluation Tool in Clinical Medicine. — Access mode: http://clinchem.aaccjnls.org/content/clinchem/ 39/4/561.full.pdf.
[10] Natural Language Toolkit. — Access mode: http://www.nltk.org/.
[11] Paice/Husk Stemming Algorithm. — Access mode: https://web. archive.org/web/20140826000545/http://www.comp.lancs.ac. uk:80/computing/research/stemming/Links/paice.htm.
[12] Porter Stemming Algorithm.—Access mode: https://web.archive. org/web/20140826021336/http://www.comp.lancs.ac.uk: 80/computing/research/stemming/Links/porter.htm.
[13] SYNC3 project. — Access mode: https://web.archive.org/web/ 20160630172138/http://www.sync3.eu/.
[14] Stanford CoreNLP - Core natural language software. — Access mode: https://stanfordnlp.github.io/CoreNLP/.
[15] Stanford Dependencies. — Access mode: https://nlp.stanford.edu/ software/stanford-dependencies.shtml.
[16] Stanford Log-linear Part-Of-Speech Tagger. — 2016. — Access mode: https://nlp.stanford.edu/software/tagger.html.
[17] Stanford Named Entity Recognizer (NER). — 2016.—Access mode: https://nlp.stanford.edu/software/CRF-NER.shtml.
[18] Vector Representations of Words. — Access mode: https://www. tensorflow.org/tutorials/word2vec.
[19] Xerox Incremental Parser. — Access mode: https://open.xerox.com/ Services/XIPParser.
[20] А. Ю. Антонова А. Н. Соловьев. Метод условных случайных полей в задачах обработки русскаязычных текстов. — Access mode: http: //itas2013.iitp.ru/pdf/1569759547.pdf.



Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ