Введение 3
Актуальность работы 3
Цель работы 5
Задачи 6
Глава 1. Обзор существующих средств и методов 6
Глава 2. Основы уголовного права России 10
Глава 3. Архитектура программного комплекса наивной квалификации в теории уголовно-правовой оценки деяния 16
3.1. Процесс построения семантического шаблона для
составов преступлений УК РФ 17
3.2. Теоретический алгоритм работы 22
Глава 4. Задача классификации 25
4.1. Постановка задачи классификации 25
4.2. Обзор существующих методов решения задачи
классификации с пересекающимися классами ... 27
4.3. Метод опорных векторов 29
4.3.1. Классический метод опорных векторов .... 29
4.3.2. Выбор ядра 35
4.3.3. Метод опорных векторов для многоклассовой классификации с пересекающимися классами 37
4.3.4. Преимущества и недостатки метода опорных векторов 38
4.4. ML-kNN — модификация метода k ближайших
соседей для многоклассовой классификации с пересекающимися классами 39
4.4.1. Преимущества и недостатки ML-kNN .... 44
4.5. Метрики качества многоклассовой классификации
с пересекающимися классами 44
Глава 5. Эксперимент и апробация 49
5.1. Постановка эксперимента 49
5.2. Подготовка обучающего множества для задачи
классификации 50
5.3. Результаты эксперимента 51
Заключение 53
Список литературы 55
Сегодня практически нет такого вида человеческой деятельности, где бы в той или иной мере не использовались компьютеры. Благодаря внедрению во второй половине XX века в повседневную жизнь компьютерной техники, а также специализированного программного обеспечения возросла эффективность правоприменительной практики. Чем новее и точнее применяемые в юридической деятельности средства и методы, тем быстрее решаются такие задачи уголовного судопроизводства, как раскрытие и расследование преступлений.
В настоящее время в юридической практике используются нейросетевой детектор лжи, нейросеть-антихакер и другие технологии, однако систем, которые помогли бы дознавателям, следователям, прокурорам и судьям оценить преступное деяние, предотвратить планируемые преступления на данный момент в России не существует.
Правовая система Российской Федерации (РФ) относится к романо-германской правовой семье, в которой основным источником права является закон (нормативно-правовой акт), в отличие от англо-американской правовой системы, составной частью которой является прецедентное право, т. е. прецедент — решение суда по определенному делу имеет силу источника права.
Одна из основных отраслей права в гражданском обществе — это уголовное право. Ст. 1 ч. 1 Уголовного кодекса (УК) РФ гласит: «Уголовное законодательство Российской Федерации состоит из настоящего Кодекса. Новые законы, предусматривающие уголовную ответственность, подлежат включению в настоящий Кодекс». Уголовный Кодекс представляет собой систематизированное изложение норм уголовного права. Он состоит из двух частей: Общей и Особенной, объединяющих 12 разделов, 34 главы и 360 статей.
Одной из существенных частей правоприменительной практики является осуществление квалификации преступлений. В своей деятельности работники правоохранительных органов постоянно сталкиваются с необходимостью квалифицировать совершенное тем или иным лицом общественно опасное деяние [1]. Квалифицировать преступление — значит дать ему юридическую оценку, установить соответствие между определенным деянием и признаками того или иного состава преступления, определить статью уголовного закона, предусматривающую наказание за совершенное преступление [2].
На данный момент существует большое количество попыток создать систему для анализа преступных деяний. Ключевым компонентом данных комплексов является применение методов интеллектуального анализа данных (с английского Data mining). В каждой из существующих систем используются различные методы, технологии, подходы анализа данных, а также различные правила и эвристики определения важной информации, связанной с преступлениями.
Семантический анализ и анализ текста используются для извлечения сущностей из материалов дела. Основанные на правилах системы созданы благодаря знанию предметной области, однако данные системы имеют ограничения в связи с динамическим характером преступлений. Кластеризация, классификация и визуализация с помощью графов помогают выявить схожие преступления и представить пользователю полученную информацию в удобном и понятном виде.
В виду того, что в России право не прецедентное, т. е. использовать методы латентно-семантического анализа текста для поиска по дубликатам и квалификации преступных деяний не имеет смысла, следовательно, для решения данной задачи согласно структуре права РФ, сначала необходимо произвести ручную семантическую разметку нормативно-правового акта, выделить основные характеристики всех составов преступлений. В данной работе основное внимание уделяется уголовному праву и Уголовному кодексу РФ.
Цель работы
Разработать модель процесса анализа и обработки данных в рамках процессуальных действий уполномоченных лиц, конечным результатом которого является выделение конкретных составов преступлений, предусмотренных действующим законодательством (УК РФ).
Задачи
Для успешного достижения поставленной цели необходимо:
• исследовать существующие методики анализа и оценки преступных деяний;
• изучить структуру права РФ, в особенности Уголовный кодекс РФ;
• разработать архитектуру информационного комплекса;
• произвести ручную семантическую разметку главы 16 УК РФ;
• изучить методы интеллектуального анализа данных, решающие задачу классификации;
• подобрать и апробировать методы классификации в рамках наивной квалификации преступлений.
В данной работе была разработана архитектура информационного комплекса, предназначенного для сбора и анализа данных в рамках задачи квалификации преступных деяний, произведена ручная семантическая разметка главы 16 Уголовного кодекса РФ и апробированы методы классификации для решения задачи наивной квалификации преступлений. В отличие от существующих систем и технологий, разработанный подход предназначен для стран с непрецедентным правом.
В дальнейшем планируется выделить атрибуты для других статей Уголовного кодекса РФ, рассмотреть атрибуты, относящиеся к субъекту и субъективной стороне, а также реализовать модуль для автоматического определения значений атрибутов в конкретном преступном деянии.
1. Прохоров Л. А., Прохорова М .Л. Уголовное право. М.: Юристъ, 1999. 480 с.
2. Корнеева А. В. Теоретические основы квалификации преступлений / под ред. А. И. Рарога. М.: ТК Велби, Проспект, 2008. 176 с.
3. Saeed U., Sarim M., Usmani A., Mukhtar A., Shaikh A. B., Raffat S. K. Application of machine learning algorithms in crime classification and classification Rule Mining // Research Journal of Recent Sciences. 2015. Vol. 4(3). P. 106 — 114.
4. Shojaee S., Mustapha A., Sidi F., Jabar M. A study on classification learning algorithms to predict crime status // International Journal of Digital Content Technology and its Applications. 2013. Vol. 7. P. 361 — 369.
5. Kianiv R., Mahdavi S., Keshavarzi A. Analysis and prediction of crimes by clustering and classification // International Journal of Advanced Research in Artificial Intelligence. 2015. Vol. 4. No. 8. P. 11 — 17.
6. Dahbur K., Muscarello T. Classification system for serial criminal patterns // Artificial Intelligence and Law. 2003. Vol. 11. P. 251 — 269.
7. Bhowmik R. Data Mining techniques in fraud detection // Journal of Digital Forensics, Security and Law. Vol. 3(2). P. 35 — 53.
8. Yu C., Ward M., Morabito M., Ding W. Crime forecasting using Data Mining techniques // Proceedings of the 2011 IEEE 11th International Conference on Data Mining Workshops. 2011. P. 779 — 786.
9. Buczak A. L., Gifford C. M. Fuzzy association rule mining for community crime pattern discovery // ACM SIGKDD Workshop on Intelligence and Security Informatics. 2012. P. 1 — 10.
10. Brown D. The Regional Crime Analysis Program (RECAP): A framework for mining data to catch criminals // Proceedings of the International Conference on Systems, Man, and Cybernetics. 1998. P. 2848 — 2853.
11. Комиссаров В. С. Российское уголовное право. Общая часть. СПб.: Питер, 2005. 560 с.
12. Преступления против личности. Энциклопедия юриста. [Электронный ресурс]: URL:http://dic.academic.ru/dic. nsf/enc_law/1799 (дата обращения 31.01.2017)
13. Коробеев А. И. Полный курс уголовного права. Том II. Преступления против личности. СПб.: Издательство Р. Асланова «Юридический центр Пресс». 2008. 682 с.
14. Zhang M. L., Zhou Z. H. ML-KNN: A lazy learning approach to multi-label learning // Pattern Recognition. 2007. Vol. 40. P. 2038 —2048.
15. Gao S., Wu W., Lee C.-H., Chua T.-S. A MFoM learning approach to robust multiclass multi-label text categorization // Proceedings of the 21st International Conference on Machine Learning. 2004. P. 329 — 336.
16. Kazawa H., Izumitani T., Taira H., Maeda E. Maximal margin labeling for multi-topic text categorization // Neural Information Processing Systems 17. 2005. P. 649 — 656.
17. McCallum A. Multi-label text classifcation with a mixture model trained by EM // Working Notes of the AAAI’99 Workshop on Text Learning. 1999. 7 p.
18. Schapire R. E., Singer Y. Boostexter: a boosting-based system for text Categorization // Machine Learning 39 (2/3). 2000. P. 135 —168.
19. Comite F. D., Gilleron R., Tommasi M. Learning multi-label altenating decision tree from texts and data // Lecture Notes in Computer Science 2734. 2003. P. 35 — 49.
20. Ueda N., Saito K. Parametric mixture models for multi¬label text // Neural Information Processing Systems 15. 2003. P. 721 — 728.
21. Elisseef A., Weston J. A kernel method for multi-labelled classification // Neural Information Processing Systems 14. 2002. P. 681 — 687.
22. Clare A., King R. D. Knowledge discovery in multi-label phenotype data // Lecture Notes in Computer Science 2168. 2001. P. 42 — 53.
23. Boutell M. R., Luo J., Shen X., Brown C. M. Learning multi¬label scene classification // Pattern Recognition 37 (9). 2004. P. 1757 — 1771.
24. Read J. A pruned problem transformation method for multi¬label classification // New Zealand Computer Science Research Student Conference Proceedings, NZCSRS’08. 2008. P. 143 — 150.
25. Dietterich T. G., Bakiri G. Solving multiclass learning problems via error-correcting output codes // Artificial Intell. 1995. Vol. 2. P. 263 — 286.
26. Li X., Wang L., Sung E. Multilabel SVM active learning for image classification // International Conference on Image Processing (ICIP). 2004. Vol. 4. P. 2207 — 2010
27. Профессиональный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных. [Электронный ресурс]: URL:http://www.machinelearning.ru/ wiki/images/2/25/SMAIS11_SVM.pdf (дата обращения 10.04.2017)
28. Mercer J. Functions of positive and negative type and their connection with the theory of integral equations // Philos. Trans. Roy. Soc. London. 1909. Vol. A. No. 209. P. 415 — 446.
29. Godbole S., Sarawagi S. Discriminative methods for multi¬labeled classification // PAKDD’04: 8th Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2004. P. 22 — 30.
30. Sorower Mohammad S. A literature survey on algorithms for multi-label learning. Oregon State University, Corvallis. 2010. 25 p.
31. Zhang M.-L., Zhou Z.-H. A review on multi-label learning algorithms // IEEE Transactions on Knowledge and Data Engineering. 2014. Vol. 26. P. 1819 — 1837.
32. Halder C., Obaidullah S. M., Roy K. Offline writer identification from isolated characters using textural features // Proceedings of the 4th International Conference on Frontiers in Intelligent Computing: Theory and Applications (FICTA). 2015. P. 221 — 231.