Введение 10
1 Анализ предметной области судопроизводства 12
1.1 Актуальность анализа данных судопроизводства 12
1.2 Анализ структуры данных судебных решений 13
1.3 Обзор аналогов 15
1.3.1 «Casebook» 15
1.3.2 «РосПравосудие» 17
1.4 Постановка задачи 18
2 Проектирование инструментов для обработки данных 20
2.1 Выбор инструментов разработки 20
2.2 Проектирование базы данных судопроизводства 21
2.3 Проектирование инструмента для извлечения атрибутов судебного
решения 23
2.4 Проектирование инструмента для наполнения базы данных 30
3 Разработка инструментов для обработки данных 33
3.1 Разработка инструмента для извлечения атрибутов судебного дела.. 33
3.2 Разработка инструмента для наполнения базы данных 34
4 Анализ данных с использованием технологии Data Mining 35
Заключение 76
Список использованных источников 77
Приложение А 80
Приложение Б 81
Приложение В 82
В наше время происходит интенсивное накопление огромных объёмов данных разного типа в различных предметных областях измеряемые в петабайтах, это в свою очередь даёт возможность решать задачи получения новых фактов, зависимостей и скрытых корреляций, а также позволяет решать некоторые аналитические задачи, такие как прогнозирование, проверка статистических гипотез, расчёт агрегатных показателей и т.д.
Объектом исследования является задача нахождения скрытых закономерностей, а предметом исследования - решения по судебным делам.
Цель работы - анализ записей, полученных в результате обработки документов и решений судов РФ с помощью методов и средств технологии Business Intelligence.
Анализ судопроизводства довольно актуален, поскольку результаты анализа будут интересны как большим организациям, таким как правоохранительные органы и правозащитные организации, так и отдельным лицам, таким как независимые юристы и люди, находящиеся под следствием. Для больших организаций будет более интересен глубокий анализ для поиска скрытых зависимостей и отклонений, а отдельным лицам анализ по конкретным судьям и адвокатам, который может помочь предсказать какое решение может быть вынесено определенным судьей или выбрать наиболее эффективного адвоката.
Значимость данной работы состоит в том, что разработанные инструменты позволят заинтересованным людям самостоятельно извлекать и анализировать данные.
В первом разделе данной работы проведен анализ предметной области, обоснована актуальность исследования и изложены результаты обзора аналогов.
Во втором разделе представлены проектирование и реализация базы данных, а также приведены результаты проектирования инструментов для извлечения атрибутов из текстов судебных дел и наполнения базы данных судопроизводства.
В третьем разделе представлены результаты разработки инструментов для извлечения атрибутов из текстов судебных дел и наполнения базы данных судопроизводства.
В четвертом разделе представлены результаты OLAP анализа данных, извлеченных из решений по судебным делам.
В пятом разделе рассмотрены вопросы финансового менеджмента, результаты расчетов и анализ ресурсоэффективности и ресурсосбережения.
В шестом разделе описаны основные требования социальной ответственности.
Извлечение данных выполнено в среде PyCharm, язык программирования - Pyton. Запись данных в БД выполнена в среде Visual Studio 2013, язык программирования - C#. Для создания БД использовалась среда Microsoft SQL Server 2014 Management Studio. OLAP и Data Mining анализ выполнен в среде Visual Studio 2013, с использованием Excel 2013. Пояснительная записка оформлена в Microsoft Word 2013.
В ходе выполнения данной работы были выполнены следующие задачи: анализ предметной области и текстов судебных решений, проектирование и реализация базы данных для хранения извлеченных параметров, проектирование и разработка инструментов для извлечения атрибутов судебных дел и наполнения базы данных, Data Mining анализ данных.
Изучение предметной области позволило выявить актуальность исследования, определить перечень атрибутов, которые возможно и необходимо извлечь из судебных решений, а также спроектировать структуру базы данных и инструментов для извлечения атрибутов судебных дел и наполнения базы данных. На основе спроектированного решения была выполнена программная реализация инструмента для извлечения атрибутов судебных дел в среде разработки Pycharm на языке программирования Python. А также выполнена программная реализация инструмента для анализа решений судов, хранимых в подготовленном виде.
Data Mining анализ данных проводился в среде Pycharm, а также с помощью библиотек nympy, sklearn, mathplot. Проведенный анализ позволил получить статистическую информацию и выявить некоторые закономерности между различными атрибутами решений. Так, например, основными атрибутами решений, влияющих на их сходимость являются имя судьи, название суда, тип решения, тип наказания и т.д.
В дальнейшем данное исследование можно развивать, увеличив объем анализируемых судебных решений и анализировать не только судебные дела Томской области, а дела всей Российской Федерации. Кроме того, можно увеличить объем параметров, извлекаемых из судебных решений.