ВВЕДЕНИЕ 3
1 ПОДХОДЫ К КЛАССИФИКАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ 5
1.1 Ручная классификация 5
1.2 Автоматическая классификация 5
2 ФОРМАЛИЗАЦИЯ ЗАДАЧИ ПОСТРОЕНИЯ КЛАССИФИКАТОРА.
НАЗНАЧЕНИЕ ВЕБ-ПРИЛОЖЕНИЯ 9
2.1 Формализация задачи построения классификатора 9
2.2 Назначение веб-приложения 9
2.3 Данные 9
3. ЭТАПЫ ПРОЦЕССА КЛАССИФИКАЦИИ. МЕТРИКИ ДЛЯ ОЦЕНКИ КАЧЕСТВА АЛГОРИТМОВ 10
3.1 Этапы процесса классификации методом машинного обучения 10
3.2 Метрики для оценки качества алгоритмов 10
4 РЕАЛИЗАЦИЯ МОДЕЛЕЙ КЛАССИФИКАЦИИ И РАЗРАБОТКА ВЕБПРИЛОЖЕНИЯ 13
4.1 Реализация моделей классификации 13
4.2 Разработка веб-приложения 24
ЗАКЛЮЧЕНИЕ 28
ГЛОССАРИЙ 29
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 30
ПРИЛОЖЕНИЕ 35
Как показывает статистка [24, 23, 20], в госсекторе наблюдается лавинообразный рост текстовых документов, в частности это происходит, в судопроизводстве Российской Федерации. Сегодня квалифицированные сотрудники выполняют ручное распределение дел по классам судебных споров, то есть сопоставление текста к заранее определенному классу.
Такой процесс в интеллектуальном анализе текста называется «Классификация текста» (Text Classification). При классификации, модель классификации или классификатор строится на основе обучающих данных и определяется метка класса текстовых данных. Классификация документа несет за собой уникальные проблемы из-за большого количества обучающих выборок, зависимостей между словами в выборках. Это привело к разработке множества алгоритмов классификации текста, которые в разной степени решают эти проблемы.
Ручное распределение требует высокой квалификации сотрудника в данной области.
Таким образом, назрела необходимость создания приложения, которое могло бы автоматически классифицировать юридические документы.
Приложение является одним из модулей разрабатываемой системы, посвященной решению проблемы документооборота Арбитражного суда Республики Татарстан [4, 22].
Целью данной работы является разработка веб-приложения для автоматической классификации юридических документов.
Для достижения этой цели поставлены следующие задачи:
1. Сделать сравнительный анализ существующих методов
классификации, подготовить отчет по итогам анализа;
3
2. Реализовать систему классификации юридических документов на основе выявленного в результате анализа оптимального метода;
3. Разработать демонстрационное веб-приложение;
Выпускная квалификационная работа включает в себя введение, 4 главы, глоссарий, заключение, список источников и литературы, приложение.
В первой главе кратко описаны подходы к классификации текстовых документов.
Во второй главе приведено формальное определение задачи математическим языком и описано назначение веб-приложения.
В третьей главе описаны этапы классификации текстовых документов методом машинного обучения и метрики для оценки качества алгоритмов.
В четвертой главе описаны этапы реализации моделей классификации с применением библиотек машинного обучения, этапы разработки вебприложения, а также анализ полученных результатов.
В данной работе были применены алгоритмы машинного обучения, такие как K-ближайших соседей, Наивно-байесовский классификатор, Метод опорных векторов, Случайный лес и алгоритм градиентного бустинга на открытых юридических документах для их классификации. Все представленные алгоритмы были применены из библиотеки sklearn и XGBoost. Также было разработано демонстрационное веб-приложение для быстрой и удобной классификации юридических документов к определенному классу.
Разработанное приложение имеет некоторые ограничения по количеству определяемых классов. Можно выделить несколько перспективных задач, которые могут быть решены в будущем:
- повышение точности классификации документов на новых данных;
- увеличение количество предсказываемых классов;
А также разработанное приложение планируется интегрировать с системой, разрабатываемой в рамках проекта “Робот-юрист” и внедрить в структуры Арбитражного Суда Республики Татарстан.
Исходный код работы выложен на веб-сервисе для хостинга IT-проектов GitLab, по адресу http://gititis.kpfu.ru/DIRaimov/LawDocClassificatorApp
Все поставленные задачи были решены.