Введение 3
1. Рекомендательные системы 5
1.1. Классификация рекомендательных систем 5
1.2. Выбор алгоритма для решения задачи 8
1.3. Обзор методов оценки рекомендательных систем 9
2. Разработка системы 13
2.1. Разработка архитектуры системы 13
2.2. Сбор данных 16
2.3. Предобработка собранных данных 19
2.4. Подбор моделей для векторного представления документов . . . 21
2.5. Обучение базовых моделей 23
2.6. Разработка веб-приложения для доступа к рекомендациям ... 26
3. Оценка разработанной системы 28
3.1. Сбор тестовых данных 28
3.2. Оценка построенных моделей
Список литературы
Количество информации в нашем мире стремительно растет. Это касается в том числе и юридических документов, новые судебные решения появляются каждый день. Например, база Росправосудия, одна из наиболее известных и больших в рунете, содержит более 130 миллионов решений российских судов [1]. С увеличением количества информации человеку всё труднее становится в ней ориентироваться, возрастает необходимость в автоматической обработке и фильтрации. Выбрать среди 130 миллионов решений наиболее релевантное вручную представляется нетривиальной задачей.
В рамках работы будет решена задача поиска близких по содержанию документов в большом массиве судебных решений российских судов. Эта задача наиболее актуальна для стран с прецедентным правом, однако некоторые элементы прецедентного права используются и в других правовых системах, в том числе и в российской [2].
Целью работы является построение рекомендательной системы для решений российских судов, позволяющей пользователю по поданному на вход исковому заявлению, либо судебному решению, получить список судебных решений по наиболее релевантным делам. Такая система полезна сама по себе, поскольку позволяет оценить случай на основе существующих прецедентов. Помимо этого предполагается возможность интеграции в другие автоматизированные юридические системы, в частности в платформу ”Робот-юрист”.
Для построения такой системы необходимо
1. изучить существующие методы построения рекомендательных систем, а также методы обработки естественных языков
2. построить модель для представления документов и собрать датасет для обучения и оценки системы
3. реализовать саму систему, в том числе необходимые интерфейсы для взаимодействия
4. изучить методы оценки таких систем, разработать фреймворк для оценки качества рекомендаций
Объектом исследования является разработка рекомендательной системы на основе связей в массиве юридических документов на естественном языке.
Предметом исследования является рекомендательная система на основе методов машинного обучения и обработки естественных языков.