Введение 3
1. Рекомендательные системы 5
1.1. Классификация рекомендательных систем 5
1.2. Выбор алгоритма для решения задачи 8
1.3. Обзор методов оценки рекомендательных систем 9
2. Разработка системы 13
2.1. Разработка архитектуры системы 13
2.2. Сбор данных 16
2.3. Предобработка собранных данных 19
2.4. Подбор моделей для векторного представления документов . . . 21
2.5. Обучение базовых моделей 23
2.6. Разработка веб-приложения для доступа к рекомендациям ... 26
3. Оценка разработанной системы 28
3.1. Сбор тестовых данных 28
3.2. Оценка построенных моделей
Список литературы
Количество информации в нашем мире стремительно растет. Это касается в том числе и юридических документов, новые судебные решения появляются каждый день. Например, база Росправосудия, одна из наиболее известных и больших в рунете, содержит более 130 миллионов решений российских судов [1]. С увеличением количества информации человеку всё труднее становится в ней ориентироваться, возрастает необходимость в автоматической обработке и фильтрации. Выбрать среди 130 миллионов решений наиболее релевантное вручную представляется нетривиальной задачей.
В рамках работы будет решена задача поиска близких по содержанию документов в большом массиве судебных решений российских судов. Эта задача наиболее актуальна для стран с прецедентным правом, однако некоторые элементы прецедентного права используются и в других правовых системах, в том числе и в российской [2].
Целью работы является построение рекомендательной системы для решений российских судов, позволяющей пользователю по поданному на вход исковому заявлению, либо судебному решению, получить список судебных решений по наиболее релевантным делам. Такая система полезна сама по себе, поскольку позволяет оценить случай на основе существующих прецедентов. Помимо этого предполагается возможность интеграции в другие автоматизированные юридические системы, в частности в платформу ”Робот-юрист”.
Для построения такой системы необходимо
1. изучить существующие методы построения рекомендательных систем, а также методы обработки естественных языков
2. построить модель для представления документов и собрать датасет для обучения и оценки системы
3. реализовать саму систему, в том числе необходимые интерфейсы для взаимодействия
4. изучить методы оценки таких систем, разработать фреймворк для оценки качества рекомендаций
Объектом исследования является разработка рекомендательной системы на основе связей в массиве юридических документов на естественном языке.
Предметом исследования является рекомендательная система на основе методов машинного обучения и обработки естественных языков.
1. Росправосудие.—URL: http://rospravjmnxyxlu3.onion/ (дата обр. 26.12.2018).
2. Стругова Е. В. Судебный прецедент: реалии современной российской действительности // Юридическая наука. — 2016 №2. — ISSN 22205500.
3. Aggarwal C. C. Recommender Systems: The Textbook. — Springer, 2016. — ISBN 978-3-319-29659-3.
4. Introduction to Recommender Systems: Non-Personalized and Content-Based. — URL: https : / / www . coursera . org / learn / recommender - systems-introduction (дата обр. 06.06.2019).
5. Tuzhilin A., Adomavicius G. Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions // IEEE Transactions on Knowledge & Data Engineering. — 2005. — Июнь. — Т 17. — С. 734—749. — ISSN 1041-4347. — DOI: 10.1109/TKDE.2005.
99. —URL: doi . ieeecomputersociety .org/10. 1109/TKDE . 2005.99.
6. Buckland M., Gey F. The relationship between recall and precision // Journal of the American society for information science. — 1994. — Т 45, № 1. —
С. 12—19.
7. Millman K. J., Aivazis M. Python for scientists and engineers // Computing in Science & Engineering. — 2011. — Т 13, № 2. — С. 9—12.
8. Федеральный закон от 22.12.2008 N 262-ФЗ (ред. от 28.12.2017) ”Об обеспечении доступа к информации о деятельности судов в Российской Федерации” // СПС КонсультантПлюс. —.
9. Арбитражный процессуальный кодекс Российской Федерации от 24.07.2002 N 95-ФЗ (ред. от 25.12.2018) // СПС КонсультантПлюс. —.
10. Getting started with Crawlera. —URL: https://support.scrapinghub. com/support/solutions/articles/22000188411-getting- started-with-crawlera (дата обр. 10.06.2019).
11. Gurusamy V, Kannan S. Preprocessing Techniques for Text Mining // RTRICS, AtPodi. — 10.2014.
12. Alghamdi R., Alfalqi K. A Survey of Topic Modeling in Text Mining // Internationa Journal of Advanced Computer Science and Applications. — 2015. — Янв. —
Т 6. — DOI: 10.14569/IJACSA.2015.060121.
13. Воронцов В. К. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады Академии наук. — 2014. —
Янв.— Т 456. —С. 268—271. —DOI: 10.7868/S0869565214090096.
14. Le Q., Mikolov T. Distributed representations of sentences and documents // International conference on machine learning. — 2014. — С. 1188—1196.
15. Foreword - Flask 1.0.2 documentation. — URL: http : / / flask . pocoo . org/docs/1.0/foreword/ (дата обр. 10.06.2019).