Актуальность. За последние десять-пятнадцать лет произошел взрывной рост объема мировых данных в сети Интернет. Этому много причин, но основная заключается в том, что Интернет все больше входит в повседневную жизнь людей. Наибольший вклад в этот рост вносят данные веб-приложений. Многие вещи, которые раньше можно было сделать только офлайн, сейчас можно делать через онлайн-сервисы, например, теперь существует возможность покупать авиа и железнодорожные билеты через интернет. При этом создается большое количество данных, которое необходимо обрабатывать. В связи с увеличением количества хранимых данных, повышаются требования к скорости загрузки и обработки данных.
Одна из сфер, где также замечен рост объема данных, - правовая информатика. Правовая информатика — это прикладная юридическая наука, исследующая право и правовую систему общества с точки зрения информатики. Существует множество веб-сервисов, которые предоставляют доступ к аналитике юридических документов. Под анализом юридических документов понимается правовое исследование документа на предмет соответствия действующему законодательству, оценки юридической грамотности документа, выделения ссылок на другие юридические документы, а также выделения окраски и смысла вынесенного решения. Юридические документы являются неструктурированными данными, поэтому с точки зрения анализа текстов, ключевой задачей является извлечение знаний из огромного массива информации. Одним из способов извлечения знаний является информационный поиск. Тексты судебных решений судов Российской Федерации, а также тексты кодексов в различных изданиях со всеми правками занимают сотни ГБ памяти, а значит, для обработки поискового запроса по ним необходимо рассмотреть большое количество документов. Точность в подобных вопросах играет ключевую роль, поэтому разработка информационно-поисковой системы, которая будет удовлетворять запросам пользователя, является актуальной задачей на стыке правовой информатики и информационного поиска.
В результате данной работы были проведены обзор и сравнение актуальных open-source поисковых систем, была изучена предметная область, предложены и рассмотрены подходы к улучшению метрик полноты и точности поискового запроса, а также реализовано Java- приложение.
[1] Ali AKCA Mustafa Aydogan Tuncay Ilkucar Muhammer. An Analysis on the Comparison of the Performance and Configuration Features of Big Data Tools Solr and Elasticsearch. International Journal of Intelligent Systems and Applications in Engineering.— 2016.— URL: https://www.researchgate.net/publication/311916747_ An_Analysis_on_the_Comparison_of_the_Performance_and_ Configuration_Features_of_Big_Data_Tools_Solr_and_ Elasticsearch.
[2] Apache Solr vs Elasticsearch.— URL: http:// solr-vs-elasticsearch.com/.
[3] The C++ connector for PostgreSQL.— URL: http://pqxx.org/ development/libpqxx/.
[4] DB-Engines Ranking URL.— URL: https://db-engines.com/en/ ranking/search+engine.
[5] ElasticSearch. — URL: https://www.elastic.co/.
[6] James H. Fowler Timothy R. Johnson James F. Spriggs II Sangick Jeon Paul J. Wahlbeck. Network Analysis and the Law: Measuring the Legal Importance of Precedents at the U.S. Supreme Court. — 2007. — URL: http://fowler.ucsd.edu/network_analysis_and_the_law.pdf.
[7] PostgreSQL full-text search.— URL: https://postgrespro.ru/ docs/postgresql/9.5/textsearch.
[8] Solr. — URL: http://lucene.apache.org/solr/.
[9] Sonic - fast, lightweight and schema-less search backend URL:. — URL: https://github.com/valeriansaliou/sonic.
[10] Sphinx Search Engine.— URL: http://www.sphinxsearch.com/ docs/sphinx3.html.
[11] Updating parts of documents in Solr.— URL: https://lucene. apache.org/solr/guide/6_6/updating-parts-of-documents. html.
[12] Земцов А.Н. Зунг Хань Чан. Об эффективности поиска данных в веб-приложениях // ИВД. №3 (46).— 2017.— URL: https://cyberleninka.ru/article/n/ob-effektivnosti-poiska-dannyh-v-veb-prilozheniyah.
[13] Лозовюк Александр. Полнотекстовый поиск в веб-проектах: Sphinx, Apache Lucene, Xapian. — 2008. — URL: https://habr.com/ ru/post/30594/.
[14] Ссылка на проект «Юридическая аналитика».— URL: https://github.com/robot-lab/judyst-main-web-service/ wiki/Additional-information.
[15] Ссылка на разработанную информационно-поисковую систему.— URL: https://github.com/ottenokLeshi/legaltech.
...