Аннотация 2
ВВЕДЕНИЕ 4
ГЛАВА I. ТЕРМИН КАК ОБЪЕКТ ЛИНГВИСТИЧЕСКОГО ИССЛЕДОВАНИЯ 8
1.1. Теоретико-методологические аспекты изучения проблем юрислингвистики 8
1.2. Понятие и основные характеристики термина 13
1.3. Характеристика юридических терминов 25
1.3.1. Особенности юридической терминологии 25
1.3.2. Классификация юридических терминов 33
Выводы по главе I 38
ГЛАВА II. ИЗВЛЕЧЕНИЕ ТЕРМИНОЛОГИИ ИЗ ТЕКСТОВ НА
ЕСТЕСТВЕННОМ ЯЗЫКЕ 40
2.1. Обзор существующих программ и сервисов по извлечению
терминологии 41
2.1.1. MemoQ 42
2.1.2. SDL MultiTerm Extract 43
2.1.3. SynchroTerm 45
2.1.4. Tilde Terminology 47
2.1.5. SketchEngine 49
2.2. Использование формальных грамматик для извлечения юридических
терминов (с использованием ПО Томита-парсер) 52
Выводы по главе II 59
ЗАКЛЮЧЕНИЕ 61
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 63
ПРИЛОЖЕНИЕ А. Листинг кода веб-краулера 73
ПРИЛОЖЕНИЕ Б. Список формальных грамматических выражений для выделенной терминологии 74
ПРИЛОЖЕНИЕ В. Листинг кода для извлечения юридической терминологии в
ПО Томита-парсер 78
ПРИЛОЖЕНИЕ Г. Список извлеченных истинно -положительных терминов ... 84
ПРИЛОЖЕНИЕ Д. Список извлеченных ложноположительных терминов 92
ПРИЛОЖЕНИЕ Е. Список извлеченных ложноотрицательных терминов 98
ПРИЛОЖЕНИЕ Ж. Предметный указатель компетенций 99
Настоящее исследование посвящено изучению проблемы автоматического извлечения юридической терминологии с применением формальных грамматических выражений из правового дискурса, а именно текстов судебных решений.
Актуальность выбранной темы обусловлена значимостью проблемы автоматического извлечения терминов из текстов на естественном языке, поиск решения которой требует внимания лингвистов и юристов, их совместной работы.
Большая часть информации, которая обрабатывается вычислительными системами в настоящее время, представлена текстами на естественном языке, и с каждым днем их объем только увеличивается. Многие задачи, связанные с автоматической обработкой текстов, предполагают поиск и извлечение заданных языковых единиц (слов и словосочетаний). В научно -технических текстах данные единицы выражены терминами, которые являясь наиболее частотными единицами заключают в себе и передают смысловую нагрузку всего текста.
Извлечение терминологии является важной задачей современных лингвистических исследований. С течением времени терминосистемы различных предметных областей претерпевают изменения, однако существующие лексикографические источники (такие как терминологические словари, стандарты, базы данных) не всегда отражают современную информацию о терминах и обозначаемых ими понятиях. В виду постоянного изменения терминосистем различных областей знаний возникает необходимость разработки и совершенствования методов извлечения терминологии, которые в свою очередь могут помочь при решении задач в области терминоведения, общей и прикладной лексикографии, информационного поиска и машинного перевода.
Объектом исследования в нашей работе является юридическая терминология как проблема автоматической обработки текстов.
В качестве предмета исследования выступает специфика извлечения юридической терминологии из текстов на естественном языке.
Цель данной работы заключается в автоматизации процесса извлечения терминологии из текстов судебных решений и разработке его методики.
Для достижения поставленной цели необходимо решить следующие задачи:
1) Систематизировать и обобщить актуальные научно-теоретические подходы и практико-технологические решения по автоматизации извлечения терминологии из текстов.
2) Разработать систему формальных грамматик для извлечения юридической терминологии.
3) Извлечь терминологию из юридических текстов с помощью ПО Tomita Parser.
4) Апробировать формальные грамматики на выборке актов судебных решений.
5) Систематизировать истинно-положительные,
ложноположительные и ложноотрицательные результаты работы формальных грамматик для оценки продуктивности их использования в анализе юридических текстов и разработки методики их корректировки.
Материалом исследования послужили тексты 20 судебных актов, а именно, протоколов судов общей юрисдикции, датированные периодом с 1 января по 31 декабря 2021 года. Из данных текстов были извлечены более 700 словарных цепочек, выражающих юридические понятия, явления и реалии.
Цель и задачи исследования определили используемые методы. При изложении материала использовался метод научного описания, реализующийся в приёмах анализа, синтеза, дедукции, индукции. Эмпирический материал был отобран методами сплошной и направленной выборки, и исследован с применением метода формальной грамматики и алгоритма японского формалиста Томита.
Теоретической базой исследования послужили работы отечественных и зарубежных ученых, касающиеся изучения различных аспектов терминологии, в том числе, юридической: Н. Д. Голева, С. В. Гринева, И. В. Палашевской, А. А. Реформатского, А. В. Суперанской, В. Ю. Туранина, С. П. Хижняка, С. Д. Шелова и других.
Теоретическая значимость данной работы заключается в систематизации накопленных о терминах научных знаний и применении этих знаний при разработке методики извлечения терминов из текстов.
Практическая значимость данного исследования состоит в том, что полученные результаты могут быть использованы в разработке сервиса извлечения терминологии и фактов из юридических текстов, а также в качестве учебно-методических материалов для спецкурсов по изучению формальных грамматик.
Научная новизна диссертационной работы заключается в том, что до настоящего времени не было предложено четкой методологии для правильного извлечения юридической терминологии из текстов на естественном языке при помощи формальных методов.
Структура выпускной квалификационной работы определяется поставленными целью и задачами. Работа состоит из введения, двух глав, заключения, списка использованной литературы и шести приложений.
Во введении обосновывается актуальность выбранной темы работы, обозначаются объект и предмет исследования, определяются цель, задачи и методы исследования, а также раскрывается практическая и теоретическая значимость, научная новизна, описывается структура работы.
В первой главе дается описание юрислингвистике и юридическому дискурсу; вводится понятие термина, рассматриваются отличительные черты терминов как речевых единиц особого типа, в частности, юридических терминов; а также описываются особенности извлечения языковых единиц из текстов при помощи специализированных ПО.
Во второй главе проводится обзор существующих программ и сервисов по извлечению терминологии из текстов, разрабатывается система формальных грамматических выражений для извлечения юридических терминов из текстов судебных актов, а также, анализируются полученные результаты.
В заключении подводятся итоги проведенного исследования, формулируются основные выводы и намечаются перспективы дальнейшего исследования по заданной тематике.
Список использованной литературы насчитывает 111 источников на русском и английском языках.
В приложениях приводится листинг программного кода, использованного для скачивания анализируемых текстов; выделенная в них юридическая терминология; разработанные формально грамматические шаблоны; листинг кода для извлечения терминологии с помощью ПО Томита-парсер; извлеченные юридические термины по категориям (истинно-положительные, ложноположительные и ложноотрицательные).
В данной выпускной квалификационной работе была рассмотрена юридическая терминология как проблема автоматической обработки текстов.
В первой главе мы выяснили, что понятие «термин» на данный момент не имеет общепризнанного определения, однако большинство исследователей сходится в выделении основных характеристик терминов. Изучив ряд определений, мы сформулировали собственный вариант дефиниции: термин - это слово, словосочетание или предложение, точно выражающее специальное понятие определенной области знаний и стремящееся к однозначности. Мы смогли выделить различные свойства, виды и функции терминологических единиц, опираясь на их понятиеобразующие признаки.
Значительную часть главы составило исследование особенностей юридической терминологии. Были рассмотрены свойства юридического языка, терминологии и, собственно, термина, а также, требования, предъявляемые к юридическим терминам.
Во второй главе нашей работы были рассмотрены существующие программы и сервисы по извлечению терминологии, выявлены их особенности.
Мы разработали и апробировали систему формальных грамматических выражений для извлечения юридической терминологии из текстов судебных решений, а именно, протоколов судов общей юрисдикции.
В результате анализа результатов, проведенного во второй главе, были выявлены проблемные места и варианты их доработки. Так, например, для извлечения юридических терминов, обозначающих события, явления и действия, необходимо составить отдельные специализированные грамматики, извлекающие терминологию в качестве отдельных сущностей номенклатурных шаблонов в названии законов и юридических документов. А также, необходимо составление отдельного словарного списка всех прилагательных, которые могут стать частью составных юридических терминов, и создание разных файлов .cxx с грамматиками и правилами для тематически разных сущностей, подчиняющихся одним и тем же формально грамматическим правилам написания.
Более того, для оценки качества извлечения терминов была подсчитана метрика точности теста - F-мера - равная значению 0,7, что означает 70%-ную точность извлечения терминологии с помощью разработанной системы.
Таким образом, мы можем сделать вывод о том, что извлечение юридической терминологии является довольно сложной проблемой, требующей дальнейшего исследования. В частности, специфика, новизна и сложность поставленных задач заключается в извлечении преимущественно несловарных понятий и терминов, обозначающих события, действия, тенденции и явления. Выполняя извлечение такого вида терминологии, важно принимать во внимание все ее особенности.
Итак, мы можем утверждать, что цель нашего исследования - автоматизация процесса извлечения терминологии из текстов судебных решений и разработка его методики - достигнута, а задачи, поставленные во введении, решены.
1. Ariani M. G. Forensic Linguistics : A Brief Overview of the Key Elements / M. G. Ariani, F. Sajedi, M. Sajedi // Procedia - Social and Behavioral Sciences. - 2014. - P. 222-225.
2. Olsson J. Forensic Linguistics / J. Olsson, J. Luchjenbroers. - Bloomsbury, 2014. - 349 p.
3. The Routledge Handbook of F orensic Linguistics [Электронный ресурс]
- URL :
https://books.google.ru/books?hl=ru&lr=&id=XA0HEAAAQBAJ&oi=fnd&pg=PP1 &dq=forensic+linguistics+&ots=sU29mXYbVb&sig=D13nvao8F0W_i9gwas7pnaW 13XE&redir_esc=y#v=onepage&q&f=false (дата обращения 15.06.2021).
4. Абдурахманова М. У. Термин как номинативная единица языка // Universum : филология и искусствоведение. - 2020. - № 9 (76). - С. 7-10.
5. Алексеев С. С. Государство и право: нач. курс / С. С. Алексеев. - 2-е изд., перераб. и доп. - М. : Юрид. лит., 1994. - 192 с.
6. Алексеев С. С. Общая теория права / С. С. Алексеев. - Т. II. - М. : Юрид. лит. 2002. - 272 с.
7. Алексеева Л. М. Проблемы термина и терминообразования: учебное пособие по спецкурсу / Л. М. Алексеева. - Пермь : ПГНИУ, 1998. - 120 с.
8. Барабаш О. В. Юрислингвистика : истоки, проблемы, перспективы // Вестник Пензенского гос. ун-та. - 2014. - № 2 (6). - С. 14-18.
9. Большакова Е. И. Автоматическая обработка текстов на естественном языке и анализ данных : учеб. пособие / Е. И. Большакова, К. В. Воронцов, Н. Э. Ефремова, Э. С. Клышинский, Н. В. Лукашевич, А. С. Сапин. - М. : Изд-во НИУ ВШЭ, 2017. - 269 с.
10. Блягоз А. Н. Лингвометодическая терминология адыгейского литературногоязыка (структурно-семантический и лексикографический анализ) : автореф. дис. ... канд. филол. наук / А. Н. Блягоз. - Майкоп, 1999. - 22 с.
11. Бюро переводов «Prima Vista» [Электронный ресурс] - URL : https://www.primavista.ru/blog/ (дата обращения 12.05.2022).
12. Васильева В. Н. Термин // Большой энциклопедический словарь. - М. : Большая Рос. энцикл., 1998. - С. 508-509.
13. Винокур Г. О. О некоторых явлениях словообразования в русской технической терминологии // Тр. Московского ин-та истории, философии и литературы: сб. ст. по языковедению. - М. : ЛИТЕРА, 1939. - С. 3-54.
14. Волгина, Е. В. Гендерные факторы формирования англо-американской правовой терминологии : автореф. дис. ... канд. филол. наук / Е. В. Волгина. - Саратов, 2006. - С. 5-7.
15. Воробьева М. Е. Юридическая терминология: системоцентрический и антропологический подходы // Вестник КемГУ, 2013. - № 2 (54). Т. 1. - С. 183-186...111