Тема: МЕТОДИКИ ИЗВЛЕЧЕНИЯ ЮРИДИЧЕСКОЙ ТЕРМИНОЛОГИИ ИЗ ТЕКСТОВ СУДЕБНЫХ РЕШЕНИЙ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 4
ГЛАВА I. ТЕРМИН КАК ОБЪЕКТ ЛИНГВИСТИЧЕСКОГО ИССЛЕДОВАНИЯ 8
1.1. Теоретико-методологические аспекты изучения проблем юрислингвистики 8
1.2. Понятие и основные характеристики термина 13
1.3. Характеристика юридических терминов 25
1.3.1. Особенности юридической терминологии 25
1.3.2. Классификация юридических терминов 33
Выводы по главе I 38
ГЛАВА II. ИЗВЛЕЧЕНИЕ ТЕРМИНОЛОГИИ ИЗ ТЕКСТОВ НА
ЕСТЕСТВЕННОМ ЯЗЫКЕ 40
2.1. Обзор существующих программ и сервисов по извлечению
терминологии 41
2.1.1. MemoQ 42
2.1.2. SDL MultiTerm Extract 43
2.1.3. SynchroTerm 45
2.1.4. Tilde Terminology 47
2.1.5. SketchEngine 49
2.2. Использование формальных грамматик для извлечения юридических
терминов (с использованием ПО Томита-парсер) 52
Выводы по главе II 59
ЗАКЛЮЧЕНИЕ 61
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 63
ПРИЛОЖЕНИЕ А. Листинг кода веб-краулера 73
ПРИЛОЖЕНИЕ Б. Список формальных грамматических выражений для выделенной терминологии 74
ПРИЛОЖЕНИЕ В. Листинг кода для извлечения юридической терминологии в
ПО Томита-парсер 78
ПРИЛОЖЕНИЕ Г. Список извлеченных истинно -положительных терминов ... 84
ПРИЛОЖЕНИЕ Д. Список извлеченных ложноположительных терминов 92
ПРИЛОЖЕНИЕ Е. Список извлеченных ложноотрицательных терминов 98
ПРИЛОЖЕНИЕ Ж. Предметный указатель компетенций 99
📖 Введение
Актуальность выбранной темы обусловлена значимостью проблемы автоматического извлечения терминов из текстов на естественном языке, поиск решения которой требует внимания лингвистов и юристов, их совместной работы.
Большая часть информации, которая обрабатывается вычислительными системами в настоящее время, представлена текстами на естественном языке, и с каждым днем их объем только увеличивается. Многие задачи, связанные с автоматической обработкой текстов, предполагают поиск и извлечение заданных языковых единиц (слов и словосочетаний). В научно -технических текстах данные единицы выражены терминами, которые являясь наиболее частотными единицами заключают в себе и передают смысловую нагрузку всего текста.
Извлечение терминологии является важной задачей современных лингвистических исследований. С течением времени терминосистемы различных предметных областей претерпевают изменения, однако существующие лексикографические источники (такие как терминологические словари, стандарты, базы данных) не всегда отражают современную информацию о терминах и обозначаемых ими понятиях. В виду постоянного изменения терминосистем различных областей знаний возникает необходимость разработки и совершенствования методов извлечения терминологии, которые в свою очередь могут помочь при решении задач в области терминоведения, общей и прикладной лексикографии, информационного поиска и машинного перевода.
Объектом исследования в нашей работе является юридическая терминология как проблема автоматической обработки текстов.
В качестве предмета исследования выступает специфика извлечения юридической терминологии из текстов на естественном языке.
Цель данной работы заключается в автоматизации процесса извлечения терминологии из текстов судебных решений и разработке его методики.
Для достижения поставленной цели необходимо решить следующие задачи:
1) Систематизировать и обобщить актуальные научно-теоретические подходы и практико-технологические решения по автоматизации извлечения терминологии из текстов.
2) Разработать систему формальных грамматик для извлечения юридической терминологии.
3) Извлечь терминологию из юридических текстов с помощью ПО Tomita Parser.
4) Апробировать формальные грамматики на выборке актов судебных решений.
5) Систематизировать истинно-положительные,
ложноположительные и ложноотрицательные результаты работы формальных грамматик для оценки продуктивности их использования в анализе юридических текстов и разработки методики их корректировки.
Материалом исследования послужили тексты 20 судебных актов, а именно, протоколов судов общей юрисдикции, датированные периодом с 1 января по 31 декабря 2021 года. Из данных текстов были извлечены более 700 словарных цепочек, выражающих юридические понятия, явления и реалии.
Цель и задачи исследования определили используемые методы. При изложении материала использовался метод научного описания, реализующийся в приёмах анализа, синтеза, дедукции, индукции. Эмпирический материал был отобран методами сплошной и направленной выборки, и исследован с применением метода формальной грамматики и алгоритма японского формалиста Томита.
Теоретической базой исследования послужили работы отечественных и зарубежных ученых, касающиеся изучения различных аспектов терминологии, в том числе, юридической: Н. Д. Голева, С. В. Гринева, И. В. Палашевской, А. А. Реформатского, А. В. Суперанской, В. Ю. Туранина, С. П. Хижняка, С. Д. Шелова и других.
Теоретическая значимость данной работы заключается в систематизации накопленных о терминах научных знаний и применении этих знаний при разработке методики извлечения терминов из текстов.
Практическая значимость данного исследования состоит в том, что полученные результаты могут быть использованы в разработке сервиса извлечения терминологии и фактов из юридических текстов, а также в качестве учебно-методических материалов для спецкурсов по изучению формальных грамматик.
Научная новизна диссертационной работы заключается в том, что до настоящего времени не было предложено четкой методологии для правильного извлечения юридической терминологии из текстов на естественном языке при помощи формальных методов.
Структура выпускной квалификационной работы определяется поставленными целью и задачами. Работа состоит из введения, двух глав, заключения, списка использованной литературы и шести приложений.
Во введении обосновывается актуальность выбранной темы работы, обозначаются объект и предмет исследования, определяются цель, задачи и методы исследования, а также раскрывается практическая и теоретическая значимость, научная новизна, описывается структура работы.
В первой главе дается описание юрислингвистике и юридическому дискурсу; вводится понятие термина, рассматриваются отличительные черты терминов как речевых единиц особого типа, в частности, юридических терминов; а также описываются особенности извлечения языковых единиц из текстов при помощи специализированных ПО.
Во второй главе проводится обзор существующих программ и сервисов по извлечению терминологии из текстов, разрабатывается система формальных грамматических выражений для извлечения юридических терминов из текстов судебных актов, а также, анализируются полученные результаты.
В заключении подводятся итоги проведенного исследования, формулируются основные выводы и намечаются перспективы дальнейшего исследования по заданной тематике.
Список использованной литературы насчитывает 111 источников на русском и английском языках.
В приложениях приводится листинг программного кода, использованного для скачивания анализируемых текстов; выделенная в них юридическая терминология; разработанные формально грамматические шаблоны; листинг кода для извлечения терминологии с помощью ПО Томита-парсер; извлеченные юридические термины по категориям (истинно-положительные, ложноположительные и ложноотрицательные).
✅ Заключение
В первой главе мы выяснили, что понятие «термин» на данный момент не имеет общепризнанного определения, однако большинство исследователей сходится в выделении основных характеристик терминов. Изучив ряд определений, мы сформулировали собственный вариант дефиниции: термин - это слово, словосочетание или предложение, точно выражающее специальное понятие определенной области знаний и стремящееся к однозначности. Мы смогли выделить различные свойства, виды и функции терминологических единиц, опираясь на их понятиеобразующие признаки.
Значительную часть главы составило исследование особенностей юридической терминологии. Были рассмотрены свойства юридического языка, терминологии и, собственно, термина, а также, требования, предъявляемые к юридическим терминам.
Во второй главе нашей работы были рассмотрены существующие программы и сервисы по извлечению терминологии, выявлены их особенности.
Мы разработали и апробировали систему формальных грамматических выражений для извлечения юридической терминологии из текстов судебных решений, а именно, протоколов судов общей юрисдикции.
В результате анализа результатов, проведенного во второй главе, были выявлены проблемные места и варианты их доработки. Так, например, для извлечения юридических терминов, обозначающих события, явления и действия, необходимо составить отдельные специализированные грамматики, извлекающие терминологию в качестве отдельных сущностей номенклатурных шаблонов в названии законов и юридических документов. А также, необходимо составление отдельного словарного списка всех прилагательных, которые могут стать частью составных юридических терминов, и создание разных файлов .cxx с грамматиками и правилами для тематически разных сущностей, подчиняющихся одним и тем же формально грамматическим правилам написания.
Более того, для оценки качества извлечения терминов была подсчитана метрика точности теста - F-мера - равная значению 0,7, что означает 70%-ную точность извлечения терминологии с помощью разработанной системы.
Таким образом, мы можем сделать вывод о том, что извлечение юридической терминологии является довольно сложной проблемой, требующей дальнейшего исследования. В частности, специфика, новизна и сложность поставленных задач заключается в извлечении преимущественно несловарных понятий и терминов, обозначающих события, действия, тенденции и явления. Выполняя извлечение такого вида терминологии, важно принимать во внимание все ее особенности.
Итак, мы можем утверждать, что цель нашего исследования - автоматизация процесса извлечения терминологии из текстов судебных решений и разработка его методики - достигнута, а задачи, поставленные во введении, решены.





