Тема: Автоматическое упрощение русскоязычных юридических текстов на основе извлечения фактической информации
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Теоретические основания процедуры упрощения текстов 6
1.1. Понятие семантической компрессии 6
1.2. Подходы к адаптации текста 7
1.3. Суммаризация текста как разновидность семантической компрессии 9
1.4. Читабельность текста 14
Глава 2. Подготовка лингвистических данных 16
2.1. Анализ стилеметрических параметров текстов юридического дискурса 16
2.2. Семантические и синтаксические характеристики адаптированных юридичеcких текстов 18
2.3. Неоднозначность в юридических текстах 21
2.4. Подготовка корпуса 23
2.5. Лингвистическая разметка выбранных текстов 25
2.6. Оценка сложности юридических текстов 27
Глава 3. Эксперименты по упрощению юридических текстов 31
3.1. Описание используемых алгоритмов 31
3.2. Подготовка метрик качества упрощения текста 34
3.3. Тестирование модели упрощения текста 39
3.4. Экспертная оценка 42
3.5. Анализ положительных и отрицательных результатов, обзор ошибок 45
3.6. Анализ возможных ограничений упрощения юридических текстов 47
Заключение 50
Список литературы 51
Список электронных ресурсов 54
📖 Введение
Потребность в методах компрессии информации вызвана различием в скорости количественного увеличения словарного состава языка и скорости семантической деривации. Особый интерес для задач автоматического упрощения представляют тексты юридического дискурса. Упрощение особенно актуально для таких текстов, так как этот процесс обеспечивает понимание правовых отношений всеми участниками дискурса.
Актуальность исследования обусловлена повышенным интересом к методам семантической компрессии и представлениям юридического текста в более упрощенном и однозначном виде.
Объект исследования – корпус русскоязычных законов РФ на федеральном уровне с морфологической и синтаксической разметкой.
Предмет исследования –методы упрощения текста на лексико-семантическом и морфосинтаксическом уровне.
Цель исследования заключается в разработке и реализации алгоритма упрощения юридических текстов с целью повышения его удобочитаемости.
Для достижения цели исследования были сформулированы следующие задачи:
1) стилеметрический анализ современных юридических текстов;
2) отбор юридических текстов для включения в исследование;
3) разработка программного обеспечения для автоматического составления корпуса юридических текстов;
4) лингвистическая аннотация юридических текстов;
5) исследование и сравнение методов упрощения текста на лексико-семантическом и морфосинтаксическом уровнях;
6) разработка алгоритма для упрощения текста;
7) тестирование разработанного алгоритма;
8) исследование и применение метрик сложности текста применительно к адаптированным текстам на юридическую тематику
9) проведение оценки полученных результатов экспертами, анализ положительных и отрицательных результатов, анализ ошибок.
Структура работы:
Данная работа состоит из введения, трех глав, заключения и списка литературы. Во введении формулируется проблема, обосновывается актуальность исследования, отмечается практическая значимость работы, определяются цель, задачи и методы исследования, обозначается объект и предмет исследования.
Первая глава содержит теоретические основания исследования. В ней описывается понятие семантической компрессии, сравниваются различные подходы к адаптации текстов. Далее приводится и раскрывается понятие читабельности текста, а также понятие неоднозначности применительно к юридическим текстам.
Вторая глава посвящена подготовке лингвистических данных для проведения исследования. Представлены критерии для отбора юридических текстов для упрощения, приведено описание корпуса и его разметки. Также приводятся различные метрики, предназначенные для оценки сложности текста.
Третья глава посвящена практической части исследования, в ходе которой реализован алгоритм упрощения юридических текстов. В ней последовательно описывается и обосновывается каждый этап алгоритма. Также в этой главе представлены примеры работы алгоритма, оценка его работы по метрикам сложности, а также экспертная оценка читабельности полученных текстов. В конце главы представлен анализ положительных и отрицательных результатов работы, обзор ошибок, а также анализ возможных ограничений работы алгоритма.
В заключении обобщаются теоретические и практические результаты исследования и анализируются недостатки использованных методов.
✅ Заключение
В дальнейших исследованиях предполагается обучение модели для суммаризации текста на текстах юридической тематики, а также применение алгоритма упрощения для юридически текстов, регулирующих правовые отношения, одна или обе стороны в которых являются физическими лицами.
Таким образом, разработанный в ходе работы алгоритм можно использовать для упрощения юридических текстов и повышения их читабельности.



