📄Работа №135827

Тема: Автоматическое упрощение русскоязычных юридических текстов на основе извлечения фактической информации

📝

Тип работы Бакалаврская работа

📚

Предмет лингвистика

📄

Объем: 55 листов

📅

Год: 2023

👁️

4270 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
Глава 1. Теоретические основания процедуры упрощения текстов 6
1.1. Понятие семантической компрессии 6
1.2. Подходы к адаптации текста 7
1.3. Суммаризация текста как разновидность семантической компрессии 9
1.4. Читабельность текста 14
Глава 2. Подготовка лингвистических данных 16
2.1. Анализ стилеметрических параметров текстов юридического дискурса 16
2.2. Семантические и синтаксические характеристики адаптированных юридичеcких текстов 18
2.3. Неоднозначность в юридических текстах 21
2.4. Подготовка корпуса 23
2.5. Лингвистическая разметка выбранных текстов 25
2.6. Оценка сложности юридических текстов 27
Глава 3. Эксперименты по упрощению юридических текстов 31
3.1. Описание используемых алгоритмов 31
3.2. Подготовка метрик качества упрощения текста 34
3.3. Тестирование модели упрощения текста 39
3.4. Экспертная оценка 42
3.5. Анализ положительных и отрицательных результатов, обзор ошибок 45
3.6. Анализ возможных ограничений упрощения юридических текстов 47
Заключение 50
Список литературы 51
Список электронных ресурсов 54

📖 Введение

Упрощение текста (семантическая компрессия) – это процесс, включающий в себя лексико-семантическое и морфосинтаксическое упрощение исходного текста. Результат представляется в виде связного текста. Семантическая компрессия может осуществляться как на уровне слов (например, приведение от видового понятия к родовому, свертывание полной именной группы), так и на уровне предложений (экстрактивная и абстрактивная суммаризация текста).
Потребность в методах компрессии информации вызвана различием в скорости количественного увеличения словарного состава языка и скорости семантической деривации. Особый интерес для задач автоматического упрощения представляют тексты юридического дискурса. Упрощение особенно актуально для таких текстов, так как этот процесс обеспечивает понимание правовых отношений всеми участниками дискурса.
Актуальность исследования обусловлена повышенным интересом к методам семантической компрессии и представлениям юридического текста в более упрощенном и однозначном виде.
Объект исследования – корпус русскоязычных законов РФ на федеральном уровне с морфологической и синтаксической разметкой.
Предмет исследования –методы упрощения текста на лексико-семантическом и морфосинтаксическом уровне.
Цель исследования заключается в разработке и реализации алгоритма упрощения юридических текстов с целью повышения его удобочитаемости.
Для достижения цели исследования были сформулированы следующие задачи:
1) стилеметрический анализ современных юридических текстов;
2) отбор юридических текстов для включения в исследование;
3) разработка программного обеспечения для автоматического составления корпуса юридических текстов;
4) лингвистическая аннотация юридических текстов;
5) исследование и сравнение методов упрощения текста на лексико-семантическом и морфосинтаксическом уровнях;
6) разработка алгоритма для упрощения текста;
7) тестирование разработанного алгоритма;
8) исследование и применение метрик сложности текста применительно к адаптированным текстам на юридическую тематику
9) проведение оценки полученных результатов экспертами, анализ положительных и отрицательных результатов, анализ ошибок.
Структура работы:
Данная работа состоит из введения, трех глав, заключения и списка литературы. Во введении формулируется проблема, обосновывается актуальность исследования, отмечается практическая значимость работы, определяются цель, задачи и методы исследования, обозначается объект и предмет исследования.
Первая глава содержит теоретические основания исследования. В ней описывается понятие семантической компрессии, сравниваются различные подходы к адаптации текстов. Далее приводится и раскрывается понятие читабельности текста, а также понятие неоднозначности применительно к юридическим текстам.
Вторая глава посвящена подготовке лингвистических данных для проведения исследования. Представлены критерии для отбора юридических текстов для упрощения, приведено описание корпуса и его разметки. Также приводятся различные метрики, предназначенные для оценки сложности текста.
Третья глава посвящена практической части исследования, в ходе которой реализован алгоритм упрощения юридических текстов. В ней последовательно описывается и обосновывается каждый этап алгоритма. Также в этой главе представлены примеры работы алгоритма, оценка его работы по метрикам сложности, а также экспертная оценка читабельности полученных текстов. В конце главы представлен анализ положительных и отрицательных результатов работы, обзор ошибок, а также анализ возможных ограничений работы алгоритма.
В заключении обобщаются теоретические и практические результаты исследования и анализируются недостатки использованных методов.

✅ Заключение

В рамках данного исследования было проведен стилеметрический современных русскоязычных юридических текстов. Были отобраны юридические тексты для включения в исследования, а также разработано программное обеспечение для автоматического составления корпуса. Для текстов в корпусе была проведена лингвистическая аннотация. Было проведено исследование и сравнение методов синтаксического и семантического упрощения текста. В ходе исследования был разработан алгоритм упрощения текста, основанный на абстрактивной суммаризации, нормализации именованных сущностей и использовании контекстных замен. Были выбраны метрики автоматической оценки сложности текста. Данный алгоритм был протестирован на корпусе юридических текстов, для которых затем была проведена автоматическая оценка их сложности. Была проведена экспертная оценка, анализ положительных и отрицательных результатов, обзор ошибок. По результатам исследования разработанный алгоритм упрощения продемонстрировал возможность его применения для упрощения текстов на юридическую тематику и повышения их читабельности.
В дальнейших исследованиях предполагается обучение модели для суммаризации текста на текстах юридической тематики, а также применение алгоритма упрощения для юридически текстов, регулирующих правовые отношения, одна или обе стороны в которых являются физическими лицами.
Таким образом, разработанный в ходе работы алгоритм можно использовать для упрощения юридических текстов и повышения их читабельности.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1) Андрюшина Н. П., Козлова Т. В. Лексический минимум по русскому языку как иностранному. Элементарныйуровень. Общеевладение. – СПб.: Златоуст. –2015.
2) Батура Т. В., Бакиева А. М. Методы и системы автоматического реферирования текстов // Новосибирск: ИПЦ НГУ. – 2019.
3) Блинова О. В., Белов С. А. Языковая неоднозначность и неопределенность в русских правовых текстах. // Вестник Санкт-Петербургского университета. Право. – 2020. – Т. 11. – №. 4. – С. 774-812.
4) Блинова О. В., Тарасов Н. А. Метрики сложности русских правовых текстов: отбор, использование, первичная оценка эффективности //Компьютерная лингвистика и интеллектуальные технологии. – 2022. – С. 1017-1028.
5) Воронцова Т. А. Элементарная стилистика. // Ижевск: УдГУ. – 2009.
6) Захаров В. П., Богданова. Корпусная лингвистика: учебник. 3-е изд., перераб. // СПб.: Изд-во С.Петерб. Ун-та.–2020.
7) Кисельников А. С. К проблеме характеристик текста: читабельность, понятность, сложность, трудность. // Тамбов: Грамота. –2015. –Т. 53. –№11. –С. 79-84.
8) Кожемякин Е. А. Юридический дискурс как культурный феномен: структура и смыслообразование // URL: http://konference.siberia-expert.com/publ/doklad_s_obsuzhdeniem_na_sajte/kozhemjakin_e_a_juridicheskij_diskurs_kak_kulturnyj_fenomen_struktura_i_smysloobrazovanie/2-1-0-28 (дата обращения: 17.05.2023)
9) Комарова С. С. Семантическая компрессия в прагматике высказывания: на материале немецкоязычной прессы : дис. – Самара: автореф. дис.… канд. филол. наук, 2005.
10) Лапошина А. Н., Лебедева М. Ю. Текстометр: онлайн-инструмент определения уровня сложности текста по русскому языку как иностранному // Русистика. – 2021. – Т. 19. – №3. – С. 330-345.
11) Митрофанова О. А., Атугодаге М. М. Динамическое тематическое моделирование русскоязычного корпуса юридических документов //TerraLinguistica. – 2023. – Т. 14. – №. 1: Инженерно-лингвистические технологии в исследованиях текста.
12) Никулина Е.Р., Черкас А. В., Козина Е. Д., Бойко А. В., Дмитриева Л. А. Разработка сервиса для оценки удобочитаемости текста с применением технологий машинного обучения // URL: https://cyberleninka.ru/article/n/razrabotka-servisa-dlya-otsenki-udobochitaemosti-teksta-s-primeneniem-tehnologiy-mashinnogo-obucheniya (дата обращения: 23.05.2023)
13) Первухина С. В. Виды адаптации текста // Вестник ЮУрГУ. Серия «Лингвистика». –2014. –Т.11. –№1. –С. 97-100.
14) Первухина С. В. Семантические и синтаксические характеристики адаптированного текста в юридическом дискурсе. // Тамбов: Грамота. –2013. –Т. 22. –№4. –С. 136-140.
15) Савельев Д.А. Исследование сложности предложений, составляющих тексты правовых актов органов власти Российской Федерации // Право. ЖурналВысшейшколыэкономики. – 2020. – № 1. – С. 50–74.
16) Савельев Д. А.,Кучаков Р. К.Сложность правовых актов в России. – 2018.
17) Чернявская О. Г. Параллельный корпус текстов при обучении юридическому переводу //Конвергентные технологии ХХI: вариативность, комбинаторика, коммуникация. – 2019. – С. 212-215.
18) Шокина А. Б. Языковая компрессия в рекламном тексте // Медиаскоп. – 2008. – Т.10. – №.2. – С. 8.
19) Bharti S. K., Babu K. S. Automatic keyword extraction for text summarization: A survey //arXiv preprint arXiv:1704.03242. – 2017.
20) Ceglarek D., Haniewicz K., Rutkowski W. Semantic compression for specialised information retrieval systems //Advances in Intelligent Information and Database Systems. – 2010. – С. 111-121.
21) Coleman M.,Liau, T. L. A computer readability formula designed for machine scoring. // Journal of Applied Psychology – 1975. – Т. 60. –С. 283–284.
22) Dale E., Chall J. A Formula for Predicting Readability. // Educational Research Bulletin. – 1948. – Т. 27. – №. 1. – С. 11-20.
23) Flesch R. The art of readable writing. // NY: Harper & Row. – 1949.
24) Gusev I. Dataset for automatic summarization of Russian news //Artificial Intelligence and Natural Language: 9th Conference, AINL 2020, Helsinki, Proceedings 9. – Springer International Publishing. –2020. – С. 122-134.
25) Kazantseva A. An approach to summarizing short stories //Student Research Workshop. – 2006. – С. 55-62.
26) Kincaid J. P. et al. Derivation of New Readability Formulas (Automated Readability Index, Fog Count and Flesch Reading Ease Formula) for Navy Enlisted Personnel. // Institute for Simulation and Training. –1975.
27) Landauer T. K., Foltz P. W., Laham D. An introduction to latent semantic analysis //Discourse processes. – 1998. – Т. 25. – №. 2-3. – С. 259-284.
28) Liu Y. et al. Multilingual denoising pre-training for neural machine translation //Transactions of the Association for Computational Linguistics. – 2020. – Т. 8. – С. 726-742.
29) McLaughlin G. H. SMOG grading-a new readability formula //Journal of reading. – 1969. – Т. 12. – №. 8. – С. 639-646.
30) Sun R., Yang Z., Wan X. Exploiting Summarization Data to Help Text Simplification // Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics. – 2023. – С. 39-51.
31) Zeller T. Detecting ambiguity in statutory texts.BSc Thesis. 2018.

Список электронных ресурсов
1) Проект Natasha – набор Python-библиотек для обработки текстов на естественном русском языке. // URL: https://natasha.github.io/ (дата обращения: 20.04.2023)
2) Соревнование RuNNE. // URL: https://www.dialog-21.ru/evaluation/2022/runne/ (дата обращения: 20.04.2023)
3) Соревнование RuNormAS. // URL: https://www.dialog-21.ru/evaluation/2021/runormas/ (дата обращения: 20.04.2023)
4) Текстометр – анализ сложности текста. // URL: https://textometr.ru/ (дата обращения: 22.05.2023)
5) Шкала CEFR. // URL: https://www.coe.int/en/web/common-european-framework-reference-languages (дата обращения: 26.05.2023)
6) CorCodex, CorDec, CorRIDA. // URL: https://www.plaindocument.org/corpora (дата обращения: 22.05.2023)
7) Europarl. // URL: https://www.statmt.org/europarl/ (дата обращения: 22.05.2023)
8) PolyLing. // URL: https://polyling.spbpu.com/ (дата обращения: 12.03.2023)
9) Pullenti. // URL: https://www.pullenti.ru/ (дата обращения: 20.04.2023)
10) Readability.io. // URL: https://github.com/ivbeg/readability.io (дата обращения: 28.05.2023)
11) RusVectōrēs: семантические модели для русского языка. // URL: https://rusvectores.org/ru (дата обращения: 22.05.2023).
12) Stanza. // URL: https://stanfordnlp.github.io/stanza/ (дата обращения: 20.04.2023)
13) UDPipe. // URL: https://lindat.mff.cuni.cz/services/udpipe/ (дата обращения: 12.03.2023)
14) United Nations Parallel Corpus. // URL: https://conferences.unite.un.org/UNCorpus (дата обращения: 22.05.2023)

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (208479)

Статьи

»» Все статьи

Вход в личный кабинет