Тип работы:
Предмет:
Язык работы:


Автоматическое упрощение русскоязычных юридических текстов на основе извлечения фактической информации

Работа №148580

Тип работы

Бакалаврская работа

Предмет

лингвистика

Объем работы55
Год сдачи2023
Стоимость4270 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
21
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Теоретические основания процедуры упрощения текстов 6
1.1. Понятие семантической компрессии 6
1.2. Подходы к адаптации текста 7
1.3. Суммаризация текста как разновидность семантической компрессии 9
1.4. Читабельность текста 14
Глава 2. Подготовка лингвистических данных 16
2.1. Анализ стилеметрических параметров текстов юридического дискурса 16
2.2. Семантические и синтаксические характеристики адаптированных юридичеcких текстов 18
2.3. Неоднозначность в юридических текстах 21
2.4. Подготовка корпуса 23
2.5. Лингвистическая разметка выбранных текстов 25
2.6. Оценка сложности юридических текстов 27
Глава 3. Эксперименты по упрощению юридических текстов 31
3.1. Описание используемых алгоритмов 31
3.2. Подготовка метрик качества упрощения текста 34
3.3. Тестирование модели упрощения текста 39
3.4. Экспертная оценка 42
3.5. Анализ положительных и отрицательных результатов, обзор ошибок 45
3.6. Анализ возможных ограничений упрощения юридических текстов 47
Заключение 50
Список литературы 51
Список электронных ресурсов 54


Упрощение текста (семантическая компрессия) – это процесс, включающий в себя лексико-семантическое и морфосинтаксическое упрощение исходного текста. Результат представляется в виде связного текста. Семантическая компрессия может осуществляться как на уровне слов (например, приведение от видового понятия к родовому, свертывание полной именной группы), так и на уровне предложений (экстрактивная и абстрактивная суммаризация текста).
Потребность в методах компрессии информации вызвана различием в скорости количественного увеличения словарного состава языка и скорости семантической деривации. Особый интерес для задач автоматического упрощения представляют тексты юридического дискурса. Упрощение особенно актуально для таких текстов, так как этот процесс обеспечивает понимание правовых отношений всеми участниками дискурса.
Актуальность исследования обусловлена повышенным интересом к методам семантической компрессии и представлениям юридического текста в более упрощенном и однозначном виде.
Объект исследования – корпус русскоязычных законов РФ на федеральном уровне с морфологической и синтаксической разметкой.
Предмет исследования –методы упрощения текста на лексико-семантическом и морфосинтаксическом уровне.
Цель исследования заключается в разработке и реализации алгоритма упрощения юридических текстов с целью повышения его удобочитаемости.
Для достижения цели исследования были сформулированы следующие задачи:
1) стилеметрический анализ современных юридических текстов;
2) отбор юридических текстов для включения в исследование;
3) разработка программного обеспечения для автоматического составления корпуса юридических текстов;
4) лингвистическая аннотация юридических текстов;
5) исследование и сравнение методов упрощения текста на лексико-семантическом и морфосинтаксическом уровнях;
6) разработка алгоритма для упрощения текста;
7) тестирование разработанного алгоритма;
8) исследование и применение метрик сложности текста применительно к адаптированным текстам на юридическую тематику
9) проведение оценки полученных результатов экспертами, анализ положительных и отрицательных результатов, анализ ошибок.
Структура работы:
Данная работа состоит из введения, трех глав, заключения и списка литературы. Во введении формулируется проблема, обосновывается актуальность исследования, отмечается практическая значимость работы, определяются цель, задачи и методы исследования, обозначается объект и предмет исследования.
Первая глава содержит теоретические основания исследования. В ней описывается понятие семантической компрессии, сравниваются различные подходы к адаптации текстов. Далее приводится и раскрывается понятие читабельности текста, а также понятие неоднозначности применительно к юридическим текстам.
Вторая глава посвящена подготовке лингвистических данных для проведения исследования. Представлены критерии для отбора юридических текстов для упрощения, приведено описание корпуса и его разметки. Также приводятся различные метрики, предназначенные для оценки сложности текста.
Третья глава посвящена практической части исследования, в ходе которой реализован алгоритм упрощения юридических текстов. В ней последовательно описывается и обосновывается каждый этап алгоритма. Также в этой главе представлены примеры работы алгоритма, оценка его работы по метрикам сложности, а также экспертная оценка читабельности полученных текстов. В конце главы представлен анализ положительных и отрицательных результатов работы, обзор ошибок, а также анализ возможных ограничений работы алгоритма.
В заключении обобщаются теоретические и практические результаты исследования и анализируются недостатки использованных методов


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В рамках данного исследования было проведен стилеметрический современных русскоязычных юридических текстов. Были отобраны юридические тексты для включения в исследования, а также разработано программное обеспечение для автоматического составления корпуса. Для текстов в корпусе была проведена лингвистическая аннотация. Было проведено исследование и сравнение методов синтаксического и семантического упрощения текста. В ходе исследования был разработан алгоритм упрощения текста, основанный на абстрактивной суммаризации, нормализации именованных сущностей и использовании контекстных замен. Были выбраны метрики автоматической оценки сложности текста. Данный алгоритм был протестирован на корпусе юридических текстов, для которых затем была проведена автоматическая оценка их сложности. Была проведена экспертная оценка, анализ положительных и отрицательных результатов, обзор ошибок. По результатам исследования разработанный алгоритм упрощения продемонстрировал возможность его применения для упрощения текстов на юридическую тематику и повышения их читабельности.
В дальнейших исследованиях предполагается обучение модели для суммаризации текста на текстах юридической тематики, а также применение алгоритма упрощения для юридически текстов, регулирующих правовые отношения, одна или обе стороны в которых являются физическими лицами.
Таким образом, разработанный в ходе работы алгоритм можно использовать для упрощения юридических текстов и повышения их читабельности.



1) Андрюшина Н. П., Козлова Т. В. Лексический минимум по русскому языку как иностранному. Элементарный уровень. Общее владение. – СПб.: Златоуст. –2015.
2) Батура Т. В., Бакиева А. М. Методы и системы автоматического реферирования текстов // Новосибирск: ИПЦ НГУ. – 2019.
3) Блинова О. В., Белов С. А. Языковая неоднозначность и неопределенность в русских правовых текстах. // Вестник Санкт-Петербургского университета. Право. – 2020. – Т. 11. – №. 4. – С. 774-812.
4) Блинова О. В., Тарасов Н. А. Метрики сложности русских правовых текстов: отбор, использование, первичная оценка эффективности //Компьютерная лингвистика и интеллектуальные технологии. – 2022. – С. 1017-1028.
5) Воронцова Т. А. Элементарная стилистика. // Ижевск: УдГУ. – 2009.
6) Захаров В. П., Богданова. Корпусная лингвистика: учебник. 3-е изд., перераб. // СПб.: Изд-во С.Петерб. Ун-та.–2020.
7) Кисельников А. С. К проблеме характеристик текста: читабельность, понятность, сложность, трудность. // Тамбов: Грамота. –2015. –Т. 53. –№11. –С. 79-84.
8) Кожемякин Е. А. Юридический дискурс как культурный феномен: структура и смыслообразование // URL: http://konference.siberia-expert.com/publ/doklad_s_obsuzhdeniem_na_sajte/kozhemjakin_e_a_juridicheskij_diskurs_kak_kulturnyj_fenomen_struktura_i_smysloobrazovanie/2-1-0-28 (дата обращения: 17.05.2023)
9) Комарова С. С. Семантическая компрессия в прагматике высказывания: на материале немецкоязычной прессы : дис. – Самара: автореф. дис.… канд. филол. наук, 2005.
10) Лапошина А. Н., Лебедева М. Ю. Текстометр: онлайн-инструмент определения уровня сложности текста по русскому языку как иностранному // Русистика. – 2021. – Т. 19. – №3. – С. 330-345.
11) Митрофанова О. А., Атугодаге М. М. Динамическое тематическое моделирование русскоязычного корпуса юридических документов //TerraLinguistica. – 2023. – Т. 14. – №. 1: Инженерно-лингвистические технологии в исследованиях текста.
12) Никулина Е.Р., Черкас А. В., Козина Е. Д., Бойко А. В., Дмитриева Л. А. Разработка сервиса для оценки удобочитаемости текста с применением технологий машинного обучения // URL: https://cyberleninka.ru/article/n/razrabotka-servisa-dlya-otsenki-udobochitaemosti-teksta-s-primeneniem-tehnologiy-mashinnogo-obucheniya (дата обращения: 23.05.2023)
13) Первухина С. В. Виды адаптации текста // Вестник ЮУрГУ. Серия «Лингвистика». –2014. –Т.11. –№1. –С. 97-100.
14) Первухина С. В. Семантические и синтаксические характеристики адаптированного текста в юридическом дискурсе. // Тамбов: Грамота. –2013. –Т. 22. –№4. –С. 136-140.
15) Савельев Д.А. Исследование сложности предложений, составляющих тексты правовых актов органов власти Российской Федерации // Право. ЖурналВысшейшколыэкономики. – 2020. – № 1. – С. 50–74.
16) Савельев Д. А.,Кучаков Р. К.Сложность правовых актов в России. – 2018.
17) Чернявская О. Г. Параллельный корпус текстов при обучении юридическому переводу //Конвергентные технологии ХХI: вариативность, комбинаторика, коммуникация. – 2019. – С. 212-215.
18) Шокина А. Б. Языковая компрессия в рекламном тексте // Медиаскоп. – 2008. – Т.10. – №.2. – С. 8.
19) Bharti S. K., Babu K. S. Automatic keyword extraction for text summarization: A survey //arXiv preprint arXiv:1704.03242. – 2017.
20) Ceglarek D., Haniewicz K., Rutkowski W. Semantic compression for specialised information retrieval systems //Advances in Intelligent Information and Database Systems. – 2010. – С. 111-121.
21) Coleman M.,Liau, T. L. A computer readability formula designed for machine scoring. // Journal of Applied Psychology – 1975. – Т. 60. –С. 283–284.
22) Dale E., Chall J. A Formula for Predicting Readability. // Educational Research Bulletin. – 1948. – Т. 27. – №. 1. – С. 11-20.
23) Flesch R. The art of readable writing. // NY: Harper & Row. – 1949.
24) Gusev I. Dataset for automatic summarization of Russian news //Artificial Intelligence and Natural Language: 9th Conference, AINL 2020, Helsinki, Proceedings 9. – Springer International Publishing. –2020. – С. 122-134.
25) Kazantseva A. An approach to summarizing short stories //Student Research Workshop. – 2006. – С. 55-62.
26) Kincaid J. P. et al. Derivation of New Readability Formulas (Automated Readability Index, Fog Count and Flesch Reading Ease Formula) for Navy Enlisted Personnel. // Institute for Simulation and Training. –1975.
27) Landauer T. K., Foltz P. W., Laham D. An introduction to latent semantic analysis //Discourse processes. – 1998. – Т. 25. – №. 2-3. – С. 259-284.
28) Liu Y. et al. Multilingual denoising pre-training for neural machine translation //Transactions of the Association for Computational Linguistics. – 2020. – Т. 8. – С. 726-742.
29) McLaughlin G. H. SMOG grading-a new readability formula //Journal of reading. – 1969. – Т. 12. – №. 8. – С. 639-646.
30) Sun R., Yang Z., Wan X. Exploiting Summarization Data to Help Text Simplification // Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics. – 2023. – С. 39-51.
31) Zeller T. Detecting ambiguity in statutory texts.BSc Thesis. 2018.

Список электронных ресурсов
1) Проект Natasha – набор Python-библиотек для обработки текстов на естественном русском языке. // URL: https://natasha.github.io/ (дата обращения: 20.04.2023)
2) Соревнование RuNNE. // URL: https://www.dialog-21.ru/evaluation/2022/runne/ (дата обращения: 20.04.2023)
3) Соревнование RuNormAS. // URL: https://www.dialog-21.ru/evaluation/2021/runormas/ (дата обращения: 20.04.2023)
4) Текстометр – анализ сложности текста. // URL: https://textometr.ru/ (дата обращения: 22.05.2023)
5) Шкала CEFR. // URL: https://www.coe.int/en/web/common-european-framework-reference-languages (дата обращения: 26.05.2023)
6) CorCodex, CorDec, CorRIDA. // URL: https://www.plaindocument.org/corpora (дата обращения: 22.05.2023)
7) Europarl. // URL: https://www.statmt.org/europarl/ (дата обращения: 22.05.2023)
8) PolyLing. // URL: https://polyling.spbpu.com/ (дата обращения: 12.03.2023)
9) Pullenti. // URL: https://www.pullenti.ru/ (дата обращения: 20.04.2023)
10) Readability.io. // URL: https://github.com/ivbeg/readability.io (дата обращения: 28.05.2023)
11) RusVectōrēs: семантические модели для русского языка. // URL: https://rusvectores.org/ru (дата обращения: 22.05.2023).
12) Stanza. // URL: https://stanfordnlp.github.io/stanza/ (дата обращения: 20.04.2023)
13) UDPipe. // URL: https://lindat.mff.cuni.cz/services/udpipe/ (дата обращения: 12.03.2023)
14) United Nations Parallel Corpus. // URL: https://conferences.unite.un.org/UNCorpus (дата обращения: 22.05.2023)


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ