Тип работы:
Предмет:
Язык работы:


Лингвистические проблемы корпуса старославянского языка

Работа №135647

Тип работы

Магистерская диссертация

Предмет

языкознание

Объем работы132
Год сдачи2021
Стоимость5400 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
19
Не подходит работа?

Узнай цену на написание


Введение 4
Глава 1. Современный опыт разработки текстовых корпусов и средств автоматической обработки для них. 9
1.1. Общая характеристика развития корпусной лингвистики в конце XX – начале XXI вв. 9
1.1.1. Старославянский язык. 9
1.1.2. Индоевропейские языки. 12
1.1.3. Языки других семей. 15
1.1.4. Современная корпусная лингвистика и исследования старославянского языка: перспективы соразвития. 19
1.2. Подготовительный этап. 20
1.2.1. Сбор текстов. 20
1.2.2. Графическое представление. 22
1.2.3. Токенизация. 24
1.3. Частеречная разметка. 28
1.3.1. Общая характеристика частеречной разметки как лингвистической проблемы. 28
1.3.2. Набор тэгов: самостоятельная разработка или заимствование? 30
1.3.3. Тэггеры: характеристика текущего состояния. 32
1.3.4. Частеречная разметка как сфера поисков исследователя. 37
1.4. Лемматизация. 37
1.4.1. Определение лемматизации и основные области её применения в корпусной лингвистике. 37
1.4.2. Лемматизация как задача автоматической обработки естественного языка. 38
1.4.3. Лемматизаторы старославянского языка. 40
1.4.4. Лемматизация при создании корпуса старославянского языка. 40
1.5. Выводы. 41
Глава 2. Базовая теоретическая характеристика языка текстов старославянского канона. 43
2.1. Старославянский язык: определение, особенности, периодизация. 43
2.2. Графические системы, репрезентирующие тексты канона старославянского языка. 48
2.3. Частеречный состав старославянского языка. 52
2.4. Выводы. 55
Глава 3. Старославянский язык как объект составления корпуса. 57
3.1. Определение текстового состава корпуса старославянского языка. 57
3.2. Автоматическая предобработка некоторых текстов старославянского языка. 76
3.3. Частеречная разметка документов в корпусе старославянского языка. 79
3.4. Лемматизация токенов старославянского языка. 90
3.5. Выводы. 95
Глава 4. Программная реализация корпуса старославянского языка. 97
4.1. Модуль предобработки. 97
4.2. Модуль представления. 107
4.3. Выводы. 111
Заключение 112
Список использованной литературы 116

За то время, пока данная работа находилась в процессе написания, из сети исчезло несколько корпусов старославянского языка. Последним из них ненадолго стал Corpus Cyrillo-Methodianum Helsingiense, корпус старославянского языка университета Хельсинки [CCMH]. Этот корпус и работа с ним были главным источником вдохновения при написании данной работы. Сама возможность его исчезновения сделала эту работу существенно более важной, чем казалось в момент её начала: в данный момент проблемой выступает не только создание нового корпуса, но и сохранение уже существующих.
Корпусы языков с небольшим количеством известного текстологического материала, к каковым относится старославянский, уязвимы: понимание этого сейчас сильно, как никогда, как и понимание того, что некоторые корпусы, возможно, придётся пересоздавать.
Актуальность данной работы обусловлена необходимостью репродукции и усовершенствования существующих электронных корпусов старославянского языка. Теоретическое значение работы заключается в описании процесса создания корпуса старославянского языка и проблем, которые возникают в ходе данного процесса в связи со специфическими чертами старославянского языка как языкового идиома (как следствие, теоретическое значение работы состоит в том числе в лингвистическом описании данных черт).
Исследовательская гипотеза может быть сформулирована следующим образом: старославянский язык, обладая достаточно высокой гетерогенностью лингвистических особенностей конкретных своих реализаций, может быть обработан и помещён в корпус как единый идиом, представленный некоторым количеством наиболее близких лингвистически текстов.
На защиту выносятся следующие положения:
1. Существующие ресурсы для исследования старославянского языка нуждаются в развитии и пополнении.
2. Тексты для корпуса старославянских языков необходимо отбирать по строго определённым, формализованным лингвистическим критериям. В работе используются критерии, данные в различных теоретических работах по старославянскому языку, в частности, исследовании [Kamphuis, 2020].
3. Не все тексты, прежде определённые как старославянские, соответствуют данным критериям.
4. Старославянский канон отличается высокой степенью лингвистической гетерогенности [Поливанова, 2013, XV], что влияет на эффективность применения методов машинного обучения при его разметке.
5. При адаптации существующих методов машинного обучения возможно создать модели, способные, обучившись на одном тексте старославянского языка, успешно размечать остальные.
Прежде многие работы характеризовали существующие корпусы старославянского языка, однако непосредственно процесс создания, в совокупности с описанием индивидуального подхода к решению задач, возникающих в ходе него, достаточно подробно рассматривается впервые. Это обуславливает новизну работы.
Практическая значимость работы состоит, в первую очередь, в создании корпуса старославянского языка на базе универсальной системы создания корпусов. Этот корпус будет возможно использовать в дальнейших лингвистических исследованиях [Egbert и др., 2020], моделировании языка на основании узуса [Divjak и др., 2017, с. 177], лингводидактике [Romer, 2011], а также при составлении словарей [БФССЯ, 2021].
Целью является выявление и решение лингвистических проблем, с которыми исследователь сталкивается при создании корпуса старославянского языка. К числу таких проблем могут быть отнесены, в частности, определение текстового состава и выбор моделей машинного обучения для осуществления автоматической разметки.
Задачами работы, соответственно, становятся:
1. Анализ опыта создания электронных корпусов старославянского языка, а также актуальных подходов к созданию корпусов и обработке естественного языка (на данном этапе конкретных её областей: предобработки, токенизации, частеречной разметки и лемматизации) в современной лингвистике.
2. Характеристика старославянского языка как языкового идиома, а также его особенностей, которые необходимо учитывать при создании корпуса.
3. Структуризация информации о проблемах, которые лингвист-исследователь должен решить при создании корпуса старославянского языка, с учётом особенностей последнего как языкового идиома.
4. Описание способов решения лингвистических проблем, возникающих при создании корпуса старославянского языка.
5. Описание процесса создания корпуса старославянского языка.
Работа состоит из 4 глав.
В первой главе характеризуется состояние корпусной лингвистики в начале XXI века (параграф 1.1; подпараграфы описывают корпусы конкретных языков, а именно старославянского (1.1.1), других индоевропейских языков (1.1.2), языков других семей (1.1.3); также подводятся краткие итоги (1.1.4)). В параграфе 1.2. даётся описание существующих методик предварительной обработки текстов (сбор текстов в подпараграфе 1.2.1, графическое представление в подпараграфе 1.2.2, токенизация в подпараграфе 1.2.3). Параграф 1.3 предлагает характеристику подходов к частеречной разметке (общую в подпараграфе 1.3.1, особенности формирования набора тэгов в 1.3.2, обзор тэггеров в 1.3.3, краткие выводы в 1.3.4). В параграфе 1.4 характеризуются подходы к лемматизации (лемматизация как лингвистеская задача описана в подпараграфе 1.4.1, как задача обработки естественного языка – в подпараграфе 1.4.2, существующие лемматизаторы старославянского языка – в подпараграфе 1.4.3, краткие выводы даны в подпараграфе 1.4.4). Параграф 1.5 представляет собой промежуточные выводы по данному разделу.
В главе 2 описывается старославянский язык как языковой идиом (параграф 2.1), репрезентирующие его графические системы (параграф 2.2), его частеречный состав (параграф 2.3), а также даётся общее описание сложностей, возникающих при работе с его текстами (параграф 2.4).
Глава 3 концентрируется на лингвистическом анализе решения проблем, с которыми исследователь сталкивается при создании корпуса старославянского языка, а именно – выборе текстов (параграф 3.1), графической предобработке (параграф 3.2), частеречной разметке (параграф 3.3) и лемматизации (параграф 3.4). В конце третьей главы указывается на положительные и отрицательные стороны предложенных решений (параграф 3.5).
Глава 4 характеризует программную реализацию корпуса старославянского языка, а именно – модуль предобработки (параграф 4.1) и модуль представления (параграф 4.2).
Теоретическая база работы складывается из существующих исследований старославянского языка. Большая часть этих работ носит фундаментальный характер и была написана в середине двадцатого века: некоторые положения, в частности, отнесение тех или иных рукописей к старославянским, с тех пор были пересмотрены. На это указывается в современных работах, посвящённых старославянскому языку [Kamphuis, 2020].
Методологическую базу работы составляют исследования в области компьютерной лингвистики, которые разделены на две подгруппы. Первая посвящена созданию первых корпусов для различных языков мира. На основании опыта исследователей вычисляется оптимальный подход к созданию корпуса старославянского языка. Вторая подгруппа методологических исследований касается вопросов обработки естественного языка, а именно препроцессинга, токенизации, частеречной разметки и лемматизации. Путём их анализа выявляется, какие методы лучше всего применить для решения этих задач на материале старославянского языка.
В исследовании используются метод индукции (при определении текстового состава корпуса старославянского языка), метод анализа (при анализе текстов старославянского канона), метод эксперимента (при выборе инструментов обработки естественного языка) и описательный метод (при характеристике процедур, применяемых в ходе создания корпуса старославянского языка).
Объектом исследования выступает старославянский язык как языковой идиом, на материале которого потенциально создаётся корпус. Предметом исследования являются лингвистические особенности старославянского языка, которые необходимо учитывать при создании корпуса. Материалом исследования становятся все тексты, которые в той или иной момент времени считались текстами старославянского канона. Список текстов и их анализ будет приведён непосредственно в ходе работы.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В работе был выявлен ряд ключевых лингвистических проблем, с которыми исследователь может столкнуться при исследовании старославянского языка, а также определены методы, которыми возможно данные проблемы решить.
В первую очередь, были охарактеризованы существующие корпусы старославянского языка. Ни один из них в полной мере не удовлетворяет критериям полноты представления старославянского языка. Возникла необходимость создания собственного корпуса.
Следует заметить, что выработка методологии создания корпуса с нуля выглядит тяжёлой и иррелевантной задачей. Корпусы для крупных индоевропейских языков создавались сушественно раньше, с использованием совершенно иных технологий, нежели тех, что доступны исследователям сейчас. Представляется возможным обратиться к опыту создания корпусов неиндоевропейских языков, в частности, арабского языка и языка паэс.
В работе предпринята попытка краткой характеристики старославянского языка как языкового идиома, отличного от других славянских языков. Представлены основные особенности, по которым возможно идентифицировать старославянские тексты, среди которых – особый рефлекс праславянского сочетания *tj/*dj.
Полностью определить текстовый состав корпуса старославянского языка не удалось: два текста во время написания соответствующих разделов работы находились вне доступа исследователей. Поставлен вопрос о языковой принадлежности ряда текстов, считающихся определяющими для старославянского канона (прежде всего – Киевских листков). Некоторые тексты (к примеру, Остромирово евангелие) были исключены из массива старославянских текстов в силу радикального отличия их языковых особенностей от языковых особенностей, указанных исследователями для старославянского языка как языкового идиома. Ещё одна группа текстов (например, Преславская надпись) на данный момент не может быть определена ни как тексты старославянского языка, ни как тексты какого-то другого идиома. Провести их анализ по существующим критериям в данный момент невозможно. Требуется разработка дополнительных критериев, что будет сделано в последующих исследованиях.
Старославянские тексты представлены в нескольких системах письменности. Для упрощения частеречной разметки и лемматизации потребовалось решить задачу унификации, приведения к кириллическому написанию глаголических рукописей, а также рукописей, переведённых исследователями в ASCII-кодировку. Основным методом решения этой задачи стали регулярные выражения.
Были проанализированы существующие подходы к токенизации, частеречной разметке и лемматизации.
В практической части токенизация осуществлялась путём разделения предварительно обработанного текста по пробельным символам. Это нарушило построчную схему представления текста, однако позволило дать более точное лингвистическое его представление.
Был создан расширенный набор тэгов для наиболее адекватного представления частеречного состава старославянского языка. Проведена частеречная разметка моделью, структурно схожей с TreeTagger, демонстрирующей результат в 81% точности на Мариинском евангелии, а также наибольшую надёжность на гетерогенном массиве текста.
Выявлено, что скрытая марковская модель, усиленная n-граммной, способна к относительно высокой генерализации. На Киевских листках она продемонстрировала преимущество над более современными методами, в частности, рекуррентными нейросетями. Точность zero-shot разметки (разметки «с нуля») достигла значения в 51%. При улучшении модели и увеличении тренировочных данных ожидается повышение как этих конкретных результатов, так и улучшение способности модели к генерализации.
Лемматизация была выполнена рекуррентной нейронной сетью.
Точность модели, при помощи которой осуществлялась лемматизация, на тестовом наборе данных из Мариинского евангелия достигла 85%. Этот показатель оказался меньше, чем у моделей, обученных на нескольких десятках языков, представленных в наборах данных UD, однако гораздо более важным оказалось то, что, будучи оснащённой дополнительной системой правил, эта модель показала высокую степень способности к генерализации на гетерогенных массивах текстов.
Для подсчёта точности были привлечены и дополнительные метрики, меры сходства строк, а именно расстояния Левенштейна, Дамерау-Левенштейна и Джаро-Винклера. Данный подход в лингвистике для оценки эффективности моделей, осуществляющих преобразование «последовательность-в-последовательность», ранее практически не применялся. Он позволил более точно оценить то, насколько результаты, показанные моделью, посимвольно отличались от золотого стандарта. Помимо этого, при помощи выбросов, обнаруженных по данным метрикам, удалось идентифицировать источник неточностей модели, а именно – её склонность к генерации коротких последовательностей.
Точность модели на Киевских листках приблизилась к 50–55%. Основываясь на этих данных, видится возможным утверждать, что была доказана её способность к генерализации. Модель с дальнейшими усовершенствованиями будет применена для разметки и иных текстов старославянского языка.
И модуль частеречной разметки, и модуль лемматизации предстоит улучшать в дальнейшем, возможно, с применением новых технологий и новых архитектур нейронных сетей.
Результаты работы представлены в формате .json-файлов, полученных через написанное на C# приложение с подключаемыми модулями на Python, отображаемых через универсальную систему представления текстовых корпусов, написанную на C#/JavaScript/Python. К настоящему моменту обработаны и автоматически размечены тексты Ассеманиева, Мариинского, Зографского (включая рукопись Б) евангелий, Супрасльской рукописи, Саввиной книги и Киевских листков. Данная разметка сейчас корректируется вручную. Объём корпуса будет увеличиваться за счёт включения иных старославянских рукописей. В данный момент работа ведётся над текстом Енинского апостола.
Исследовательская гипотеза может считаться доказанной: несмотря на высокую степень гетерогенности, старославянский язык может быть обработан и помещён в корпус как единый идиом.


1. Алпатов В. М. О разных подходах к выделению частей речи // Вопросы языкознания. — М.: ИРЯ РАН, 1986. — Вып. 4. — С. 37–46.
2. Афанасьев И. А. Корпус старославянского языка: недостающее звено в диахронической славистике // Slavica iuvenum XXI : sborník příspěvků z mezinárodní vědecké konference Slavica iuvenum 2020, 31.3. a 1.4.2020. – Ostrava : Ostravská univerzita, 2020. – С. 13 – 22.
3. Афанасьева Т. И., Козак В. В., Соболев А. Н. Глаголическая письменность Западных Балкан X–XVI веков: учебно-методическое пособие. СПб.: Наука, 2016. — 71 с.
4. Баранов В. А. К вопросу об использовании статистических методов для поиска коллокаций и коллигаций в древнейших славянских текстах (на материале глаголических рукописей корпуса «Манускрипт») // SLOVO. – Zagreb, Croatia: Staroslavenski institut. – 2019. – Вып. 69 – С. 1 – 33.
5. БФССЯ – Большой фразеологический слофарь старославянского языка / гл. ред. С. Г. Шулежкова; ред. колл.: С. А. Анохина, А. А. Осипова, Н. В. Позднякова. – Магнитогорск: Научно-исследовательская словарная лаборатория МГТУ им. Г. И. Носова, 2021. – Т. 1. – 555 с.
6. Вайан А. Руководство по старославянскому языку. – М.: Издательство иностранной литературы, 1952. – 447 с.
7. Гранстрем Е. Э. О происхождении глаголической азбуки. // ТОДРЛ. – СПб: Отдел древнерусской литературы ИРЛ (Пушкинский Дом) РАН, 1955. – С. 300 – 317.
8. Гришина Е. А. Мультимедийный русский корпус (МУРКО): проблемы аннотации // Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы. – СПб.: Нестор-История, 2009. – С. 175—214.
9. Добрев И. Палимпсестовите части на Зографското Евангелие. // Сб. «Константин-Кирил Философ. Доклади от симпозиума, посветен на 1100-годишнината от смъртта му». – София: Изд-во на Българската акад. на науките, 1971. – С. 157—164.
10. Ильинский Г. А. Македонский листок. – СПб.: Имперская Академия Наук, 1906. – 26 с.
11. Карский Е. Ф. Славянская кирилловская палеография. – М.: Наука, 1979. – 494 с.
12. Крашенинникова О. А. Древнеславянский Октоих св. Климента, архиепископа Охридского: По древнерусским и южнославянским спискам XIII—XV веков. – М.: Языки славянских культур, 2006. — 384 с., ил. — (Studia philologica).
13. Крючкова О. Ю., Гольдин В. Е. Саратовский диалектный корпус: новый научный и образовательный ресурс. Концепция, методические материалы. – Саратов: ИД «Научная книга», 2010. – 35 с.
14. Медынцева А. А., Попконстантинов К. Надписи из Круглой церкви в Преславе. — София: Болгарская академия наук, 1985. — 131 с.
15. Мейе А. Общеславянский язык. – М.: Издательская группа «Прогресс», 1934. – 499 с.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ