Тип работы:
Предмет:
Язык работы:


XML-формат синтаксической разметки в СКАТе

Работа №143487

Тип работы

Магистерская диссертация

Предмет

лингвистика

Объем работы92
Год сдачи2018
Стоимость5500 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
27
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Исследование опыта разработки синтаксически размеченных корпусов 7
1.1. Глубоко аннотированный корпус русских текстов 7
1.1.1. О корпусе 7
1.1.2. Синтаксическая разметка 8
1.1.3. Соответствие TEI 10
1.1.4. Использование и доступность 10
1.2. Narodowy Korpus Języka Polskiego 11
1.2.1. О корпусе 11
1.2.2. Синтаксическая разметка 13
1.2.3. Соответствие TEI 14
1.2.4. Использование и доступность 15
1.3. Корпуса Йоркского и пенсильванского университетов 16
1.3.1. О корпусах 16
1.3.2. Синтаксическая разметка 22
1.3.3. Соответствие TEI 23
1.3.4. Использование и доступность 24
1.4. Syntactic Reference Corpus of Medieval French 24
1.4.1. О корпусе 24
1.4.2. Синтаксическая разметка 25
1.4.3. Соответствие рекомендациям TEI 26
1.4.4. Использование и доступность 26
1.5. Выводы 27
Глава 2. Разработка синтаксической разметки для СКАТа 29
2.1. О предыдущем опыте разработки системы синтаксических отношений для СКАТа 29
2.2. Разработка новых синтаксических отношений 33
2.2.1. Подчинительные связи слов 33
2.2.2. Отношения внутри простого предложения 34
2.2.3. Отношения в сложных предложениях 35
2.2.4. Иные отношения 35
2.3. О представлении разметки в таблице 36
Глава 3. Разработка XML-формата синтаксической разметки для СКАТа 38
Глава 4. Программа для автоматической генерации XML-формата синтаксической разметки в СКАТе 49
Заключение 56
Библиография 58
Приложение 1: Пример синтаксической разметки корпуса 64
Приложение 2: Пример XML-формата синтаксической разметки корпуса 70
Приложение 3. Ссылка на скачивание программы для автоматической генерации XML-формата синтаксической разметки 87



Санкт-Петербургский агиографический корпус (СКАТ) – это проект кафедры математической лингвистики Филологического факультета СПбГУ, разрабатываемый с 2006 года. Цель проекта – перевод церковнославянских рукописей в электронный формат и последующее их издание. В настоящее время введено несколько десятков рукописей, охватывающих промежуток XVI-XVII вв., которые представляют собой жития русских святых и похвальные слова к ним. Для текстов корпуса разработан формат морфологической разметки, которая осуществляется силами студентов кафедры математической лингвистики. Несколько лет назад была поставлена задача создания формата синтаксической разметки для корпуса. С самого начала создания корпуса разработчики опирались на рекомендации консорциума Text Encoding Initiative.
Text Encoding Initiative (далее – TEI) является консорциумом по разработке и развитию единого стандарта представления текстов в электронном виде. Главным результатом деятельности этого консорциума является список рекомендаций (Guidelines), определяющий язык разметки для представления структурных, интерпретационных и концептуальных особенностей текстов, главным образом из области гуманитарных наук, общественных наук и лингвистики. Формализм TEI построен на базе SGML/XML [7, С. 55] (до четвёртой версии включительно; начиная с версии P5 – исключительно XML).
Целью данной диссертации является разработка синтаксической разметки Санкт-Петербургского корпуса агиографических текстов и её XML-представления в соответствии с рекомендациями TEI, а также автоматизация формирования её XML-представления.
В задачи исследования входит:
 исследование опытов разработки различных синтаксически размеченных корпусов, как исторических, так и охватывающих современные языки;
 исследование предыдущего опыта разработки формата синтаксической разметки для СКАТа и разработка перечня новых синтаксических отношений для церковнославянского языка;
 изучение рекомендаций TEI по синтаксической разметке текстов и разработка XML-формата синтаксической разметки для последующей полуавтоматической или ручной обработки житий;
 разработка программы для автоматического внедрения синтаксической разметки в существующие XML-файлы рукописей.
Работа состоит из четырёх глав, заключения и приложений. В первой главе «Исследование опыта разработки синтаксически размеченных корпусов» рассматриваются десять синтаксически размеченных корпусов, их особенности, модели синтаксической разметки и соответствие её рекомендациям TEI. Во второй главе «Разработка синтаксической разметки для СКАТа» рассматривается предыдущий опыт создания модели синтаксической разметки для Санкт-Петербургского агиографического корпуса и разрабатывается новая система синтаксических отношений и соотвествующих им тэгов для ручной разметки корпуса. В третьей главе «Разработка XML-формата синтаксической разметки для СКАТа» рассматриваются возможности представления синтаксических структур в XML-формате в соответствии с рекомендациями TEI и разрабатывается подходящий способ XML-представления разработанной во второй главе системы синтаксических отношений. В четвёртой главе «Программа для автоматической генерации XML-формата синтаксической разметки в СКАТе» описывается разработанная в рамках данной диссертации программа для внедрения разработанной во второй главе синтаксической разметки в существующие XML-представления текстов житий СКАТа в соотвествии с разработанными в третьей главе правилами XML-формата этой разметки. В Заключении подводятся итоги работы. В Приложении 1 «Пример синтаксической разметки корпуса» приводится синтаксически размеченный фрагмент Жития Димитрия Прилуцкого размером в 151 строку. В Приложении 2 «Пример XML-формата синтаксической разметки корпуса» приводится XML-представление синтаксической разметки фрагмента из Приложения 1. В Приложении 3 «Ссылка на скачивание программы для автоматической генерации XML-формата синтаксической разметки» приводится ссылка, перейдя по которой, можно скачать программу, описанную в четвёртой главе, а также ряд сопетствующих материалов.
Актуальность выбранной темы дипломной работы тем, что на данный момент для Санкт-Петербургского агиографического корпуса до сих пор не была принята к эксплуатации система синтаксической разметки, применимая на практике (при ручной разметке), а также не был разработан исчерпывающий XML-формат такой разметки.
Новизна работы характеризуется тем что в её рамках была разработана новая система отношений для разрабатываемой разметки, новый способ XML-представления синтаксической разметки для СКАТа, а также программа, чьих основных функций ранее не встречалось в инструментарии для работы с данным корпусом.
В качестве материала данной диссертации используется текст жития Димитрия Прилуцкого.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В работе были рассмотрены 10 синтаксически размеченных корпусов, их особенности, модели синтаксической разметки и соответствие её рекомендациям TEI и приведена сводная таблица, отражающая основные особенности этих корпусов и учтены особенности систем их синтаксической разметки.
Далее, был рассмотрен предыдущий опыт разработки системы синтаксических отношений для Санкт-Петербургского Агиографического корпуса и разработан и предложен перечень новых синтаксических отношений специально для целей синтаксической разметки корпуса. Среди них:
 Аналитичность (Ана);
 Обращение (Обр);
 Подчинение (Под);
 Предложное (Пред);
 Примыкание (Прим);
 Присвязочность (Прис);
 Согласование (Согл);
 Сочинение (Соч);
 Союзное (Сою);
 Сравнение (Срав);
 Субпредикативность (Субп);
 Управление (Упр);
 Частичное (Част);
Далее, был разработан непосредственно XML-формат синтаксической разметки в СКАТе. Он опирается на предлагаемую в рекомендациях TEI структуру графов, и в нашем случае узлы графа соотносятся со словами в тексте размечаемого жития, а дуги графа представляют синтаксические отношения между словами.
Наконец, была разработана программа для автоматизированного внедрения XML-формата синтаксической разметки в XML-структуру существующих в СКАТе текстов житий (в частности, Жития Димитрия Прилуцкого, использованного в качестве материала для данной диссертации).
В итоге была осуществлена пробная разметка фрагмента корпуса (Приложение 1) и конвертация этой разметки в XML-формат (Приложение 2).





1. Алексеева, Е. Л. Синтаксическая разметка корпуса древнерусских агиографических текстов СКАТ // СТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА – Том 10. – СПб., 2014. – С. 345-351.
2. Алипий (Гаманович), иером. Грамматика церковно-славянского языка / иером. Алипий (Гаманович). – М.: Художественная литература, 1991. – 272 с.
3. Афанасьева Н. Учебник церковнославянского языка [Электронный ресурс] / Н. Афанасьева // Православный журнал Благодатный Огонь. – Режим доступа: http://www.blagogon.ru/biblio/232/, свободный. – Загл. с экрана.
4. Горшков, А. И. Старославянский язык / А. И. Горшков. – М.: Высшая школа, 1963. – 296 с.
5. Дяченко, П. В. НКРЯ: основной корпус и СинТагРус, синтаксический анализ текстов со снятой морфологической омонимией / П. В. Дяченко, О. Ю. Подлесская, В. Г. Сизов // Информационные технологии и системы (ИТиС’2014). Сборник трудов 38-ой Конференции молодых ученых и специалистов ИППИ РАН. – Нижний Новгород, 2014. – С. 150-156.
6. Иванова, Т. А. Старославянский язык / Т. А. Иванова. – М.: Высшая школа, 1977. – 199 с.
7. Михайлова, Н. М. Формат синтаксической разметки Санкт-Петербургского корпуса агиографических текстов : дис. ... магистра лингвистики : 03.57.00 // Н. М. Михайлова ; С.-Петербург. гос. ун-т. – СПб., 2012 – 110 с.
8. Русская грамматика: Том II / под ред. Н. Ю. Шведовой [и др]. – М.: Наука, 1980. – 710 с.
9. Рэй, Э. Изучаем XML / Э. Рэй; пер. с англ. С. Маккавеева. – СПб: Символ-Плюс, 2001. – 408 с.
10. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы / Ю. Д. Апресян [и др.] // Национальный корпус русского языка: 2003-2005. – М.: Индрик, 2005. – С. 193-214.
11. Синтаксически размеченный корпус русского языка: информация для пользователей [Электронный ресурс] // Национальный корпус русского языка. – Режим доступа: http://www.ruscorpora.ru/instruction-syntax.html, свободный. – Загл. с экрана.
12. Современное состояние глубоко аннотированного корпуса текстов русского языка (СинТагРус) / П. В. Дяченко [и др.] // Сборник «Национальный корпус русского языка: 10 лет проекту». Труды Института русского языка им. В.В. Виноградова. – М., 2015. – Вып. 6. – С. 272-299.
13. Ходова, К. И. Простое предложение в старославянском языке / К. И. Ходова. – М.: Наука, 1980. – 296 с.
14. A Corpus of Polish / R. L. Górski [et al.] // Academia. The Magazine of the Polish Academy of Sciences. – 2009. – № 2 (22) – P. 4-7.
15. Albahari, J. C# 7.0 in a Nutshell: The Definitive Reference / J. Albahari, B. Albahari. – O'Reilly Media, 2017. – 1090 p.
16. Annotation tools for syntax and named entities in the National Corpus of Polish / J. Waszczuk [et al]. // International Journal of Data Mining, Modelling and Management. – 2013. – Vol. 5, № 2. – P. 103-122.
17. Corpus Resource Database (CoRD) [Electronic resource] – Режим доступа: http://www.helsinki.fi/varieng/CoRD/index.html, свободный. – Загл. с экрана.
18. Głowińska, K. The Design of Syntactic Annotation Levels in the National Corpus of Polish / K. Głowińska, A. Przepiórkowski // Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC’10) / ed. by N. Calzolari [et al.]. – Valetta: European Language Resources Association, 2010. – P. 1816-1821.
19. Kroch, A. The Penn Helsinki Parsed Corpus of Middle English. First edition [Electronic resource] / A. Kroch, A. Taylor – Philadelphia: Department of Linguistics, University of Pennsylvania, 1994. – Режим доступа: https://web.archive.org/web/20051216134723/http://www.ling.upenn.edu:80/mideng/documentation/manual.txt, свободный – Загл. с экрана.
20. Kulick, S. The Penn Parsed Corpus of Modern British English: First Parsing Results and Analysis / S. Kulick, A. Kroch, B. Santorini // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers). – Baltimore, MD: Association for Computational Linguistics, 2014. – P. 662-667.
... Всего источников –41


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ