Тип работы:
Предмет:
Язык работы:


Проблемы формализации грамматики и синтаксической неоднозначности при разработке синтаксически размеченного корпуса рассказов Л. Андреева

Работа №130464

Тип работы

Магистерская диссертация

Предмет

лингвистика

Объем работы93
Год сдачи2018
Стоимость5600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
23
Не подходит работа?

Узнай цену на написание


Введение 3
Глава 1. Вопросы автоматического синтаксического анализа в корпусах текстов 8
1.1 Проблемы лингвистического обеспечения компьютерного синтаксического анализа 8
1.1.1 Место компьютерного синтаксиса при автоматическом анализе текстов 8
1.1.2 Неоднозначность и проблема комбинаторного взрыва 15
1.1.3 Проблема формализации грамматики 19
1.2 Корпусы с синтаксической разметкой 21
1.2.1 Зарубежные синтаксические корпусы 22
1.2.2 Корпусы русского языка с синтаксической разметкой 24
1.3 Исследования в области лингвистики на материале текстов Л. Андреева 28
1.3.1 Исследования синтаксиса на материале прозы Леонида Андреева 29
1.3.2 Представление творчества Леонида Андреева в современных корпусах 30
1.4 Инструменты проекта AIIRE 31
1.4.1 Универсальный лингвистический процессор 32
1.4.1.1 Морфологический анализ 33
1.4.1.2 Синтаксический анализ 35
1.4.1.3 Семантический анализ и универсальная онтология 38
1.5 Выводы 42
Глава 2. Синтаксические конструкции, вызывающие проблемы при автоматическом синтаксическом анализе, и способы решения этих проблем 44
2.1 Корпус рассказов Леонида Андреева 45
2.2 Обособленные приложения 46
2.3 Сочетания именных групп 50
2.3.1 Сочетания именных групп со значением процессуальности 51
2.3.1.1 Словосочетания с определительно-объектными отношениями 52
2.3.1.2 Словосочетания с определительно-субъектными отношениями 55
2.3.2 Генитивные конструкции 64
2.4 Деепричастные обороты 72
2.6 Критерии оценки синтаксического анализа и качества разметки 75
Данные случаи комбинаторных взрывов, хотя и являются по не решенными проблемами, тем не менее, не могут быть решены на данном этапе исследования потому, что сами по себе не содержат явно некорректных с точки зрения формальной грамматики версий, т.е. не снижают общую точность; что же касается некорректных в исследованных конструкциях версий разметки, которые влияли на точность, то все они были устранены в ходе исследования 77
2.6 Выводы 77
Заключение 79
Список использованной литературы 81
Приложение А. Классы составляющих, используемые в грамматике AIIRE 89

В последние годы автоматическая обработка текстов вышла на совершенно новый уровень. Тексты различных стилей и жанров подвергаются автоматическому лингвистическому анализу для самых разных целей. Обработка текстов различных жанров и на естественном языке для удовлетворения широкого спектра потребностей пользователей заняла важное место в области развития технологий.
В частности, синтаксический анализ как один из этапов автоматического анализа текстов играет важную роль в области компьютерной лингвистики. Синтаксический анализ используется в системах машинного перевода, информационного поиска, автоматического реферирования и т.д. Результаты синтаксического анализа художественных текстов могут существенно облегчить работу историков языка и литературоведов, т.к. позволяют отследить и проанализировать функционирование синтаксических конструкций и лексических единиц в них.
Результаты анализа текстов могут быть представлены в виде размеченных корпусов. В настоящее время корпусная лингвистика занимает важное место в области лингвистических исследований. Корпусы сегодня используются для самых разных целей: создание грамматик и словарей, машинное обучение, анализ языкового материала в естественном контексте и т.д. Настоящее исследование посвящено изучению проблем, возникающих при автоматическом синтаксическом анализе текстов при создании корпуса рассказов Л. Андреева.
Актуальность работы определяется повышенным интересом исследователей к вопросам формализации синтаксиса в корпусах текстов. В последние годы ведется активная работа по созданию синтаксически размеченных корпусов (SynTagRus, Hanko, The Penn Treebank Project, The Prague Dependency Treebank и т.д.) и формализации синтаксиса (АОТ, RASP, Этап-3 и т.д.). Вместе с тем, в настоящее время исследователи не располагают достаточным количеством находящихся в свободном доступе систем, позволяющих осуществить качественную и полную синтаксическую разметку корпусов текстов разных стилей, поэтому разработка инструментов, направленных на синтаксический анализ, представляется сейчас актуальной задачей.
Степень разработанности темы может быть охарактеризована следующими положениями.
• Проблемами синтаксического анализа и формализации грамматики занимались многие исследователи (Ю. Д. Апресян, А. В. Гладкий, И. А. Мельчук, Я. Г. Тестелец, Л. Блумфилд, Л. Теньер, Р. Хадсон, Н. Хомский и др.), и в настоящее время существует несколько подходов к представлению структуры предложения и созданию модели синтаксиса. Важной задачей при автоматическом синтаксическом анализе также является снятие омонимии (А. М. Пешковский, О. В. Митренина, М. Шаттлворс и др.).
• Синтаксические конструкции в текстах Л. Андреева в настоящее время изучены либо с позиции рассмотрения моделей с определенной семантикой (И. В. Андреева), либо рассматриваются в качестве одной из ступеней литературоведческого анализа (Е. В. Исаева). Единственной работой в области компьютерной лингвистики, использующей в качестве материала рассказы Л. Андреева, на данный момент является частотный словарь рассказов Л. Андреева (А. О. Гребенников, Г. Я. Мартыненко).
• В настоящее время существуют различные корпусы текстов, в том числе художественных, имеющих синтаксическую разметку и использующих разные подходы к синтаксическому анализу (СинТагРус, Russian Syntax Treebank, ХАНКО и т.д.). Тексты Л. Андреева (в частности, рассказы) представлены только в Национальном корпусе русского языка, но при этом они не вошли в число текстов, имеющих синтаксическую разметку. Объект исследования - явления синтаксической неоднозначности, возникающей при автоматической разметке, а также явления синтаксиса художественного текста, которые ранее в недостаточной степени подвергались формализации в существующих формальных грамматиках.
Предметом исследования являются способы формализации грамматики и разрешения неоднозначности художественных текстов, позволяющие повысить полноту и точность автоматической синтаксической разметки корпуса художественных текстов.
Цель исследования: обеспечить повышение точности и полноты в автоматической синтаксической разметке при создании корпуса рассказов Леонида Андреева путем решения проблем, связанных с формализацией грамматики и разрешением синтаксической неоднозначности. Цель исследования предусматривает решение следующих задач:
1. Создать коллекцию текстов Л. Андреева, относимых к рассказам, и распределить их по датам написания или первой публикации;
2. Загрузить тексты в корпус-менеджер для автоматической морфологической, синтаксической и семантической разметки;
3. Изучить проблемы, возникающие при синтаксическом анализе текстов Л. Андреева (особое внимание уделяется синтаксису словосочетаний и сверхфразовых единств);
4. Разработать и описать оптимальные способы решения возникающих проблем.
5. Экспериментально апробировать и произвести оценку эффективности разработанных способов повышения полноты и точности синтаксического анализа художественных текстов.
Научная новизна исследования заключается в следующем:
1. Впервые описаны проблемы автоматического синтаксического анализа художественных текстов на материале рассказов Л. Андреева и предложены способы их решения;
2. Создан синтаксически размеченный корпус рассказов Л. Андреева 1900 года.
3. Впервые описаны способы автоматического разрешения синтаксической неоднозначности на материале рассказов Л. Андреева.
Теоретическая значимость работы определяется тем, что описаны способы формализации синтаксической неоднозначности в ряде конструкций, характерных для художественного текста а) на материале рассказов Л. Андреева; б) с использованием инструментов для автоматической обработки текстов на всех уровнях языка.
Практическая значимость работы заключается в том, что синтаксические конструкции в текстах Л. Андреева свойственны также русскому языку в целом, поэтому способы решения проблем синтаксической неоднозначности и формализации грамматики, разработанные при создании корпуса рассказов Л. Андреева и используемые при синтаксическом и семантическом анализе в проекте AIIRE, могут использоваться и при работе с текстами других авторов и стилей, и применяться в системах автоматического реферирования, информационного поиска, машинного перевода, создания и анализа русскоязычных корпусов, т.к.. Кроме того, результаты работы могут быть полезны при исследовании творчества Леонида Андреева и особенностей художественной литературы Серебряного века.
Материалом для исследования послужили рассказы Л. Андреева 1900 года: «На реке», «Праздник», «Молчание», «Мельком», «Первый гонорар», «Прекрасна жизнь для воскресших», «Рассказ о Сергее Петровиче», «В темную даль», «Ложь».
Методы исследования выбраны с учетом специфики объекта, языкового материала, целей и задач работы. В работе применяются методы классификации, методы лингвистического анализа языкового материала (анализа структур непосредственных составляющих и зависимостей; комплексного анализа синтаксической семантики).
Степень достоверности и апробации результатов: параметром оценки синтаксического анализа является полнота покрытия, т.е. отсутствие нераспознанных единиц, которых нет в морфологическом словаре, и не связанных между собой синтаксических деревьев, — и точность разметки, проявляющаяся в отсутствии комбинаторных взрывов. Достоверность результатов обусловлена следующими положениями:
• В работе используются как традиционные, так и новейшие отечественные и зарубежные исследования в области компьютерной и корпусной лингвистики;
• Выбранный для анализа материал отвечает целям и задачам исследования.
Результаты исследования были апробированы путем сравнения количества не связанных между собой деревьев и комбинаторных взрывов в начале и в завершении исследования.
Структура работы. Работа состоит из введения, двух глав, заключения, списка использованной литературы, который включает в себя 78 наименований, в том числе 11 на иностранных языках. К работе также прилагаются фрагменты грамматики AIIRE на языке Python, разработанные в ходе исследования (Приложение А). Общий объем работы составляет 92 страницы; основное содержание изложено на 88 страницах, Приложение занимает 4 страницы.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Исследование проблем автоматического синтаксического анализа художественных текстов на материале рассказов Л. Андреева позволило сделать следующие выводы:
1. Проблемы при автоматическом синтаксическом анализе художественных текстов с помощью инструментов проекта AIIRE возникали в основном в конструкциях, характерных для текстов художественного стиля (деепричастные обороты, обособленные приложения, сочетания именных конструкций, одна из которых употреблена в родительном падеже). Это обусловлено тем, что художественные тексты ранее не подвергались анализу в данном проекте.
2. Решение проблем, возникающих при автоматическом синтаксическом анализе, осуществлялось следующими способами:
a. добавление в грамматику новых классов непосредственных составляющих (в ходе работы было добавлено 8 новых классов) и редактирование существующих;
b. работа в онтологии: создание новых выражений и значений, установление между ними необходимых связей;
c. работа в онтологии: создание новых отношений и добавление их в существующую иерархию отношений в онтологии.
3. Полнота разметки в ходе исследования увеличилась на 26%, однако число комбинаторных взрывов увеличилось на единицу. Стоит отметить, что сократить число комбинаторных взрывов (а значит, увеличить точность разметки) в рамках настоящего исследования не удалось, т.к. часть из них иллюстрируют в настоящий момент не решенную проблему нераспознанных единиц типа ‘р-р-рука’; а другая часть взрывов возникает из-за проблемы эллиптированного существительного в ряду однородных определений, общей для художественных и не художественных текстов. Тем не менее, комбинаторные взрывы, возникающие «локально» при работе над конкретной конструкцией в ходе устранения в ней разрыва, устранялись параллельно путем редактирования значений лексических единиц в онтологии. Таким образом, при незначительном снижении общей точности синтаксической разметки, точность синтаксической разметки исследованных конструкций оставалась близкой к единице в течение всего исследования.
4. При корректном семантическом анализе (когда онтология проработана и при анализе не возникает проблем на уровне семантики) в большинстве случаев строится корректное синтаксическое дерево (в случае, если все НС его структуры описаны в грамматике). Изначально в настоящем исследовании не стояла задача устранения разрывов, но в ходе работы стало очевидно, что часто этого достаточно, чтобы связать те части дерева, которые были построены для соседних конструкций, но не связывались между собой из-за неполного семантического анализа. Таким образом, чтобы избежать лишних версий разбора на синтаксическом уровне, часто достаточно обеспечить корректное связывание единиц на уровне семантики.


1. Андреев Л. Н. Полное собрание сочинений в 23 томах. Том 01. Рассказы. 1892-1899. - М.: Наука, 2007. — 812 с.
2. Андреев Л. Н. Полное собрание сочинений в 23 томах. Том 05. Повести и рассказы. 1906-1907. - М.: Наука, 2012. — 818 с.
3. Андреев Л. Н. Полное собрание сочинений в 23 томах. Том 06. Рассказы и повести. 1908. - М.: Наука, 2013. — 780 с.
4. Андреев Л. Н. Собрание сочинений. В 6-ти т. Т. 1. Рассказы 1898-1903 гг. - М.: Худож. Лит., 1990. - 639 с.
5. Андреев Л. Н. Собрание сочинений. В 6-ти т. Т. 2. Рассказы; Пьесы 1904-1907. - М.: Худож. Лит., 1990. - 559 с.
6. Андреев Л. Н. Собрание сочинений. В 6-ти т. Т. 3. Рассказы; Пьесы 1908-1910. - М.: Худож. Лит., 1994. - 655 с.
7. Андреев Л. Н. Собрание сочинений. В 6-ти т. Т. 4. Рассказы. Сашка Жегулев. 1910-1913 гг. - М.: Худож. Лит., 1994. - 658 с.
8. Андреев Л. Н. Собрание сочинений. В 6-ти т. Т. 5. Рассказы; Пьесы 1914-1915; Сатирические миниатюры для сцены 1908-1916. - М.: Худож. Лит., 1995. - 511 с.
9. Андреева И. В. Ядро семантико-синтаксического поля бытийности: модели с собственно-бытийной семантикой (на материале прозы Л. Андреева) //Вестник Нижегородского университета им. НИ Лобачевского. - 2015. - №. 4.
10. Андрющенко В. М. Автоматическая обработка текста // Ярцева В. Н., Арутюнова Н. Д. (ред.). Большой энциклопедический словарь: Языкознание. - Большая Российская энциклопедия, 1998. - 685 с.: ил.
11. Апресян Ю. Д. Непосредственно составляющих метод // Ярцева В. Н., Арутюнова Н. Д. (ред.). Большой энциклопедический словарь: Языкознание. - Большая Российская энциклопедия, 1998. - 685 с.: ил.
12. Блумфилд Л. Язык. / Перевод с английского Е.С. Кубряковой и В.П. Мурат. Комментарий Е.С. Кубряковой. Под редакцией и с предисловием М.М. Гухман — М.: Прогресс, 1968
13. Бондарева Н. А. Главная тема творчества Леонида Андреева //Вестник Костромского государственного университета. - 2009. - Т. 15. - №. 3.
14. Борщев В. Б., Парти Б. Х. Семантика генитивной конструкции: разные подходы к формализации //Типология и теория языка: От описания к объяснению: К. - 1999. - С. 159-172.
15. Борщев В. Б., Хомяков М. В. Клубные системы (формальный аппарат для описания сложных систем) //Научно-техническая информация. Сер. - 1976.
...


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ