Введение 2
Глава 1. Общие сведения о Справочном корпусе бамана 3
1.1. Идеология и принципы 3
1.2. Перспективы создания синтаксически аннотированного корпуса 5
Глава 2. Синтаксические модели 8
2.1. Синтаксическая аннотация в корпусной лингвистике 8
2.2. Синтаксическая разметка в терминах грамматики зависимостей. 8
2.3. Синтаксическая разметка в терминах грамматики непосредственно составляющих 10
2.4. Проблемы парсинга 12
2.5. Проект UniversalDependencies 14
2.5.1. Общие сведения о проекте………………………………………..14
2.5.2. Принципы синтаксической разметки в UD……………………...15
2.5.3. Сегментация слов
2.5.4. Морфология в UD
2.5.5. Синтаксис в UD……………………………………………………20
2.5.6. Формат входных данных………………………………………….23
Глава 3. Выбор программного обеспечения 27
3.1. Практика работы с DgAnnotator 27
3.2. Опыт использования программной среды WebAnno 29
Заключение 33
Список использованной литературы и источников 34
Приложение 35
Данное исследование в рамках выпускной квалификационной работы бакалавра посвящено адаптации существующих синтаксических моделей и их программных сред для языка бамана в рамках создания синтаксически аннотированного корпуса текстов.
Целью исследования является анализ существующих синтаксических моделей и систем, попытка их применения к языку бамана, а также поиск путей решения технического вопроса для осуществления синтаксической разметки.
Данная цель определяет следующие задачи:
• Рассмотреть главные синтаксические теории и оценить возможность их применения для языка бамана в контексте создания корпуса
• Найти подходящий способ технической реализации синтаксической разметки.
Исследование разделено натри части. В главе 1 даются общие сведения о текущем состоянии Справочного корпуса бамана и рассматриваются перспективы и возможности создания на его основе синтаксически аннотированного корпуса.
Глава 2 посвящена рассмотрению различных синтаксических моделей применимых к языку бамана. В ней обозреваются проблемы современных парсеров в контексте методов компьютерной обработки естественных языков на синтаксическом уровне, а также дается детальное рассмотрение проекта UniversalDependencies, предназначенного для унификации процессов аннотации различных языковых уровней.
В главе 3 содержатся результаты работы с различным программным обеспечением, позволяющим производить аннотацию языкового материала.
В ходе исследования удалось посмотреть как различные синтаксические модели могут быть применимы для языка бамана в контексте создания синтаксически аннотированного корпуса.
Было выяснено, что для синтаксической разметки удобнее всего использовать грамматику зависимостей, поскольку все современные парсеры основываются приемущественно на ней. Также на нее опирается проект UniversalDependecnies, идеологию которого было решено применить для разметки будущего корпуса.
Техническую среду для аннотации корпуса было решено не разрабатывать, а осуществлять разметку в программе WebAnno. Это ПО в ходе своего использования зарекомендовало себя как надежное и отвечающее принципам уже имеющего Справочного корпуса бамана.
Дальнейшей задачей является налаживание автоматизации переноса имеющегося языкового материла из морфологически размеченного корпуса в формат доступный синтаксическому аннотатору.