Тип работы:
Предмет:
Язык работы:


ПРЕДСТАВЛЕНИЕ СИНТАКСИЧЕСКИХ СВЯЗЕЙ В ЛИНГВИСТИЧЕСКОМ ПРОЦЕССОРЕ NLTK4RUSSIAN

Работа №130436

Тип работы

Магистерская диссертация

Предмет

лингвистика

Объем работы73
Год сдачи2017
Стоимость5600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
74
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
ГЛАВА 1. АВТОМАТИЧЕСКЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ 6
1.1 Синтаксический анализ в задачах автоматической обработки текстов 6
1.2 Представление синтаксической информации 7
1.2.1 Грамматика зависимостей 8
1.2.2 Грамматика составляющих 9
1.2.3 Сравнение грамматики зависимостей и грамматики составляющих 11
1.2.4 Формальные грамматики в синтаксическом анализе 12
1.3 Обзор существующих инструментов и ресурсов 14
1.5 Входные данные для синтаксического анализа. Предобработка текста 18
1.6 Токенизация 19
1.7 Морфологический анализ и снятие морфологической неоднозначности 20
1.6 Модуль синтаксического анализа в NLTK 21
1.6.1 Проект NLTK4RUSSIAN 21
1.6.2 Синтаксический анализ в NLTK 22
ГЛАВА 2. АРХИТЕКТУРА РАЗРАБАТЫВАЕМОГО СИНТАКСИЧЕСКОГО АНАЛИЗАТОРА И ОЦЕНКА ЕГО РАБОТЫ 25
2.1 Особенности используемой категориальной грамматики 25
2.2 Правила выделения синтаксических групп 28
2.2.1 Принципы организации системы правил 28
2.2.2 Правила уровня клаузы и предложения 30
2.2.3 Правила объединения в именную группу (NP) 32
2.2.4 Правила объединения в глагольную группу (VP) 35
2.2.5 Другие правила 38
2.3 Программная реализация инструмента 39
2.3.1 Используемое программное обеспечение 39
2.3.2 Морфологический компонент 39
2.3.3 Алгоритм работы программы 41
2.3.4 Выходные данные 43
2.4 Оценка результатов 47
2.4.1 Метод оценки 47
2.4.1 Анализ результатов и ошибок 52
ГЛАВА 3. ПРИМЕНЕНИЕ. ЭКСПЕРИМЕНТЫ ПО ИЗВЛЕЧЕНИЮ КЛЮЧЕВЫХ СЛОВОСОЧЕТАНИЙ 55
ЗАКЛЮЧЕНИЕ 60
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 61
ПРИЛОЖЕНИЕ А. Разработанная грамматика 67
ПРИЛОЖЕНИЕ Б. Корпус тестовых предложений 70

Задачи, связанные с автоматической обработкой данных, становятся все более и более востребованными в современном мире, и значительную часть этих данных представляют тексты, написанные на естественном языке, что является предметом изучения лингвистики. Одним из наиболее сложных этапов обработки текста, предшествующих семантическому анализу, является анализ синтаксический. Целью данного исследования является разработка синтаксического анализатора (парсера) для русского языка на основе ресурсов платформы NLTK и изучение его возможностей.
В соответствии с поставленной целью работы сформулированы следующие задачи исследования:
• проанализировать существующие теоретические подходы и инструменты для автоматического синтаксического анализа;
• разработать систему правил для выделения синтаксических групп;
• записать результаты в виде порождающей грамматики, работающей с NLTK;
• подключить к парсеру морфологический анализатор;
• провести оценку работы парсера и проанализировать встретившиеся ошибки и сложные случаи.
Предметом данного исследования являются синтаксические отношения в русском языке и способы их отражения в парсере, работающем на основе порождающей грамматики и групп составляющих. Материалом данного исследования стали представительные выборки русскоязычных предложений, клауз, словосочетаний, в которых реализуются основные синтаксические отношения, выбранные для тестирования разработанной грамматики и основанного на ней парсера.
Актуальность данного исследования связана с востребованностью синтаксического анализа во многих задачах современной компьютерной лингвистики, таких как извлечение фактов, ключевых слов и словосочетаний, автоматического реферирования текстов и т.д. Несмотря на наличие множества разработок в данной области, существует лишь узкий круг инструментов, открытых для использования и пригодных без доработки для синтаксического анализа русскоязычных текстов. Платформа NLTK (Natural Language Toolkit) была выбрана как наиболее гибкая, содержащая основные алгоритмы для автоматической обработки текста, не требующая существенной перестройки для работы с русским языком, обладающая хорошей совместимостью и широким кругом инструментов для исследования и работы с естественным языком. В данной работе мы предлагаем формальную грамматику для русского языка и парсер на основе этой грамматики, созданный на открытой платформе, допускающий расширение и применимый в большом числе задач.
Теоретическая значимость данного исследования заключается в разработке набора правил, основывающихся на теоретических описаниях синтаксиса русского языка и на существующей практике автоматического синтаксического анализа. Правила, выработанные на основе теории, были переведены на язык формальной порождающей грамматики в формате, применяющимся в NLTK. Данные правила легли в основу функционирующего парсера, что обусловливает практическую значимость работы. Данная система правил, а именно выделение групп составляющих, была использована при оптимизации алгоритма извлечении ключевых выражений RAKE для работы с русским языком. Получившийся инструмент был протестирован на четырех русскоязычных корпусах текстов.
Апробация исследования: основное содержание диссертационного проекта представлено в двух публикациях [Москвина и др. 2016, 2017] и обсуждалось в докладах на конференциях.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В диссертационном исследовании мы осуществили описание основных явлений синтаксиса русского языка при помощи категориальной грамматики в терминах структур составляющих.
В ходе работы были выполнены все поставленные задачи:
• представлена теоретическая база исследования и обзор современного состояния синтаксического анализа в компьютерной лингвистике;
• разработана система правил, покрывающих основные синтаксические отношения, эта система правил представлена в виде формальной грамматики, работающей с инструментами NLTK и структурами составляющих;
• к парсеру подключен морфологический анализатор PyMorphy2, с помощью автоматического кодирования морфологических параметров словоформ в виде терминальных элементов в категориальной грамматике NLTK;
• проведена оценка работы созданного на основе данной грамматики инструмента, выделены основные преимущества и недостатки;
• предложено возможное применение подобного инструмента, представлены данные экспериментов по извлечению ключевых словосочетаний при помощи поверхностного синтаксического анализа и выделения групп составляющих в NLTK.
Возможные направления для развития исследования включают в себя ряд шагов для повышения точности синтаксического анализа: расширение и усовершенствование грамматики, подключение дополнительных инструментов для получения более подробной информации о словоформах на уроне токенизации, а также применение парсера для разнообразных задач автоматической обработки текста и его интеграция с другими инструментами NLTK.


1. АОТ: Синтаксический анализ. Построение дерева зависимостей всего предложения [Электронный ресурс] // Aot.ru: информ.-справочный портал. URL: http: //www.aot.ru/docs/synan.html (дата обращения: 17.05.2017).
2. Апресян, Ю.Д. Синтаксически и семантически аннотированный корпус русского языка: современное состояние и перспективы / Ю.Д. Апресян, И.М. Богуславский, Б.Л. Иомдин // Национальный корпус русского языка 2003-2005 г. Результаты и перспективы. М.: Индрик, 2005. — С. 193-214.
3. Буторов, В. Д. Моделирование синтаксиса естественного языка / В. Д. Буторов; В. В. Богданов; Г. Я. Мартыненко; А. С. Штерн; И. В. Азарова. Прикладное языкознание / отв. ред. А. С. Герд - СПб. : Изд-во СПбГУ, 1996. - с. 142-161
4. Гладкий, А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. / А.В. Гладкий. М.: Наука, 1985. — 144 с.
5. Дружкин, К.Ю. Синтаксический анализатор лингвистического процессора. Этап 3: эксперименты по ранжированию синтаксических гипотез. / К.Ю. Дружкин, Л.Л. Цинман; ред. А.Е. Кибрик. // В кн.: Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной международной конференции «Диалог» (2008). — М.: Изд-во РГГУ, 2008. — Вып. 7 (14). — С. 147-153.
6. Иорданская, Л.Н. Автоматический синтаксический анализ. Том 2. Межсегментный синтаксический анализ. / Л.Н. Иорданская; ред. А.А. Ляпунова, О.С. Кулагина. Новосибирск: Наука, 1967.
7. Каневский, Е.А., Семантико-синтаксический анализатор SEMSIN. / Е.А. Каневский, К.К. Боярский; ред. А.Е. Кибрик. // Научно­технический вестник информационных технологий, механики и оптики. — СПб: Университет ИТМО, 2015. — Т. 15 — № 5 — С. 869-876.
8. Мельчук И.А. Автоматический синтаксический анализ. Т. 1. Общие принципы. Внутрисегментный синтаксический анализ. / И.А. Мельчук; ред. А.А. Ляпунова, О.С. Кулагина. Новосибирск: Наука, 1967.
9. Мельчук И.А. Опыт теории лингвистических моделей «Смысл <=> Текст». / И.А. Мельчук. М.: Школа «Языки русской культуры», 1999 — 346 с.
10. Митрофанова, О.А. Вероятностное моделирование тематики русскоязычных корпусов текстов с использованием компьютерного инструмента GenSim // Труды международной конференции «Корпусная лингвистика-2015». СПб., 2015.
11. Москвина А.Д. Разработка ядра синтаксического анализатора для русского языка на основе библиотек NLTK. / А.Д. Москвина, Д. Орлова, П.В. Паничева, О.А. Митрофанова. // Компьютерная лингвистика и вычислительные онтологии. Труды XIX Международной объединенной научной конференции «Интернет и современное общество». СПб: Университет ИТМО, 2016. — С.44-54.
12. Паничева П.В. Разработка лингвистического комплекса для морфологического анализа русскоязычных корпусов текстов на основе Pymorphy и NLTK. / Е.В. Протопопова, О.А. Митрофанова, А.Р. Мирзагитова. // Труды международной конференции “Корпусная лингвистика - 2015”. СПб: СпбГУ, 2015.
13. Протасов, С.В. Преимущества грамматики связей для русского языка // Труды международной конференции «Диалог 2005». М., 2005.
14. Русская грамматика. Т. 2: Синтаксис / гл. ред. Н. Ю. Шведова. М.: Наука, 1980.
15. Старостин, А.С. Алгоритм синтаксического анализа, используемый в системе морфо-синтаксического анализа «TREETON» / А.С. Старостин, М.Г. Мальковский; ред. Л.Л. Иомдин, Н.И. Лауфер, А.С. Нариньяни и др. // В кн.: Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007». — М.: Изд-во РГГУ, 2007. — С. 516-524.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ