Тема: ПРЕДСТАВЛЕНИЕ СИНТАКСИЧЕСКИХ СВЯЗЕЙ В ЛИНГВИСТИЧЕСКОМ ПРОЦЕССОРЕ NLTK4RUSSIAN
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ГЛАВА 1. АВТОМАТИЧЕСКЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ 6
1.1 Синтаксический анализ в задачах автоматической обработки текстов ... 6
1.2 Представление синтаксической информации 7
1.2.1 Грамматика зависимостей 8
1.2.2 Грамматика составляющих 9
1.2.3 Сравнение грамматики зависимостей и грамматики составляющих 11
1.2.4 Формальные грамматики в синтаксическом анализе 12
1.3 Обзор существующих инструментов и ресурсов 14
1.5 Входные данные для синтаксического анализа. Предобработка текста 18
1.6 Токенизация 19
1.7 Морфологический анализ и снятие морфологической
неоднозначности 20
1.6 Модуль синтаксического анализа в NLTK 21
1.6.1 Проект NLTK4RUSSIAN 21
1.6.2 Синтаксический анализ в NLTK 22
ГЛАВА 2. АРХИТЕКТУРА РАЗРАБАТЫВАЕМОГО СИНТАКСИЧЕСКОГО
АНАЛИЗАТОРА И ОЦЕНКА ЕГО РАБОТЫ 25
2.1 Особенности используемой категориальной грамматики 25
2.2 Правила выделения синтаксических групп 28
2.2.1 Принципы организации системы правил 28
2.2.2 Правила уровня клаузы и предложения 30
2.2.3 Правила объединения в именную группу (NP) 32
2.2.2 Правила объединения в глагольную группу (VP) 35
2.2.4 Другие правила 38
2.3 Программная реализация инструмента 39
2.3.1 Используемое программное обеспечение 39
2.3.2 Морфологический компонент 39
2.3.3 Алгоритм работы программы 41
2.3.4 Выходные данные 43
2.4 Оценка результатов 47
2.4.1 Метод оценки 47
2.4.1 Анализ результатов и ошибок 52
ГЛАВА 3. ПРИМЕНЕНИЕ. ЭКСПЕРИМЕНТЫ ПО ИЗВЛЕЧЕНИЮ
КЛЮЧЕВЫХ СЛОВОСОЧЕТАНИЙ 55
ЗАКЛЮЧЕНИЕ 60
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 61
ПРИЛОЖЕНИЕ А. Разработанная грамматика 67
ПРИЛОЖЕНИЕ Б. Корпус тестовых предложений 70
📖 Введение
В соответствии с поставленной целью работы сформулированы следующие задачи исследования:
• проанализировать существующие теоретические подходы и инструменты для автоматического синтаксического анализа;
• разработать систему правил для выделения синтаксических групп;
• записать результаты в виде порождающей грамматики, работающей с NLTK;
• подключить к парсеру морфологический анализатор;
• провести оценку работы парсера и проанализировать встретившиеся ошибки и сложные случаи.
Предметом данного исследования являются синтаксические отношения в русском языке и способы их отражения в парсере, работающем на основе порождающей грамматики и групп составляющих. Материалом данного исследования стали представительные выборки русскоязычных предложений, клауз, словосочетаний, в которых реализуются основные синтаксические отношения, выбранные для тестирования разработанной грамматики и основанного на ней парсера.
Актуальность данного исследования связана с востребованностью синтаксического анализа во многих задачах современной компьютерной лингвистики, таких как извлечение фактов, ключевых слов и словосочетаний, автоматического реферирования текстов и т.д. Несмотря на наличие множества разработок в данной области, существует лишь узкий круг инструментов, открытых для использования и пригодных без доработки для синтаксического анализа русскоязычных текстов. Платформа NLTK (Natural Language Toolkit) была выбрана как наиболее гибкая, содержащая основные алгоритмы для автоматической обработки текста, не требующая существенной перестройки для работы с русским языком, обладающая хорошей совместимостью и широким кругом инструментов для исследования и работы с естественным языком. В данной работе мы предлагаем формальную грамматику для русского языка и парсер на основе этой грамматики, созданный на открытой платформе, допускающий расширение и применимый в большом числе задач.
Теоретическая значимость данного исследования заключается в разработке набора правил, основывающихся на теоретических описаниях синтаксиса русского языка и на существующей практике автоматического синтаксического анализа. Правила, выработанные на основе теории, были переведены на язык формальной порождающей грамматики в формате, применяющимся в NLTK. Данные правила легли в основу функционирующего парсера, что обусловливает практическую значимость работы. Данная система правил, а именно выделение групп составляющих, была использована при оптимизации алгоритма извлечении ключевых выражений RAKE для работы с русским языком. Получившийся инструмент был протестирован на четырех русскоязычных корпусах текстов.
Апробация исследования: основное содержание диссертационного проекта представлено в двух публикациях [Москвина и др. 2016, 2017] и обсуждалось в докладах на конференциях.
✅ Заключение
В ходе работы были выполнены все поставленные задачи:
• представлена теоретическая база исследования и обзор современного состояния синтаксического анализа в компьютерной лингвистике;
• разработана система правил, покрывающих основные синтаксические отношения, эта система правил представлена в виде формальной грамматики, работающей с инструментами NLTK и структурами составляющих;
• к парсеру подключен морфологический анализатор PyMorphy2, с помощью автоматического кодирования морфологических параметров словоформ в виде терминальных элементов в категориальной грамматике NLTK;
• проведена оценка работы созданного на основе данной грамматики инструмента, выделены основные преимущества и недостатки;
• предложено возможное применение подобного инструмента, представлены данные экспериментов по извлечению ключевых словосочетаний при помощи поверхностного синтаксического анализа и выделения групп составляющих в NLTK.
Возможные направления для развития исследования включают в себя ряд шагов для повышения точности синтаксического анализа: расширение и усовершенствование грамматики, подключение дополнительных инструментов для получения более подробной информации о словоформах на уроне токенизации, а также применение парсера для разнообразных задач автоматической обработки текста и его интеграция с другими инструментами NLTK.



