Тема: ОПРЕДЕЛЕНИЕ ГРАММАТИЧЕСКИХ АТРИБУТОВ СЛОВ В РУССКОМ ЯЗЫКЕ С ИСПОЛЬЗОВАНИЕМ MULTI-HEAD ATTENTION
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Обзор литературы 7
1.1 Классические и статистические подходы 7
1.1.1 Подходы, основанные на правилах 7
1.1.2 Статистический метод 7
1.1.3 Алгоритмы с использованием скрытой марковской модели 9
1.2 Нейросетевые подходы 10
1.2.3.1 Символьные вложения слов 13
1.2.3.2 Вложения слов на уровне частей слова 14
1.2.3.3 Векторные представления грамматических признаков 15
1.2.3 BiLSTM 16
1.2.4 Модели на основе предобученных BERT 16
1.3 Механизм внутреннего внимания и Multi-Head Attention 18
1.3.1 Механизм внутреннего внимания (Self-Attention) 19
1.3.3 Multi-Head Attention 21
1.3.4 Кодирующая часть трансформера 22
2 Корпус русского языка и стандарты разметки 24
2.1 Universal Dependencies 24
2.1.1 Токенизация и сегментация слов 25
2.1.1 CoNNL-U 26
2.1.2 UPOS 27
2.2.1 Описание корпуса данных SynTagRus 29
2.2.2 Очистка данных 30
2.2.3 Разделение выборки 30
3 Архитектура классификатора на основе Multi-Head Attention 32
3.1 Векторное представление слов на уровне символов 32
3.2 Векторные представления грамматических признаков 34
3.3 Архитектура модели 34
4 Оценка модели и сравнение с современными решениями 36
ЗАКЛЮЧЕНИЕ 43
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 45
📖 Введение
Так, решая задачу автоматической частеречной разметки (англ. Part-of-speech tagging, POS tagging), особую сложность создает грамматическая омонимия — неоднозначность, при которой одинаковые словоформы соответствуют разным частям речи. При этом правильное определение возможно исключительно с учетом контекста. Например, слово "стекло" в тексте может выступать в роли имени существительного или глагола. Но без учета информации о соседних словах невозможно однозначно определить какой именно части речи оно принадлежит. Таким образом, для решения таких задач также требуется комплексный анализ.
Актуальность. Для русского языка с его морфологической сложностью необходимо создание точных и эффективных методов морфологического анализа и частеречной разметки. Современные подходы на основе BiLSTM архитектур и предобученных BERT-моделей показывают высокую точность (97-99% на SynTagRus), но имеют ограничения: в первом случае - в виде последовательной обработки входящей последовательности, во втором - ограниченности гибкости модели от предобученной токенизации и высокой вычислительной сложности.
Подходы с использованием механизма внутреннего внимания (в частности, Multi-Head Attention) показывают высокую эффективность в подобных задачах обработки естественного языка, зачастую превосходя рекуррентные сети по качеству и скорости работы. Благодаря этому механизму появляется возможность параллельной обработки и анализа последовательности, что показано в работе [2] на примере задачи машинного перевода.
Несмотря на то, что механизм внутреннего внимания (а именно, кодирующая часть трансформера) без использования переобучения уже ранее применялся для решения автоматической морфологической разметки русского языка [3], в настоящей работе предлагается применение кодера для автоматической частеречной разметки с использованием дополнения обучающих данных информацией о возможных грамматических атрибутах слов морфологическими анализаторами (в частности, PyMorphy2/3 [4, 5]). Такой подход улучшает эффективность моделей, что показано в работе [6].
При этом часть предложенной архитектуры модифицирована в пользу улучшения производительности модели, а именно - заменена рекуррентная ячейка GRU для векторного представления слова на основе его символов блоком полносвязной НС. Замена также обусловлена результатами работы [6], которая показала, что возможно ускорение обучения без особой потери точности. Также проведена серия экспериментов по подбору количества подряд идущих слоев и проекций внимания кодера.
Цель работы. Целью данной работы является исследование методов для определения частей речи русского языка и разработка архитектуры для автоматической частеречной разметки на основе механизма Multi-Head Attention.
Задачи. Для достижения поставленной цели необходимо выполнить задачи:
1. Выполнить обзор предметной области;
2. Проанализировать существующие подходы к частеречной разметке;
3. Изучить методы для обработки Out-of-Vocabulary слов для улучшения гибкости модели;
4. Выбрать корпус для задачи POS-тегирования русского языка, позволяющий провести объективное сравнение с существующими моделями;
5. Разработать архитектуру для POS-тегирования с использованием Multi-Head Attention;
6. Провести обучение и тестирование модели на размеченных данных корпуса языка, сравнить точность с существующими решениями;
7. Проанализировать преимущества и ограничения предложенного подхода.
Практическая значимость. Разработанная архитектура для автоматического POS-тегирования с использованием механизма Multi-Head Attention позволит повысить качество и скорость морфологического анализа русскоязычных текстов. Это откроет возможности для улучшения различных систем обработки естественного языка, включая автоматический перевод, системы информационного поиска и анализа больших текстовых данных. Результаты работы могут быть использованы в научных исследованиях, образовательных платформах и прикладных программных продуктах.
✅ Заключение
Отличительными особенностями предложенного решения по сравнению с аналогичной архитектурной идей использования Multi-Head Attention (кодировщика трансформера) в качестве кодирующей части без использования внешних контекстуализированных вложений слов BERT, представленной в работе [3], стали усовершенствования в области векторного представления слов. В работе использован подход на основе полносвязной нейронной сети для формирования векторных представления слов на символьном уровне, дополненных информацией, полученной морфологическим анализатором. Экспериментально подтверждено, что использование векторных представлений грамматических признаков, полученных с помощью морфологического анализатора PyMorphy, позволяет повысить точность модели на 0.5-1% и значительно ускорить процесс обучения.
Важным результатом работы стало сравнение предложенного подхода с решениями на основе BiLSTM. На корпусе SynTagRus UD 2.2 разработанная архитектура показала точность 98.59%, что на 1.35% превышает результат BiLSTM-модели (97.24%). Полученные результаты имеют значительный практический потенциал для применения в системах автоматической обработки естественного языка, лингвистических исследованиях и решениях для анализа больших текстовых данных.
Таким образом, в ходе исследования была подтверждена эффективность использования механизмов внимания для задачи автоматической частеречной разметки без использования дополнительных контекстуальных вложений слов. Результаты работы могут быть использованы для дальнейшего улучшения систем автоматической обработки текста, а также служить основой для последующих исследований в области синтаксического и семантического анализа русского языка.
Несмотря на сравнимую точность предложенного подхода, существуют перспективные направления для дальнейшего развития и улучшения модели, например:
1. Использование FastText-вложений и комбинирование с вложениями, полученными на уровне отдельных символов;
2. Одновременное предсказание части речи и морфологических признаков (род, число, падеж и т. д).





