ВВЕДЕНИЕ 4
1 Обзор литературы 7
1.1 Классические и статистические подходы 7
1.1.1 Подходы, основанные на правилах 7
1.1.2 Статистический метод 7
1.1.3 Алгоритмы с использованием скрытой марковской модели 9
1.2 Нейросетевые подходы 10
1.2.3.1 Символьные вложения слов 13
1.2.3.2 Вложения слов на уровне частей слова 14
1.2.3.3 Векторные представления грамматических признаков 15
1.2.3 BiLSTM 16
1.2.4 Модели на основе предобученных BERT 16
1.3 Механизм внутреннего внимания и Multi-Head Attention 18
1.3.1 Механизм внутреннего внимания (Self-Attention) 19
1.3.3 Multi-Head Attention 21
1.3.4 Кодирующая часть трансформера 22
2 Корпус русского языка и стандарты разметки 24
2.1 Universal Dependencies 24
2.1.1 Токенизация и сегментация слов 25
2.1.1 CoNNL-U 26
2.1.2 UPOS 27
2.2.1 Описание корпуса данных SynTagRus 29
2.2.2 Очистка данных 30
2.2.3 Разделение выборки 30
3 Архитектура классификатора на основе Multi-Head Attention 32
3.1 Векторное представление слов на уровне символов 32
3.2 Векторные представления грамматических признаков 34
3.3 Архитектура модели 34
4 Оценка модели и сравнение с современными решениями 36
ЗАКЛЮЧЕНИЕ 43
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 45
Омонимия — один из главных источников неоднозначности в русском языке. Она возникает, когда одна и та же форма слова может соответствовать разным лексемам или грамматическим категориям. Разрешение (снятие) такой неоднозначности является важной научной проблемой в области компьютерной лингвистики. Её полное устранение трудно и практически невозможно из-за особенностей языка [1].
Так, решая задачу автоматической частеречной разметки (англ. Part-of-speech tagging, POS tagging), особую сложность создает грамматическая омонимия — неоднозначность, при которой одинаковые словоформы соответствуют разным частям речи. При этом правильное определение возможно исключительно с учетом контекста. Например, слово "стекло" в тексте может выступать в роли имени существительного или глагола. Но без учета информации о соседних словах невозможно однозначно определить какой именно части речи оно принадлежит. Таким образом, для решения таких задач также требуется комплексный анализ.
Актуальность. Для русского языка с его морфологической сложностью необходимо создание точных и эффективных методов морфологического анализа и частеречной разметки. Современные подходы на основе BiLSTM архитектур и предобученных BERT-моделей показывают высокую точность (97-99% на SynTagRus), но имеют ограничения: в первом случае - в виде последовательной обработки входящей последовательности, во втором - ограниченности гибкости модели от предобученной токенизации и высокой вычислительной сложности.
Подходы с использованием механизма внутреннего внимания (в частности, Multi-Head Attention) показывают высокую эффективность в подобных задачах обработки естественного языка, зачастую превосходя рекуррентные сети по качеству и скорости работы. Благодаря этому механизму появляется возможность параллельной обработки и анализа последовательности, что показано в работе [2] на примере задачи машинного перевода.
Несмотря на то, что механизм внутреннего внимания (а именно, кодирующая часть трансформера) без использования переобучения уже ранее применялся для решения автоматической морфологической разметки русского языка [3], в настоящей работе предлагается применение кодера для автоматической частеречной разметки с использованием дополнения обучающих данных информацией о возможных грамматических атрибутах слов морфологическими анализаторами (в частности, PyMorphy2/3 [4, 5]). Такой подход улучшает эффективность моделей, что показано в работе [6].
При этом часть предложенной архитектуры модифицирована в пользу улучшения производительности модели, а именно - заменена рекуррентная ячейка GRU для векторного представления слова на основе его символов блоком полносвязной НС. Замена также обусловлена результатами работы [6], которая показала, что возможно ускорение обучения без особой потери точности. Также проведена серия экспериментов по подбору количества подряд идущих слоев и проекций внимания кодера.
Цель работы. Целью данной работы является исследование методов для определения частей речи русского языка и разработка архитектуры для автоматической частеречной разметки на основе механизма Multi-Head Attention.
Задачи. Для достижения поставленной цели необходимо выполнить задачи:
1. Выполнить обзор предметной области;
2. Проанализировать существующие подходы к частеречной разметке;
3. Изучить методы для обработки Out-of-Vocabulary слов для улучшения гибкости модели;
4. Выбрать корпус для задачи POS-тегирования русского языка, позволяющий провести объективное сравнение с существующими моделями;
5. Разработать архитектуру для POS-тегирования с использованием Multi-Head Attention;
6. Провести обучение и тестирование модели на размеченных данных корпуса языка, сравнить точность с существующими решениями;
7. Проанализировать преимущества и ограничения предложенного подхода.
Практическая значимость. Разработанная архитектура для автоматического POS-тегирования с использованием механизма Multi-Head Attention позволит повысить качество и скорость морфологического анализа русскоязычных текстов. Это откроет возможности для улучшения различных систем обработки естественного языка, включая автоматический перевод, системы информационного поиска и анализа больших текстовых данных. Результаты работы могут быть использованы в научных исследованиях, образовательных платформах и прикладных программных продуктах.
В рамках выпускной квалификационной работы был проведен анализ подходов для задачи автоматической частеречной разметки, выявлены их преимущества и ограничения. Разработана и реализована архитектура автоматической частеречной разметки для русского языка на основе механизма Multi-Head Attention (в частности, кодировщика архитектуры трансформер). Обученная модель показывает точность, сопоставимую с лучшими существующими решениями (state-of-the-art) на размеченном корпусе SynTagRus UD 2.3 (98.75%). Проведено сравнение с DeepPavlov BERT Morphotagger (98.98%). Предложенная модель, обладая сопоставимой точностью, имеет существенные преимущества в вычислительной эффективности и гибкости архитектуры.
Отличительными особенностями предложенного решения по сравнению с аналогичной архитектурной идей использования Multi-Head Attention (кодировщика трансформера) в качестве кодирующей части без использования внешних контекстуализированных вложений слов BERT, представленной в работе [3], стали усовершенствования в области векторного представления слов. В работе использован подход на основе полносвязной нейронной сети для формирования векторных представления слов на символьном уровне, дополненных информацией, полученной морфологическим анализатором. Экспериментально подтверждено, что использование векторных представлений грамматических признаков, полученных с помощью морфологического анализатора PyMorphy, позволяет повысить точность модели на 0.5-1% и значительно ускорить процесс обучения.
Важным результатом работы стало сравнение предложенного подхода с решениями на основе BiLSTM. На корпусе SynTagRus UD 2.2 разработанная архитектура показала точность 98.59%, что на 1.35% превышает результат BiLSTM-модели (97.24%). Полученные результаты имеют значительный практический потенциал для применения в системах автоматической обработки естественного языка, лингвистических исследованиях и решениях для анализа больших текстовых данных.
Таким образом, в ходе исследования была подтверждена эффективность использования механизмов внимания для задачи автоматической частеречной разметки без использования дополнительных контекстуальных вложений слов. Результаты работы могут быть использованы для дальнейшего улучшения систем автоматической обработки текста, а также служить основой для последующих исследований в области синтаксического и семантического анализа русского языка.
Несмотря на сравнимую точность предложенного подхода, существуют перспективные направления для дальнейшего развития и улучшения модели, например:
1. Использование FastText-вложений и комбинирование с вложениями, полученными на уровне отдельных символов;
2. Одновременное предсказание части речи и морфологических признаков (род, число, падеж и т. д).
1. Порохнин А. А. Анализ статистических методов снятия омонимии в текстах на русском языке // Вестник АГТУ. Серия: Управление, вычислительная техника и информатика. - 2013. - № 2. - URL: https://cyberleninka.ru/article/n/analiz-statisticheskih-metodov-snyatiya-omonimii- v-tekstah-na-russkom-yazyke (дата обращения: 11.06.2025).
2. Vaswani A. et al. Attention is All you Need / Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A.N., Kaiser L., Polosukhin I. // Advances in Neural Information Processing Systems. - 2017. - № 30. - URL: https://arxiv.org/abs/1706.03762 (дата обращения: 11.06.2025).
3. Movsesyan A. A. Russian Neural Morphological Tagging: Do Not Merge Tagsets // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2022”. Moscow, June 15-18, 2022. URL: https://dialogue-conf.org/media/5780/movsesyanaa063.pdf (дата обращения: 09.06.2025).
4. Korobov M. Morphological analyzer and generator for Russian and Ukrainian languages // Analysis of Images, Social Networks and Texts. - Springer, 2015. - P 320-332.
5. PyMorphy3 [Электронный ресурс]. - URL: https://github.com/no-plagiarism/pymorphy3 (дата обращения: 09.06.2025).
6. Anastasyev D., Gusev I., Indenbom E. Improving Part-of-Speech Tagging via Multi-task Learning and Character-level Word Representations // Computational Linguistics and Intellectual Technologies. Papers from the Annual International Conference "Dialogue". - 2018. - №17. - P 14-27.
7. АОТ [Электронный ресурс]. - URL: http://aot.ru/docs/rusmorph.html (дата обращения: 09.06.2025).
8. NLTK: Natural Language Toolkit [Электронный ресурс]. - URL: https://www.nltk.org/ (дата обращения: 09.06.2025).
9. Национальный корпус русского языка [Электронный ресурс]. - URL: http://ruscorpora.ru/ (дата обращения: 09.06.2025).
10. Открытый корпус OpenCorpora [Электронный ресурс]. - URL: http://opencorpora.org/ (дата обращения: 09.06.2025).
11. Shatornaya A., Vorobiev A. Modeling a modern POS tagger using HMM
and Viterbi Algorithm // Научный журнал НИУ ИТМО. Серия «Процессы и аппараты пищевых производств». - 2014. - №2. URL:
https://cyberleninka.rU/article/n/modeling-a-modern-pos-tagger-using-hmm-and-vit erbi-algorithm (дата обращения: 11.06.2025).
12. SpaCy NLP Toolkit [Электронный ресурс]. - URL: https://spacy.io/ (дата обращения: 09.06.2025).
13. Sabrina J. M. et al. Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP [Электронный ресурс]. - URL: https://arxiv.org/pdf/2112.10508 (дата обращения: 09.06.2025).
14. Mikolov T. и др. Efficient Estimation of Word Representations in Vector Space [Электронный ресурс] // arXiv preprint. - 2013. - URL: https://arxiv.org/abs/1301.3781 (дата обращения: 09.06.2025).
15. Harris Z. S. Distributional Structure // WORD. - 1954. - № 10(2-3). - P
146-162. - URL:
https://www.tandfonline.com/doi/abs/10.1080/00437956.1954.11659520 (дата обращения: 09.06.2025).
...35