Аннотация
ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ, ТЕРМИНОВ 3
ВВЕДЕНИЕ 5
1 Обзор литературы 8
1.1 Ранние подходы к решению задачи 8
1.2 Подходы, основанные на дообучении моделей BERT 9
1.3 Недостатки подхода, основанного на дообучении моделей BERT 11
2 Архитектура GPT 13
3 Fine-Tuning 18
3.1 Обоснование использования Fine-tuning и PEFT 18
3.2 Parameter Efficient Fine-Tuning (PEFT) 20
3.3 LoRA 21
4 Получение данных для дообучения 25
4.1 Размеченные корпуса текстов 26
4.2. Сбор собственного набора данных 27
5 Обучение моделей 33
6 Сравнение с SOTA-подходами 36
ЗАКЛЮЧЕНИЕ 38
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ
Всем естественным языкам свойственно такое явление, как наличие слов-омонимов. Омонимы - это слова, которые одинаково звучат и пишутся, но при этом имеют различную семантику.
В рамках обработки естественного языка это является серьезной проблемой, т. к. затрудняется извлечение смысла из текста.
Стоит отметить, что в рамках вычислительной техники проблема омонимии рассматривается именно для слов с одинаковым написанием, так как слова в языке мы воспринимаем, как набор символьных строк. Соответственно, если один и тот же текст может иметь абсолютно разный смысл из-за присутствия в этом тексте омонимов, то автоматизированная обработка этого текста затрудняется.
Наличие омонимов в языке порождает такое явление, как грамматическая неопределенность - когда одной и той же словоформе по словарю может соответствовать одновременно несколько разных вариантов морфологического анализа (определения морфологических атрибутов слова (если мы говорим о русском языке, то это часть речи, падеж, временя и некоторые другие) синтаксической роли слова в предложении, начальной формы и т. д.).
Можно привести множество примеров такой неопределенности - например, словоформа “века” может иметь две разные леммы (начальной формы) - веко и век. Пусть мы определили, что лемма встреченной словоформы - “век” - даже в таком случае получается неопределенность, но уже в падеже и числе - может быть как родительный падеж единственного числа, так и именительный/винительный падеж множественного числа.
Различие в возможных леммах - ключевая проблема, т. к. даже на этом примере понятно, что “век” - единица измерения времени, а “веко” - часть человеческого тела, соответственно смысл текста может быть искажен. Однако и различие в падежах тоже может серьезно исказить смысл предложения.
Вышеописанную проблему при обработке текстов на естественном языке желательно устранять, поэтому существует задача снятия грамматической неопределенности.
Задача снятия грамматической неопределенности заключается как раз в том, чтобы выбрать единственный вариант морфологического анализа для встреченной словоформы в тексте.
Направление исследований в области решения задачи снятия грамматической неопределенности имеет несомненную актуальность, ведь ее решение позволяет улучшить результаты выполнения некоторых других прикладных задач, таких как машинный перевод, автоматический анализ содержания, автоматическое извлечение информации и многие другие.
К тому же, при подтверждении возможности решения этой задачи с помощью дообучения языковой модели открывается возможность решать ее с относительно небольшими наборами обучающих данных и ограниченными вычислительными ресурсами. Технологии дообучения предобученных языковых моделей, которые будут рассмотрены далее в работе, предполагают такую возможность.
Решать эту задачу в общем виде, все же, довольно сложно. Вместо этого было решено решить частную задачу - определение падежей и числа сокращений по контексту.
Словоформы-сокращения, например, вида “г.” (год, город и т. д.), “м” (метр), “тыс.” (тысяча) и многие другие можно рассматривать как полноправные словоформы, которые имеют свои грамматические атрибуты - лемму, число, падеж и др.
Понять правильный вариант морфологического анализа для словоформы-сокращения можно только по контексту - в этом и заключается грамматическая неопределенность в рамках этой задачи.
Таким образом, частную задачу можно сформулировать так:
Дано: предложение с сокращениями.
Алгоритм должен верно определить набор морфологических атрибутов (род, число, падеж, лемма) для каждого встреченного сокращения в предложении.
Выбор именно этой задачи в качестве решаемой связан с тем, что алгоритм сбора обучающих данных простой и не потребует разметки текста вручную, а значит можно будет собрать достаточно большой объем данных.
Несмотря на то, что задача частная, возможность ее решения покажет, что языковая модель способна “чувствовать” грамматические атрибуты слов исходя из контекста предложения. Это означает, что можно решать и любые другие задачи из этой области, если придумать, как собрать и подготовить обучающие данные.
В результате работы была подтверждена возможность решения задачи снятия грамматической неопределенностью путем дообучения модели GPT.
Получилось дообучить несколько моделей для решения одной из задач из этой области - задачу с определением грамматических атрибутов сокращений по контексту с достаточно хорошей точностью. Несмотря на то, что задача частная, используемый подход можно применять и к другим задачам из этой области, если придумать, как обучать модель.
Рассмотренный в работе подход имеет большие перспективы. Достаточно легко получилось найти много случаев, когда модель выполняет задачу лучше, чем SOTA-подход на основе дообучения модели BERT (DeepPavlov Morphotagger). Видно, что обе модели, которые получились в результате работы, чувствуют контекст глубже, чем BERT.
Стоит отметить, что модели, выбранные для экспериментов с дообучением, не самые продвинутые из существующих для русского языка. К тому же, можно попробовать некоторые другие подходы PEFT, не только LoRA. Таким образом можно улучшить как результат частной задачи с сокращениями, так и попробовать решить некоторые другие задачи из этой области, например частеречная разметка (POS-tagging).
1. Виноградов В.В. (1960). Об омонимии и смежных явлениях // Вопросы языкознания, 1960. 1. С. 295-312.
2. Автоматическая обработка текстов на естественном языке и анализ данных : учеб. пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. — М.: Изд-во НИУ ВШЭ, 2017. — 269 с.
3. Клышинский Э.С., Бунтякова В.А., Карпик О.В. Исследование грамматической неоднозначности наиболее частотных слов русского языка // Препринты ИПМ им. М.В.Келдыша. 2021. № 58. 22 с
4. Korobov M. Morphological analyzer and generator for Russian and Ukrainian languages // Analysis of Images, Social Networks and Texts. - Springer, 2015. - P. 320-332.
5. Ножов И.М. Морфологическая и синтаксическая обработка текста (модели и программы) [Текст] : дис. ... канд. физ.-мат. наук / Ножов И. М.— М., 2003.— 120 с.
6. SchmidH. Probabilistic part-of-speech tagging using decision trees // Proceedings of theinternational conference on new methods in language processing.—1994.- P. 44—49.
7. Straka M., Strakova J., Hajic J. The UDPipe system // Proceedings of the 2017 Shared Task on Extrinsic Parser Evaluation at the Fourth International Conference on Dependency Linguistics and the 15th International Conference on Parsing Technologies.— 2017.— P. 65—74.
8. Mikolov T., Sutskever I., Chen K., Corrado G. S., Dean J. Distributed Representations of Words and Phrases and their Compositionality [Электронный ресурс]. - URL: https://arxiv.org/pdf/1301.3781 (дата обращения: 09.06.2025).
9. Bojanowski P. et al. Enriching word vectors with subword information // Transactions of the Association for Computational Linguistics. - 2017. - Vol. 5. - P. 135-146.
10. Pennington J., Socher R., Manning C. D. GloVe: Global vectors for word representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. - 2014. - P. 1532-1543.
11. Peters M. E. [et al.]. Deep contextualized word representations // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.— 2018.— Vol. 1.- P. 2227—2237.
12. Devlin J. [et al.]. Bert: Pre-training of deep bidirectional transformers for lan guageunderstanding//Proceedingsofthe2019ConferenceoftheNorthAmerican Chapter of the Association for Computational Linguistics: Human Language Technologies.— 2019.— Vol. 1.— P. 4171—4186.
13. Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language // arXiv preprint. - 2019. - arXiv: 1905.07213. 29. Kanerva J. et al. Turku Neural Parser Pipeline // Proceedings of the CoNLL 2018 Shared Task. - URL: https://aclanthology.org/K18-2013.pdf (дата обращения: 09.06.2025).
14. Grameval2020 [Электронный ресурс] - URL: https://github.com/dialogue- evaluation/GramEval2020?tab=readme-ov-file (дата обращения: 10.06.2025).
15. Natasha Slovnet [Электронный ресурс] - URL:
https://github.com/natasha/slovnet (дата обращения: 10.06.2025).
... всего 26 источников