Тема: СНЯТИЕ ГРАММАТИЧЕСКОЙ НЕОПРЕДЕЛЁННОСТИ ПУТЁМ ДООБУЧЕНИЯ ЯЗЫКОВОЙ МОДЕЛИ
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ, ТЕРМИНОВ 3
ВВЕДЕНИЕ 5
1 Обзор литературы 8
1.1 Ранние подходы к решению задачи 8
1.2 Подходы, основанные на дообучении моделей BERT 9
1.3 Недостатки подхода, основанного на дообучении моделей BERT 11
2 Архитектура GPT 13
3 Fine-Tuning 18
3.1 Обоснование использования Fine-tuning и PEFT 18
3.2 Parameter Efficient Fine-Tuning (PEFT) 20
3.3 LoRA 21
4 Получение данных для дообучения 25
4.1 Размеченные корпуса текстов 26
4.2. Сбор собственного набора данных 27
5 Обучение моделей 33
6 Сравнение с SOTA-подходами 36
ЗАКЛЮЧЕНИЕ 38
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ
📖 Аннотация
📖 Введение
В рамках обработки естественного языка это является серьезной проблемой, т. к. затрудняется извлечение смысла из текста.
Стоит отметить, что в рамках вычислительной техники проблема омонимии рассматривается именно для слов с одинаковым написанием, так как слова в языке мы воспринимаем, как набор символьных строк. Соответственно, если один и тот же текст может иметь абсолютно разный смысл из-за присутствия в этом тексте омонимов, то автоматизированная обработка этого текста затрудняется.
Наличие омонимов в языке порождает такое явление, как грамматическая неопределенность - когда одной и той же словоформе по словарю может соответствовать одновременно несколько разных вариантов морфологического анализа (определения морфологических атрибутов слова (если мы говорим о русском языке, то это часть речи, падеж, временя и некоторые другие) синтаксической роли слова в предложении, начальной формы и т. д.).
Можно привести множество примеров такой неопределенности - например, словоформа “века” может иметь две разные леммы (начальной формы) - веко и век. Пусть мы определили, что лемма встреченной словоформы - “век” - даже в таком случае получается неопределенность, но уже в падеже и числе - может быть как родительный падеж единственного числа, так и именительный/винительный падеж множественного числа.
Различие в возможных леммах - ключевая проблема, т. к. даже на этом примере понятно, что “век” - единица измерения времени, а “веко” - часть человеческого тела, соответственно смысл текста может быть искажен. Однако и различие в падежах тоже может серьезно исказить смысл предложения.
Вышеописанную проблему при обработке текстов на естественном языке желательно устранять, поэтому существует задача снятия грамматической неопределенности.
Задача снятия грамматической неопределенности заключается как раз в том, чтобы выбрать единственный вариант морфологического анализа для встреченной словоформы в тексте.
Направление исследований в области решения задачи снятия грамматической неопределенности имеет несомненную актуальность, ведь ее решение позволяет улучшить результаты выполнения некоторых других прикладных задач, таких как машинный перевод, автоматический анализ содержания, автоматическое извлечение информации и многие другие.
К тому же, при подтверждении возможности решения этой задачи с помощью дообучения языковой модели открывается возможность решать ее с относительно небольшими наборами обучающих данных и ограниченными вычислительными ресурсами. Технологии дообучения предобученных языковых моделей, которые будут рассмотрены далее в работе, предполагают такую возможность.
Решать эту задачу в общем виде, все же, довольно сложно. Вместо этого было решено решить частную задачу - определение падежей и числа сокращений по контексту.
Словоформы-сокращения, например, вида “г.” (год, город и т. д.), “м” (метр), “тыс.” (тысяча) и многие другие можно рассматривать как полноправные словоформы, которые имеют свои грамматические атрибуты - лемму, число, падеж и др.
Понять правильный вариант морфологического анализа для словоформы-сокращения можно только по контексту - в этом и заключается грамматическая неопределенность в рамках этой задачи.
Таким образом, частную задачу можно сформулировать так:
Дано: предложение с сокращениями.
Алгоритм должен верно определить набор морфологических атрибутов (род, число, падеж, лемма) для каждого встреченного сокращения в предложении.
Выбор именно этой задачи в качестве решаемой связан с тем, что алгоритм сбора обучающих данных простой и не потребует разметки текста вручную, а значит можно будет собрать достаточно большой объем данных.
Несмотря на то, что задача частная, возможность ее решения покажет, что языковая модель способна “чувствовать” грамматические атрибуты слов исходя из контекста предложения. Это означает, что можно решать и любые другие задачи из этой области, если придумать, как собрать и подготовить обучающие данные.
✅ Заключение
Получилось дообучить несколько моделей для решения одной из задач из этой области - задачу с определением грамматических атрибутов сокращений по контексту с достаточно хорошей точностью. Несмотря на то, что задача частная, используемый подход можно применять и к другим задачам из этой области, если придумать, как обучать модель.
Рассмотренный в работе подход имеет большие перспективы. Достаточно легко получилось найти много случаев, когда модель выполняет задачу лучше, чем SOTA-подход на основе дообучения модели BERT (DeepPavlov Morphotagger). Видно, что обе модели, которые получились в результате работы, чувствуют контекст глубже, чем BERT.
Стоит отметить, что модели, выбранные для экспериментов с дообучением, не самые продвинутые из существующих для русского языка. К тому же, можно попробовать некоторые другие подходы PEFT, не только LoRA. Таким образом можно улучшить как результат частной задачи с сокращениями, так и попробовать решить некоторые другие задачи из этой области, например частеречная разметка (POS-tagging).





