📄Работа №192496

Тема: СНЯТИЕ ГРАММАТИЧЕСКОЙ НЕОПРЕДЕЛЁННОСТИ ПУТЁМ ДООБУЧЕНИЯ ЯЗЫКОВОЙ МОДЕЛИ

Характеристики работы

▣

Тип работы Дипломные работы, ВКР

Предмет Информатика и вычислительная техника

📄

Объем: 46 листов

📅

Год: 2025

👁️

4200 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Аннотация 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

Аннотация
ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ, ТЕРМИНОВ 3
ВВЕДЕНИЕ 5
1 Обзор литературы 8
1.1 Ранние подходы к решению задачи 8
1.2 Подходы, основанные на дообучении моделей BERT 9
1.3 Недостатки подхода, основанного на дообучении моделей BERT 11
2 Архитектура GPT 13
3 Fine-Tuning 18
3.1 Обоснование использования Fine-tuning и PEFT 18
3.2 Parameter Efficient Fine-Tuning (PEFT) 20
3.3 LoRA 21
4 Получение данных для дообучения 25
4.1 Размеченные корпуса текстов 26
4.2. Сбор собственного набора данных 27
5 Обучение моделей 33
6 Сравнение с SOTA-подходами 36
ЗАКЛЮЧЕНИЕ 38
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ

📖 Аннотация

Работа посвящена исследованию метода снятия грамматической неопределённости на основе дообучения языковых моделей. Актуальность задачи обусловлена тем, что наличие омонимии, когда одной словоформе соответствует несколько вариантов морфологического анализа, существенно затрудняет автоматическую обработку текста, искажая смысл и снижая эффективность таких прикладных систем, как машинный перевод или извлечение информации. В качестве методологии в исследовании применяется дообучение моделей семейства GPT с использованием методов параметрически эффективной тонкой настройки (PEFT), в частности LoRA, для решения частной задачи определения грамматических атрибутов сокращений по контексту. Экспериментальные результаты демонстрируют, что предложенный подход позволяет достичь точности, превышающей показатели SOTA-решения на основе модели BERT (DeepPavlov Morphotagger), причём дообученные модели GPT проявляют более глубокое понимание контекста. Практическая значимость работы заключается в возможности использования разработанного подхода для улучшения компонентов морфологической разметки в системах обработки естественного языка. Теоретической основой послужили исследования грамматической неоднозначности, такие как работы Клышинского Э.С. с соавторами и фундаментальный труд Виноградова В.В. об омонимии. Таким образом, подтверждена перспективность применения дообучения GPT-архитектур для решения задач снятия грамматической неопределённости, что открывает пути для дальнейшего совершенствования методов, включая эксперименты с другими моделями и техниками PEFT.

📖 Введение

Всем естественным языкам свойственно такое явление, как наличие слов-омонимов. Омонимы - это слова, которые одинаково звучат и пишутся, но при этом имеют различную семантику.
В рамках обработки естественного языка это является серьезной проблемой, т. к. затрудняется извлечение смысла из текста.
Стоит отметить, что в рамках вычислительной техники проблема омонимии рассматривается именно для слов с одинаковым написанием, так как слова в языке мы воспринимаем, как набор символьных строк. Соответственно, если один и тот же текст может иметь абсолютно разный смысл из-за присутствия в этом тексте омонимов, то автоматизированная обработка этого текста затрудняется.
Наличие омонимов в языке порождает такое явление, как грамматическая неопределенность - когда одной и той же словоформе по словарю может соответствовать одновременно несколько разных вариантов морфологического анализа (определения морфологических атрибутов слова (если мы говорим о русском языке, то это часть речи, падеж, временя и некоторые другие) синтаксической роли слова в предложении, начальной формы и т. д.).
Можно привести множество примеров такой неопределенности - например, словоформа “века” может иметь две разные леммы (начальной формы) - веко и век. Пусть мы определили, что лемма встреченной словоформы - “век” - даже в таком случае получается неопределенность, но уже в падеже и числе - может быть как родительный падеж единственного числа, так и именительный/винительный падеж множественного числа.
Различие в возможных леммах - ключевая проблема, т. к. даже на этом примере понятно, что “век” - единица измерения времени, а “веко” - часть человеческого тела, соответственно смысл текста может быть искажен. Однако и различие в падежах тоже может серьезно исказить смысл предложения.
Вышеописанную проблему при обработке текстов на естественном языке желательно устранять, поэтому существует задача снятия грамматической неопределенности.
Задача снятия грамматической неопределенности заключается как раз в том, чтобы выбрать единственный вариант морфологического анализа для встреченной словоформы в тексте.
Направление исследований в области решения задачи снятия грамматической неопределенности имеет несомненную актуальность, ведь ее решение позволяет улучшить результаты выполнения некоторых других прикладных задач, таких как машинный перевод, автоматический анализ содержания, автоматическое извлечение информации и многие другие.
К тому же, при подтверждении возможности решения этой задачи с помощью дообучения языковой модели открывается возможность решать ее с относительно небольшими наборами обучающих данных и ограниченными вычислительными ресурсами. Технологии дообучения предобученных языковых моделей, которые будут рассмотрены далее в работе, предполагают такую возможность.
Решать эту задачу в общем виде, все же, довольно сложно. Вместо этого было решено решить частную задачу - определение падежей и числа сокращений по контексту.
Словоформы-сокращения, например, вида “г.” (год, город и т. д.), “м” (метр), “тыс.” (тысяча) и многие другие можно рассматривать как полноправные словоформы, которые имеют свои грамматические атрибуты - лемму, число, падеж и др.
Понять правильный вариант морфологического анализа для словоформы-сокращения можно только по контексту - в этом и заключается грамматическая неопределенность в рамках этой задачи.
Таким образом, частную задачу можно сформулировать так:
Дано: предложение с сокращениями.
Алгоритм должен верно определить набор морфологических атрибутов (род, число, падеж, лемма) для каждого встреченного сокращения в предложении.
Выбор именно этой задачи в качестве решаемой связан с тем, что алгоритм сбора обучающих данных простой и не потребует разметки текста вручную, а значит можно будет собрать достаточно большой объем данных.
Несмотря на то, что задача частная, возможность ее решения покажет, что языковая модель способна “чувствовать” грамматические атрибуты слов исходя из контекста предложения. Это означает, что можно решать и любые другие задачи из этой области, если придумать, как собрать и подготовить обучающие данные.

✅ Заключение

В результате работы была подтверждена возможность решения задачи снятия грамматической неопределенностью путем дообучения модели GPT.
Получилось дообучить несколько моделей для решения одной из задач из этой области - задачу с определением грамматических атрибутов сокращений по контексту с достаточно хорошей точностью. Несмотря на то, что задача частная, используемый подход можно применять и к другим задачам из этой области, если придумать, как обучать модель.
Рассмотренный в работе подход имеет большие перспективы. Достаточно легко получилось найти много случаев, когда модель выполняет задачу лучше, чем SOTA-подход на основе дообучения модели BERT (DeepPavlov Morphotagger). Видно, что обе модели, которые получились в результате работы, чувствуют контекст глубже, чем BERT.
Стоит отметить, что модели, выбранные для экспериментов с дообучением, не самые продвинутые из существующих для русского языка. К тому же, можно попробовать некоторые другие подходы PEFT, не только LoRA. Таким образом можно улучшить как результат частной задачи с сокращениями, так и попробовать решить некоторые другие задачи из этой области, например частеречная разметка (POS-tagging).

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Виноградов В.В. (1960). Об омонимии и смежных явлениях // Вопросы языкознания, 1960. 1. С. 295-312.
2. Автоматическая обработка текстов на естественном языке и анализ данных : учеб. пособие / Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. — М.: Изд-во НИУ ВШЭ, 2017. — 269 с.
3. Клышинский Э.С., Бунтякова В.А., Карпик О.В. Исследование грамматической неоднозначности наиболее частотных слов русского языка // Препринты ИПМ им. М.В.Келдыша. 2021. № 58. 22 с
4. Korobov M. Morphological analyzer and generator for Russian and Ukrainian languages // Analysis of Images, Social Networks and Texts. - Springer, 2015. - P. 320-332.
5. Ножов И.М. Морфологическая и синтаксическая обработка текста (модели и программы) [Текст] : дис. ... канд. физ.-мат. наук / Ножов И. М.— М., 2003.— 120 с.
6. SchmidH. Probabilistic part-of-speech tagging using decision trees // Proceedings of theinternational conference on new methods in language processing.—1994.- P. 44—49.
7. Straka M., Strakova J., Hajic J. The UDPipe system // Proceedings of the 2017 Shared Task on Extrinsic Parser Evaluation at the Fourth International Conference on Dependency Linguistics and the 15th International Conference on Parsing Technologies.— 2017.— P. 65—74.
8. Mikolov T., Sutskever I., Chen K., Corrado G. S., Dean J. Distributed Representations of Words and Phrases and their Compositionality [Электронный ресурс]. - URL: https://arxiv.org/pdf/1301.3781 (дата обращения: 09.06.2025).
9. Bojanowski P. et al. Enriching word vectors with subword information // Transactions of the Association for Computational Linguistics. - 2017. - Vol. 5. - P. 135-146.
10. Pennington J., Socher R., Manning C. D. GloVe: Global vectors for word representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. - 2014. - P. 1532-1543.
11. Peters M. E. [et al.]. Deep contextualized word representations // Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.— 2018.— Vol. 1.- P. 2227—2237.
12. Devlin J. [et al.]. Bert: Pre-training of deep bidirectional transformers for lan guageunderstanding//Proceedingsofthe2019ConferenceoftheNorthAmerican Chapter of the Association for Computational Linguistics: Human Language Technologies.— 2019.— Vol. 1.— P. 4171—4186.
13. Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language // arXiv preprint. - 2019. - arXiv: 1905.07213. 29. Kanerva J. et al. Turku Neural Parser Pipeline // Proceedings of the CoNLL 2018 Shared Task. - URL: https://aclanthology.org/K18-2013.pdf (дата обращения: 09.06.2025).
14. Grameval2020 [Электронный ресурс] - URL: https://github.com/dialogue- evaluation/GramEval2020?tab=readme-ov-file (дата обращения: 10.06.2025).
15. Natasha Slovnet [Электронный ресурс] - URL:
https://github.com/natasha/slovnet (дата обращения: 10.06.2025).
... всего 26 источников

🖼 Скриншоты

Архитектура GPT

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211434)

Статьи

»» Все статьи

Вход в личный кабинет