Тип работы:
Предмет:
Язык работы:


Fine-tuning больших языковых моделей: соотношение параметров модели и данных (на примере генеративных и аналитических задач)

Работа №192124

Тип работы

Магистерская диссертация

Предмет

лингвистика

Объем работы97
Год сдачи2025
Стоимость5900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
19
Не подходит работа?

Узнай цену на написание


Аннотация 2
ВВЕДЕНИЕ 5
Глава 1 Теоретические основы создания и применения больших языковых моделей 11
1.1 Развитие нейронных сетей и NLP 11
1.1.1 Эволюция нейронных сетей: от перцептронов до многослойных сетей и
глубокого обучения 11
1.1.2 Ключевые этапы развития NLP: от систем на основе правил до трансформеров
13
1.1.3 Современные тенденции и вызовы в области NLP и LLM 15
1.2 Архитектура transformer 19
1.2.1 Основные элементы архитектуры transformer 19
1.2.2 Основные виды моделей на базе transformer 22
1.3 Предобучение и дообучение больших языковых моделей 24
1.4 Дообучение LLM при решении задач NLP и метрики оценки 29
1.4.1 Генеративные задачи в обработке естественного языка 29
1.4.2 Метрики оценки качества решения генеративных задач 33
1.4.3 Аналитические задачи в обработке естественного языка 34
1.4.4 Метрики оценки при решении аналитических задач 37
1.5 Законы масштабирования (scaling laws) и дообучение LLM 39
1.5.1 Фундаментальные исследования законов масштабирования 39
1.5.2 Роль объема данных в производительности модели 40
1.5.3 Законы масштабирования в контексте дообучения 41
1.5.4 Исследования по дообучению LLM 41
Выводы по главе 1 44
Глава 2 Анализ влияния соотношения параметров модели и объема данных при дообучении 46
2.1 Генеративные задачи. Суммаризация новостных статей 46
2.2 Аналитические задачи. Классификация, QA, NER 61
Выводы по главе 2 79
ЗАКЛЮЧЕНИЕ 81
СПИСОК ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 85
ПРИЛОЖЕНИЕ А 96


Современная жизнь неразрывно связана с достижениями искусственного интеллекта, которые радикально изменили подходы к обработке информации, коммуникации и автоматизации. Нейронные сети лежат в основе большого спектра технологий, таких как голосовые помощники, системы машинного перевода, рекомендательные алгоритмы, генеративные приложения, позволяющие создавать тексты, изображения и даже программный код, и многих других [1]. Эти технологии проникли в повседневную жизнь, от мобильных приложений до сложных систем управления бизнес-процессами, что демонстрирует значимость искусственного интеллекта в цифровой эпохе. Одной из ключевых областей, где нейронные сети оказали революционное воздействие, является обработка естественного языка (Natural Language Processing, NLP), которая обеспечивает взаимодействие между человеком и машиной на естественном языке [2].
NLP охватывает широкий спектр задач, включая автоматическую генерацию текстов, анализ тональности, распознавание именованных сущностей (NER), вопросно-ответные системы (QA), классификацию текстов, перевод и др. Большие языковые модели (Large Language Models, LLM), такие как GPT, BERT, T5 и др., стали основой для решения этих задач благодаря их способности улавливать сложные языковые закономерности и адаптироваться к различным контекстам [3]. Однако обучение (pre-train) и дообучение (fine-tuning) таких моделей требуют значительных вычислительных ресурсов из-за использования мощных графических процессоров (GPU) и больших объемов данных, что делает процесс разработки LLM дорогостоящим и энергоемким [4]. Это создает вызовы для исследователей и разработчиков, особенно в условиях ограниченных ресурсов, а также поднимает вопросы экологической составляющей вычислений [5].
Актуальность данного исследования заключается в необходимости оптимизации процессов дообучения LLM для повышения их эффективности при ограниченных вычислительных мощностях. Исследования показывают, что производительность моделей зависит не только от их размера (числа параметров), но и от объема данных, используемых для обучения. Например, работа исследователей Дж. Хоффман и др. [6] демонстрирует, что увеличение объема данных может компенсировать меньшее число параметров, что позволяет достигать высокой производительности при меньших затратах. Это может быть особенно важно для русскоязычных данных, где доступ к большим и качественным датасетам ограничен, а морфологическая и синтаксическая сложность языка требует специализированных подходов к дообучению [7]. Результаты исследования соотношения числа параметров модели и объема данных при дообучении позволят не только повысить производительность в задачах генерации текста (например, суммаризация) и аналитических задачах (таких как NER, классификация, QA и др.), но и снизить вычислительные затраты на дообучение и инференс, делая разработку более экономически и экологически оптимальной.
Целью данного исследования является изучение влияния соотношения числа параметров больших языковых моделей и объема данных, используемых при дообучении, на качество их работы в генеративных (суммаризация заголовков и лидов новостных статей) и аналитических (QA, NER, классификация) задачах NLP на русскоязычных данных. Исследование направлено на проверку гипотезы, согласно которой модели с меньшим числом параметров, дообученные на большем объеме данных, могут показывать равное или более высокое качество работы в сравнении с моделями с большим числом параметров, но дообученных на меньшем объеме данных.
Для достижения поставленной цели были сформулированы следующие задачи исследования, охватывающие как теоретические, так и практические аспекты:
1. Исследовать эволюцию нейронных сетей и методов обработки естественного языка.
2. Изучить архитектуру нейронных сетей transformer, её особенности и роль в современных LLM.
3. Рассмотреть обучение и дообучения языковых моделей, их особенности.
4. Проанализировать существующие исследования по законам масштабирования (scaling laws) и оптимизации обучения и дообучения.
5. Отобрать русскоязычные данные для генеративных (суммаризация заголовков и лидов) и аналитических задач (классификация, ответы на вопросы (QA), распознавание именованных сущностей (NER)), предобработать их, подготовить к дообучению.
6. Изучить и настроить модели с различным числом параметров для проведения экспериментов по дообучению (ruGPT-3 Small и ruGPT-3 Medium для генеративных задач; XLM-RoBERTa-comet-small и XLM-RoBERTa-base для аналитических задач).
7. Провести дообучение выбранных моделей с варьированием объема данных с помощью языка программирования Python.
8. Оценить производительность моделей с использованием метрик, соответствующих типу задач: ROUGE, BLEU, ChrF, BERTScore для генеративных задач и F1, Precision, Recall, Exact Match для аналитических.
9. Сравнить результаты экспериментов, проанализировать влияние соотношения параметров и данных на производительность.
Объект данного исследования — большие языковые модели.
Предмет исследования — дообучение больших языковых моделей.
Научная новизна нашего исследования заключается в установлении влияния соотношения числа параметров больших языковых моделей и объема данных при дообучении на производительность в генеративных и аналитических задачах NLP на основе русскоязычных данных. Установлено, что в рамках нашего эксперимента в генеративных задачах лучшее качество в большинстве случаев показала более крупная модель ruGPT-3 Medium, дообученная на меньшем количестве данных; в аналитических задачах лучшее качество во всех задачах показала меньшая модель XLM-RoBERTa- comet-small, дообученная на большем количестве данных.
Теоретическая значимость исследования заключается во вкладе в понимание законов масштабирования и их применение к дообучению LLM применительно к русскоязычным данным, что может расширить существующие знания о поведении моделей в неанглоязычных сценариях. Работа вносит вклад в теорию NLP за счет комплексного анализа того, как соотношение числа параметров и объема данных при дообучении влияет на производительность в генеративных и аналитических задачах. Результаты исследования уточняют теоретические положения о вычислительной эффективности моделей и могут открыть перспективы для дальнейшего изучения мультиязычных подходов в NLP.
Практическая значимость исследования заключается в возможности использовать полученные результаты в оптимизации дообучения больших языковых моделей, что может повысить их производительность при ограниченных вычислительных ресурсах, снизить затраты на дообучение и инференс моделей, что может быть полезно для организаций и исследователей.
В исследовании применяется комплексный подход, включающий методы теоретического анализа и экспериментального моделирования. Теоретическая часть основана на систематическом обзоре литературы по 8
теме исслеодвания с анализом научных статей и технических отчетов. В практической части использовались методы парсинга данных (сайт новостного агентства «Российская Газета» rg.ru — для задачи суммаризации лидов), предварительной обработки данных, включая структуризацию (создание обучающей и валидационной выборок на основе открытых русскоязычных датасетов Kinopoisk's movies reviews, Russian Sentiment Dataset, Lenta.ru, SberQuAD, nerus в нужных форматах) и нормализацию (удаление лишних символов и др.) для подготовки текстов к дообучению, и методы дообучения больших языковых моделей. Дообучение моделей (ruGPT-3 Small, ruGPT-3 Medium, XLM-RoBERTa-comet-small, XLM- RoBERTa-base) проводилось на платформе Kaggle с использованием GPU P100. Оценка производительности осуществлялась с помощью метрик ROUGE, BLEU, ChrF, BERTScore для генеративных задач и F1, Precision, Recall, Exact Match для аналитических. Разработка кода для парсинга, обработки данных, дообучения и оценки производительности производилась на языке программирования Python версии 3.11.11.
Структура работы: данная магистерская работа состоит из введения, трех глав, заключения и списка литературы.
Во введении обосновывается актуальность исследования, определяются объект, предмет, цель, задачи, методы, научная новизна, теоретическая и практическая значимость, а также формулируется гипотеза.
Первая глава посвящена теоретическим основам больших языковых моделей. В ней рассматривается эволюция нейронных сетей и NLP, архитектура transformer, методы предобучения и дообучения, а также классификация задач NLP, включая генеративные (суммаризация) и аналитические (классификация, QA, NER). Глава завершается выводами.
Во второй главе анализируются законы масштабирования (scaling laws) и исследования по дообучению моделей. Глава формулирует гипотезу исследования и завершается выводами, обосновывающими необходимость экспериментов.
Третья глава представляет практическую часть исследования. В ней описывается подготовка русскоязычных датасетов для генеративных и аналитических задач, дообучение моделей, а также оценка производительности с помощью метрик. Глава включает анализ результатов и завершается выводами.
В заключении подводятся итоги исследования, обобщаются теоретическая и практическая части, приводится критика исследования, практическое применение и перспективы дальнейших исследований.
Список литературы включает научные статьи, технические отчеты и другие источники, использованные в работе.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Данное исследование было посвящено изучению влияния соотношения числа параметров больших языковых моделей и объема данных, используемых при дообучении, на их производительность в генеративных и аналитических задачах обработки естественного языка на русскоязычных данных. Целью работы была проверка гипотезы о том, что модели с меньшим числом параметров, дообученные на большем объеме данных, могут демонстрировать равное или превосходящее качество работы по сравнению с моделями с большим числом параметров, но дообученными на меньшем объеме данных. Исследование включало теоретический анализ и экспериментальную часть, в ходе которой были дообучены и протестированы модели на различных задачах.
Теоретическая часть позволила систематизировать знания об эволюции нейронных сетей и NLP, архитектуре трансформеров, методах предобучения и дообучения, а также законах масштабирования. Было установлено, что производительность LLM при предобучении зависит от сбалансированного соотношения числа параметров, объема данных и вычислительных ресурсов. Исследования показали, что увеличение объема данных может компенсировать меньшее число параметров при предобучении, что стало основой для формулировки гипотезы нашего исследования с фокусом на дообучение.
Экспериментальная часть включала дообучение моделей на генеративных (абстрактная суммаризация заголовков и лидов) и аналитических (классификация тональности, классификация новостей, QA, NER) задачах. Для генеративных задач использовались модели ruGPT-3 Small (125 млн параметров) и ruGPT-3 Medium (350 млн параметров), дообученные на датасетах агентств Lenta.ru и «Российская газета». Для аналитических задач применялись модели XLM-RoBERTa-comet-small (107 млн параметров) и XLM-RoBERTa-base (278 млн параметров), дообученные на датасетах Kinopoisk's movies reviews, Russian Sentiment Dataset, Lenta.ru, SberQuAD, nerus. Всего было дообучено 32 модели.
Результаты показали, что в генеративных задачах ruGPT-3 Medium в большинстве случаев (3/5 рубрик для заголовков, все рубрики для лидов) превосходит ruGPT-3 Small, несмотря на меньший объем данных. Это частично опровергает гипотезу, но связано с ограничениями метрик (ROUGE, BLEU, ChrF, BERTScore), которые не всегда адекватно оценивают творческий характер генерации. Сгенерированные тексты обеих моделей были естественными и часто близкими к оригиналам, но субъективность оценки ограничивает выводы.
В аналитических задачах гипотеза полностью подтвердилась. XLM- RoBERTa-comet-small, дообученная на больших датасетах, стабильно превосходит или демонстрирует сопоставимые результаты с XLM-RoBERTa- base, дообученной на меньших датасетах. При уравненных FLOPs (вычислительных затратах) XLM-RoBERTa-comet-small показала значительное превосходство по всем метрикам (Accuracy, F1, Exact Match, Precision, Recall). Меньшая модель оказалась более энергоэффективной, требуя в 2.6-2.9 раза меньше FLOPs и давая более высокие или сопоставимые результаты.
Наше исследование подтвердило, что больший объем данных может компенсировать меньшее число параметров при дообучении на аналитических задачах, что обеспечивает высокую производительность и энергоэффективность. В генеративных задачах гипотеза не подтвердилась из- за субъективности оценки, но результаты подчеркивают важность дальнейших исследований в этой области. Меньшие модели с большими датасетами оказались оптимальным решением для русскоязычных данных, где доступ к ресурсам ограничен.
Критика
1. Все эксперименты проводились на русскоязычных данных, что может ограничить обобщение результатов на другие языки. Для большей объективности необходимо включить в исследование другие языки.
2. В генеративных задачах была рассмотрена только абстрактная суммаризация. Альтернативные задачи, такие как генерация программного кода, могли бы обеспечить более объективную оценку, так как высокое качество генерации программного кода можно проверить выполнением требуемой функции, что снижает субъективность.
3. Метрики для генеративных задач имеют ограничения, так как не всегда учитывают семантическую эквивалентность при лексической вариативности. Использование, например, эксперной оценки могло бы улучшить анализ.
4. Эксперименты проводились на платформе Kaggle с GPU P100, что, с одной стороны, дало возможность протестировать модели, которые могли бы не запуститься на нашем локальном оборудовании, но в то же время ограничило возможность тестирования более крупных моделей или больших датасетов. Доступ к более мощным ресурсам позволил бы расширить масштаб исследования.
Перспективы дальнейших исследований
1. Проведение экспериментов на мультиязычных датасетах для проверки гипотезы в различных лингвистических контекстах.
2. Включение других генеративных задач, таких как генерация кода, а также аналитических задач, например, заполнение пропусков, проверка фактов и др.
3. Разработка или использование более совершенных метрик для генеративных задач, а также привлечение людей для повышения объективности оценки генеративных задач.
4. Тестирование моделей с различными архитектурами для оценки их влияния на соотношение параметров и данных.
5. Исследование параметрически эффективного дообучения (PEFT) для сравнения с полным дообучением в условиях вариативности параметров и данных.
Практическое применение
1. Результаты исследования могут позволить снизить вычислительные и энергетические затраты на дообучение LLM, что особенно важно для организаций и исследователей с ограниченными ресурсами. Использование меньших моделей с большими датасетами может сократить расходы на оборудование и электроэнергию.
2. Оптимизация дообучения делает LLM более доступными для небольших компаний и исследователей, что стимулирует инновации в NLP.
3. Результаты экспериментов могут быть использованы в русскоязычных NLP-приложениях, таких как автоматическая суммаризация новостей, анализ отзывов, чат-боты, вопросно-ответные системы и извлечение сущностей. Это может быть актуально для СМИ, e-commerce, клиентской поддержки и других сфер.
4. Результаты исследования могут быть использованы в образовательных программах по ИИ и NLP для демонстрации влияния масштабирования данных и параметров на производительность моделей.
5. Энергоэффективные подходы к дообучению могут снизить углеродный след, что способствует защите природы и окружающей среды.



1. Goodfellow I. Deep Learning / I. Goodfellow, Y. Bengio, A. Courville. — Cambridge, MA: MIT Press, 2016. — 775 p.
2. Jurafsky D. Speech and Language Processing (3rd ed., draft) / D. Jurafsky, J. H. Martin.
— Stanford: Stanford University, 2021-2025. — 585 p.
3. Brown T. B. Language Models are Few-Shot Learners [Электронный ресурс] / T. B. Brown et al. // arXiv. — URL: https://arxiv.org/abs/2005.14165 (дата обращения: 11.06.2025)
4. Strubell E. Energy and Policy Considerations for Deep Learning in NLP / E. Strubell, A. Ganesh, A. McCallum // Proceedings of the 57th Annual Meeting of the ACL. — 2019.
— P. 3645-3650.
5. Schwartz R. Green AI / R. Schwartz, J. Dodge, N. A. Smith, O. Etzioni // Communications of the ACM. — 2020. — Vol. 63, no. 12. — P. 54-63.
6. Hoffmann J. Training Compute-Optimal Large Language Models [Электронный ресурс] / J. Hoffmann et al. // arXiv. — URL: https://arxiv.org/abs/2203.15556 (дата обращения: 11.06.2025)
7. Zmitrovich D. A Family of Pretrained Transformer Language Models for Russian / D. Zmitrovich, A. Abramov, A. Kalmykov et al. // Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024). — 2024. — P. 450-462.
8. McCulloch W. S. A Logical Calculus of the Ideas Immanent in Nervous Activity / W. S. McCulloch, W. Pitts // Bulletin of Mathematical Biophysics. — 1943. — Vol. 5, no. 4. — P. 115-133.
9. Rosenblatt F. The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain / F. Rosenblatt // Psychological Review. — 1958. — Vol. 65, no. 6. — P. 386-408.
10. Minsky M. Perceptrons: An Introduction to Computational Geometry / M. Minsky, S. Papert. — Cambridge, MA: MIT Press, 1969. — 287 p.
11. Rumelhart D. E. Learning Representations by Back-Propagating Errors / D. E. Rumelhart, G. E. Hinton, R. J. Williams // Nature. — 1986. — Vol. 323, no. 6088. — P. 533-536.
12. LeCun Y. Backpropagation Applied to Handwritten Zip Code Recognition / Y. LeCun, B. Boser, J. S. Denker et al. // Neural Computation. — 1989. — Vol. 1, no. 4. — P. 541-551.
13. Горбань А. Н. Обучение нейронных сетей / А. Н. Горбань. — Москва: Параграф, 1990. — 160 с.
14. Vapnik V. N. Statistical Learning Theory / V. N. Vapnik. — New York: Wiley, 1998. — 736 p.
15. Hinton G. E. A Fast Learning Algorithm for Deep Belief Nets / G. E. Hinton, S. Osindero, Y. W. Teh // Neural Computation. — 2006. — Vol. 18, no. 7. — P. 1527-1554...104



Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ