Тема: ПРИМЕНЕНИЕ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ НА ДЕРЕВЬЯХ РАССУЖДЕНИЙ В БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЯХ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОТВЕТОВ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Перечень условных обозначений, сокращений, терминов 4
Введение 7
1 Теоретические основы и подходы к повышению качества ответов LLM 9
1.1 Принцип работы языковых моделей 9
1.1.1 Архитектура Transfomer 10
1.1.2 Генерация текста 13
1.2 Дообучение модели 13
1.2.1 Siipervisedl'ine-Tuning 13
1.2.2 F^HF 14
2 Подходы к рассуждениям в моделях 16
2.1 Цепочки рассуждений 16
2.2 Self-Consistency 17
2.3 Разбиение на шаги 18
2А Деревья рассуждений 20
3 Обучение с подкреплением (RL) 23
3.1 Марковский процесс принятия решений 24
3.2 Оценочные функции 25
3.3 Подход Actor-Critic 26
3.4 Proximal Policy Optimization (PPO) 27
3.4.1 ClippedSurrogate Objective 27
3.4.2 KL-Penalty Objective 28
3.4.3 Обучение критика 28
3.5 Deep Deterministic Policy Gradient (DDPG) 28
4KI. на дереве рассуждений 30
4.1 Описание метода 30
4.2 Постановка задачи Reasoning в обучении с подкреплением 30
4.3 Архитектура модели-стратегии 31
4.3.1 Модель многослойного перцептрона 32
4.3.2 Cross-attention модель 32
4.3.3 Модель-трансформер 33
5 Эксперименты 35
5.1 Датасеты 35
5.2 Организация пайплайна генерации 37
5.3 Параллелизация сред 38
5.4 Механизм кеширования 38
5.5 Используемые модели 39
5.6 Детали обучения 39
5.7 Динамика обучения 40
5.8 Используемые инструменты 41
6 Результаты и выводы 42
6.1 Метрики 42
6.2 Результаты 42
6.3 Ограничения подхода 44
Заключение 46
Список использованных источников и литературы 47
Приложение А. Примеры деревьев рассуждений 49
📖 Введение
Для повышения надёжности и объяснимости необходимо не только улучшить точность моделей, но и развивать их способность к последовательному логическому рассуждению. Это особенно важно для сложных задач, где важно не только получить правильный результат, но и понять, каким образом он был получен. Именно поэтому исследователи работают над различными подходами к устранению этих недостатков, одним из которых является обучение «рассуждающих» или «думающих» моделей (Reasoning models). Такие модели фундаментально отличаются от стандартных процессом обучения и в результате, как показывают некоторые работы [6, 14,20], демонстрируют необычные способности к размышлению при решении задач - модели начинают исправлять себя, оценивать свои предыдущие шаги, переформулировать задачу и т.д., что внешне похоже на то, как человек размышляет над сложными задачами.
Однако текущие методы обучения рассуждающих моделей требуют значительных вычислительных ресурсов. Во-первых, вычислительные ресурсы необходимы для генерации большого числа текстов, на которых модель и будет обучаться. Во-вторых - ресурсы нужны для самого процесса обновления параметров модели, число которых в текущих реалиях достигает сотен миллиардов параметров. Из- за этого обучение становится крайне дорогостоящим и малодоступным для исследовательских групп или компаний с ограниченными ресурсами.
Поэтому в данной работе будут рассмотрены и проанализированы методы, которые позволяют повысить точность ответов LLM строя рассуждения из фиксированной модели, а также будет предложен и оценен новый метод на основе обучения с подкреплением.
В результате в рамках работы были поставлены следующие задачи:
1. Изучить методы улучшения точности ответов LLM использующие рассуждения языковых моделей
2. Разработать метод, не опирающийся на обучение LLM
3. Определить наборы данных и метрики для экспериментов
4. Реализовать метод и провести эксперименты
5. Проинтерпретировать полученные результаты и сформулировать выводы на их основе.
✅ Заключение
Ключевым выводом является то, что эффективность подходов, использующих оценки из множества потенциальных шагов модели, сильно зависит от фундаментальных способностей модели генерации логически последовательных выводов. В частности, параметры генерации, такие как температура, играют важную роль. При высокой температуре генерации модель склонна к созданию более разнообразных, но потенциально абсурдных и менее логичных вариантов. При низкой температуре, наоборот, ответы становятся более предсказуемыми и однообразными, что также ограничивает способность модели исследовать возможные решения.
Таким образом, несмотря на небольшие улучшения точности в ходе экспериментов, в данной работе предполагается, что для достижения более высоких результатов потребуется работа над фундаментальными свойствами самой языковой модели. Это включает как улучшение способности к генерации рассуждений, так и поиск новых методов для эффективного контроля за разнообразием ответов, что остается актуальной задачей для дальнейших исследований.





