Тип работы:
Предмет:
Язык работы:


ПРИМЕНЕНИЕ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ НА ДЕРЕВЬЯХ РАССУЖДЕНИЙ В БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЯХ ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ОТВЕТОВ

Работа №188228

Тип работы

Дипломные работы, ВКР

Предмет

прочее

Объем работы53
Год сдачи2025
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
12
Не подходит работа?

Узнай цену на написание


Аннотация
Перечень условных обозначений, сокращений, терминов 4
Введение 7
1 Теоретические основы и подходы к повышению качества ответов LLM 9
1.1 Принцип работы языковых моделей 9
1.1.1 Архитектура Transfomer 10
1.1.2 Генерация текста 13
1.2 Дообучение модели 13
1.2.1 Siipervisedl'ine-Tuning 13
1.2.2 F^HF 14
2 Подходы к рассуждениям в моделях 16
2.1 Цепочки рассуждений 16
2.2 Self-Consistency 17
2.3 Разбиение на шаги 18
2А Деревья рассуждений 20
3 Обучение с подкреплением (RL) 23
3.1 Марковский процесс принятия решений 24
3.2 Оценочные функции 25
3.3 Подход Actor-Critic 26
3.4 Proximal Policy Optimization (PPO) 27
3.4.1 ClippedSurrogate Objective 27
3.4.2 KL-Penalty Objective 28
3.4.3 Обучение критика 28
3.5 Deep Deterministic Policy Gradient (DDPG) 28
4KI. на дереве рассуждений 30
4.1 Описание метода 30
4.2 Постановка задачи Reasoning в обучении с подкреплением 30
4.3 Архитектура модели-стратегии 31
4.3.1 Модель многослойного перцептрона 32
4.3.2 Cross-attention модель 32
4.3.3 Модель-трансформер 33
5 Эксперименты 35
5.1 Датасеты 35
5.2 Организация пайплайна генерации 37
5.3 Параллелизация сред 38
5.4 Механизм кеширования 38
5.5 Используемые модели 39
5.6 Детали обучения 39
5.7 Динамика обучения 40
5.8 Используемые инструменты 41
6 Результаты и выводы 42
6.1 Метрики 42
6.2 Результаты 42
6.3 Ограничения подхода 44
Заключение 46
Список использованных источников и литературы 47
Приложение А. Примеры деревьев рассуждений 49


В современном обществе стремительно развиваются большие языковые модели (Large LanguageModels, LLM). Всё чаще можно видеть, как они внедряются в ежедневную жизнь, в бизнес-процессы в компаниях и в иные структуры. Помимо прямого использования, можно наблюдать, как активно появляются тренды использования языковых моделей в качестве агентов [10, 15], которые за человека выполняют определённые задачи. Примерами таких задач могут быть исследование какой-то темы с помощью интернета, бронирование билетов, составление математических задач, проведение научных экспериментов, написание кода и т.д. В общем, бесспорно, что LLM будут использоваться в обозримом будущем, и со временем всё более многочисленные и сложные задачи будут делегироваться им. По этой причине крайне важно, чтобы системы, построенные на базе языковых моделей, были надёжными, объяснимыми и способными решать сложные проблемы. Однако такие модели всё ещё сталкиваются с трудностями, например, в долгосрочном планировании или стабильности ответов, особенно на задачах, которые не входили в их обучающую выборку. Эти проблемы проявляются в виде галлюцинаций, искажения фактов, логических ошибок или небезопасного поведения.
Для повышения надёжности и объяснимости необходимо не только улучшить точность моделей, но и развивать их способность к последовательному логическому рассуждению. Это особенно важно для сложных задач, где важно не только получить правильный результат, но и понять, каким образом он был получен. Именно поэтому исследователи работают над различными подходами к устранению этих недостатков, одним из которых является обучение «рассуждающих» или «думающих» моделей (Reasoning models). Такие модели фундаментально отличаются от стандартных процессом обучения и в результате, как показывают некоторые работы [6, 14,20], демонстрируют необычные способности к размышлению при решении задач - модели начинают исправлять себя, оценивать свои предыдущие шаги, переформулировать задачу и т.д., что внешне похоже на то, как человек размышляет над сложными задачами.
Однако текущие методы обучения рассуждающих моделей требуют значительных вычислительных ресурсов. Во-первых, вычислительные ресурсы необходимы для генерации большого числа текстов, на которых модель и будет обучаться. Во-вторых - ресурсы нужны для самого процесса обновления параметров модели, число которых в текущих реалиях достигает сотен миллиардов параметров. Из- за этого обучение становится крайне дорогостоящим и малодоступным для исследовательских групп или компаний с ограниченными ресурсами.
Поэтому в данной работе будут рассмотрены и проанализированы методы, которые позволяют повысить точность ответов LLM строя рассуждения из фиксированной модели, а также будет предложен и оценен новый метод на основе обучения с подкреплением.
В результате в рамках работы были поставлены следующие задачи:
1. Изучить методы улучшения точности ответов LLM использующие рассуждения языковых моделей
2. Разработать метод, не опирающийся на обучение LLM
3. Определить наборы данных и метрики для экспериментов
4. Реализовать метод и провести эксперименты
5. Проинтерпретировать полученные результаты и сформулировать выводы на их основе.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе работы были решены все поставленные задачи, включая изучение существующих методов улучшения качества ответов LLM и проведение экспериментов с предложенным подходом. Результаты экспериментов показали умеренное улучшение точности ответов при невысоких вычислительных затратах.
Ключевым выводом является то, что эффективность подходов, использующих оценки из множества потенциальных шагов модели, сильно зависит от фундаментальных способностей модели генерации логически последовательных выводов. В частности, параметры генерации, такие как температура, играют важную роль. При высокой температуре генерации модель склонна к созданию более разнообразных, но потенциально абсурдных и менее логичных вариантов. При низкой температуре, наоборот, ответы становятся более предсказуемыми и однообразными, что также ограничивает способность модели исследовать возможные решения.
Таким образом, несмотря на небольшие улучшения точности в ходе экспериментов, в данной работе предполагается, что для достижения более высоких результатов потребуется работа над фундаментальными свойствами самой языковой модели. Это включает как улучшение способности к генерации рассуждений, так и поиск новых методов для эффективного контроля за разнообразием ответов, что остается актуальной задачей для дальнейших исследований.


1. Ba J. L., Kiros J. R., Hinton G. E. I.aver Normalization // 2016a.
2. SilverD. и др. YlasteringCliessand ShogibySelf-Play with a General Reinforcement LeamingAlgorithm // 2017b.
3. OpenAI и др.1 .earning Dexterous In-IIand Manipulation // 2019c.
4. Brown T. B. и др. LanguageModels areFew-Shot Learners // 2020d.
5. IvanovS. ReinforcementLearningTextbook// 2022e.
6. Wei J. и др. Cliain-oi-Tliouglit Prompting Elicits Reasonings in l.arge Language Models // 2023f.
7. Ouvang L. и др. Training language modelsto followinstructions with human feedback // 2022g.
8. WangX. и др. Self-Consistencv Improves Chain ofThought Reasoning in Language Models II 2023h.
9. Dao T. и др. IЛ a sh Alt en t ion:I;ast and Memory-Efficient Exact Attention with IO-Awareness II 20221.
10. Schick T. и др. Toolformer: l.anguageYlodels CanTeachThemselvestoUse Tools//2023j.
11. Yao 8. и др. TreeofThoughts:Deliberate Problem Solving with Large Language Models II 2023k.
12. Grattafiori A. и др.Т11е1.1ашаЗ Elerdof Models II20241.
13. Warner В. и др. Smarter, Better, Faster, l.onger: A ModernBidirectional Encoder for Fast, Memory Efficient, andLong Context finetuning and Inference II 2024m.
14. DeepSeek-AI и др. DeepSeek-Rl: IncentivizingReasoningCapability in LLMs via ReinforcementLearning II 2025n.
15. Yeliudai A. и др.8игуеуопЕуа1иайоп off I.YI-based Agents II 2025o.
16. CobbeK. и др. Training verifiers to solve math 'word problems II arXiv preprint arXiv:2110.14168. 2021p...24



Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ