Тип работы:
Предмет:
Язык работы:


Глубокое обучение с подкреплением в высокочастотном трейдинге

Работа №126920

Тип работы

Дипломные работы, ВКР

Предмет

нейронные сети

Объем работы24
Год сдачи2023
Стоимость4550 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
46
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
1. ОБЗОР ЛИТЕРАТУРЫ 7
1.1 Алгоритмы глубокого обучения с подкреплением 7
1.1.1 Trust Region Policy Optimization (TRPO) 7
1.1.2 Proximal Policy Optimization (PPO) 8
1.1.3 Asynchronous Advantage Actor-Critic (A3C) 8
1.1.4 Deep Deterministic Policy Gradient (DDPG) 8
1.1.5 Twin Delayed DDPG (TD3) 8
1.1.6 Soft Actor-Critic (SAC) 9
1.2 Применение Ape-X для обучения агента 10
2. МЕТОДЫ 12
2.1 Формализация задачи в терминах обучения с подкреплением 12
2.1.1 Базовая постановка задачи 12
2.1.2 Улучшения среды 12
2.1.3 Разработка признаков 13
2.2 Варианты архитектуры 17
2.2.1 Полносвязные нейронные сети 18
2.2.2 Сверточные нейронные сети 18
2.2.3 Сети долгой краткосрочной памяти 19
2.2.4 Общий кодировщик признаков 19
3. ЭКСПЕРИМЕНТЫ 20
3.1 Сравнение архитектур 20
3.2 Проверка общего кодировщика признаков 20
3.3 Сравнение различных настроек окружения 21
ЗАКЛЮЧЕНИЕ 22
СПИСОК ЛИТЕРАТУРЫ 24

Высокочастотная торговля (High-Frequency Trading, HFT) стала неотъемлемой частью современных финансовых рынков, где десятки тысяч транзакций могут быть выполнены за доли секунды. Эта форма торговли характеризуется высокой скоростью выполнения сделок, часто измеряемой в микросекундах, и зависит от мощных вычислительных систем, передовых алгоритмов и современных технологий передачи данных. В своей стремительной природе высокочастотная торговля открывает новые возможности для получения прибыли, однако требует участия активных и адаптивных торговых алгоритмов.
В контексте высокочастотной торговли, компания «Спектральные технологии», будучи одним из ключевых участников данного сектора, стремится максимизировать свою прибыль и снизить риски, связанные с торговыми операциями. В настоящее время их торговый алгоритм работает на основе заранее фиксированных параметров, которые определяются перед началом торговли и остаются неизменными в течение сессии. Однако, если бы эти параметры могли быть динамически оптимизированы в процессе торговли, компания «Спектральные технологии» могла бы достичь ещё более высоких результатов.
Именно здесь вступает в игру глубокое обучение с подкреплением, один из ключевых подходов в области машинного обучения. Глубокое обучение с подкреплением предоставляет возможность разработки алгоритмов, которые способны обучаться на основе опыта и взаимодействия с окружающей средой. Этот подход позволяет автоматически оптимизировать параметры торгового алгоритма на основе полученных наград и обратной связи от рынка в режиме реального времени. Внедрение глубокого обучения с подкреплением в сферу высокочастотной торговли может принести значительные преимущества, такие как повышение эффективности торговых стратегий, адаптация к изменяющимся рыночным условиям и снижение воздействия человеческого фактора на процесс принятия решений.
Целью данной дипломной работы является создание практического применения глубокого обучения с подкреплением для оптимизации параметров торгового алгоритма компании «Спектральные технологии» в контексте высокочастотной торговли. Мы стремимся разработать инновационный подход, который позволит автоматически оптимизировать параметры торгового алгоритма на основе полученного опыта и обратной связи от рынка в режиме реального времени.
Для достижения этой цели перед нами стоят следующие задачи:
1. Выбор подходящего алгоритма обучения: исследовать различные алгоритмы глубокого обучения с подкреплением, проведя сравнение эффективности их применения в контексте оптимизации параметров торгового алгоритма.
2. Создание пайплайна обучения: разработать эффективный и гибкий пайплайн, который позволит проводить эксперименты с различными модификациями алгоритмов. Этот пайплайн будет обеспечивать сбор и предобработку данных, обучение и оценку модели.
3. Построение информативных признаков для обучения: определить набор признаков, которые будут использоваться для обучения модели глубокого обучения с подкреплением. Эти признаки должны содержать достаточно информации о состоянии рынка и текущих условиях торговли, чтобы модель могла эффективно их использовать для оптимизации параметров торгового алгоритма.
4. Подбор хорошей архитектуры нейросети: провести исследование различных архитектур нейронных сетей, чтобы найти наиболее подходящую структуру для нашей задачи. Это включает выбор типов слоев, настроек оптимизаторов и других параметров, которые будут влиять на производительность и обучаемость модели.
Выполнение поставленных задач представляет собой сложный и трудоемкий процесс. Достижение оптимальных результатов требует нахождения лучших практик, адаптированных к специфике высокочастотной торговли, что требует проведения обширного исследования и множества экспериментов.
Данная работа вносит свой вклад в область высокочастотной торговли, предлагая новые инструменты и методы для оптимизации торговых стратегий с использованием глубокого обучения с подкреплением. Результаты исследования могут быть полезны для HFT-компаний, трейдеров и исследователей, которые заинтересованы в повышении эффективности и прибыльности своих торговых операций.
В Главе 1. Обзор Литературы, мы описали основные алгоритмы глубокого обучения с подкреплением, такие как Trust Region Policy Optimization [3], Proximal Policy Optimization [4], Asynchronous Advantage Actor­Critic [5], Deep Deterministic Policy Gradient [6], Twin Delayed DDPG [7] и Soft Actor-Critic [8][9] (SAC) и аргументировали выбор SAC в качестве основного алгоритма. Также мы изучили возможность использования системы Ape-X [10] как основы для построения пайплайна обучения агента.
В Главе 2. Методы мы подробно описали различные аспекты нашего подхода. Мы улучшили среду, внедрив нормализацию наград, буферизацию наблюдений и вручную сконструированные признаки. Также мы исследовали различные варианты архитектур нейронных сетей, включая полносвязные, сверточные и LSTM сети. Также мы рассмотрели возможность использования общего кодировщика признаков для актора и критиков алгоритма SAC.
В Главе 3. Эксперименты мы привели результаты проведенных экспериментов и оценили эффективность нашего подхода. Мы сравнили различные архитектуры, проверили общий кодировщик признаков и изучили влияние настроек среды на обучение агента.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В данной дипломной работе мы исследовали применение глубокого обучения с подкреплением в контексте высокочастотного трейдинга. Наша цель состояла в разработке практического применения DRL для оптимизации параметров торгового алгоритма.
В ходе работы мы:
• Сравнили различные алгоритмы DRL. Лучше всего для нашей задачи подошел алгоритм SAC. Его мы реализовали и использовали для обучения агента при проведении экспериментов.
• Разработали эффективный пайплайн обучения агента на основе Ape-X. В нем данные собираются асинхронно несколькими агентами-исследователями, а полученный опыт эффективно переиспользуется с помощью буфера опыта с приоритезацией.
• Определили среду в формальной постановке RL задачи и смогли с помощью нормализации наград, буферизации наблюдений и вручную сконструированных признаков заставить ее работать с нейронными сетями.
• Сравнили различные варианты архитектуры нейронных сетей в обучении агента. Выяснили, что сверточные сети не подходят для решения поставленной задачи, в то время как полносвязные и LSTM сети достигают желаемого качества.
• Выяснили, что использование общего кодировщика для актора и критиков алгоритма SAC не улучшает результатов, а наоборот делает процесс обучения менее стабильным.
Мы успешно достигли поставленных в рамках нашего исследования задач. Обученный агент показывает качество работы сравнимое с качеством работы торгового алгоритма, настроенного экспертами. Однако, несмотря на эти достижения, нельзя сказать, что показатели значительно улучшились по сравнению с использованием константных параметров. Есть несколько гипотез о том, как можно улучшить результаты:
1. Подбор более информативных и релевантных для торгового алгоритма признаков.
2. Улучшение качества работы торгового алгоритма упростит задачу для агента. Эксперименты с более современными версиями торгового алгоритма могут показать улучшение результатов по сравнению с константными параметрами.
3. Обучение агента на большем объеме тренировочных данных.
Улучшение качества работы агента может стать темой для последующих исследований в этой области, а данная работа служит хорошей отправной точкой для них.


[1] S. Fujimoto, H. van Hoof, D. Meger. Addressing Function Approximation Error in Actor-Critic Methods.
https://arxiv.org/pdf/1802.09477.pdf
[2] R. S. Sutton, A. G. Barto. Reinforcement Learning: An Introduction, volume 1. MIT press, Cambridge, 1998.
[3] J. Schulman, S. Levine, P. Moritz, M. Jordan, P. Abbeel. Trust Region Policy Optimization.
https://arxiv.org/pdf/1502.05477.pdf
[4] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, O. Klimov. Proximal Policy Optimization Algorithms.
https://arxiv.org/pdf/1707.06347.pdf
[5] V. Mnih, A. P. Badia, M. Mirza, A. Graves, T. Harley, T. P. Lillicrap, D. Silver, K. Kavukcuoglu. Asynchronous Methods for Deep Reinforcement Learning.
https ://arxiv.org/pdf/1602.01783v2. pdf
[6] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, D. Wierstra. Continuous Control With Deep Reinforcement Learning.
https://arxiv.org/pdf/1509.02971.pdf
[7] S. Fujimoto, H. van Hoof, D. Meger. Addressing Function Approximation Error in Actor-Critic Methods.
https://arxiv.org/pdf/1802.09477.pdf
[8] T. Haarnoja, A. Zhou, P. Abbeel, S. Levine. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor.
https://arxiv.org/pdf/1801.01290.pdf
[9] T. Haarnoja, A. Zhou, K. Hartikainen, G. Tucker, S. Ha, J. Tan, V. Kumar, H. Zhu, A. Gupta, P. Abbeel, S. Levine. Soft Actor-Critic Algorithms and Applications.
https://arxiv.org/pdf/1812.05905.pdf
[10] D. Horgan, J. Quan, D. Budden, G. Barth-Maron, M. Hessel, H. van Hasselt, D. Silver. Distributed Prioritized Experience Replay.
https://arxiv.org/pdf/1803.00933v1.pdf


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ