ВВЕДЕНИЕ 4
1. ОБЗОР ЛИТЕРАТУРЫ 7
1.1 Алгоритмы глубокого обучения с подкреплением 7
1.1.1 Trust Region Policy Optimization (TRPO) 7
1.1.2 Proximal Policy Optimization (PPO) 8
1.1.3 Asynchronous Advantage Actor-Critic (A3C) 8
1.1.4 Deep Deterministic Policy Gradient (DDPG) 8
1.1.5 Twin Delayed DDPG (TD3) 8
1.1.6 Soft Actor-Critic (SAC) 9
1.2 Применение Ape-X для обучения агента 10
2. МЕТОДЫ 12
2.1 Формализация задачи в терминах обучения с подкреплением 12
2.1.1 Базовая постановка задачи 12
2.1.2 Улучшения среды 12
2.1.3 Разработка признаков 13
2.2 Варианты архитектуры 17
2.2.1 Полносвязные нейронные сети 18
2.2.2 Сверточные нейронные сети 18
2.2.3 Сети долгой краткосрочной памяти 19
2.2.4 Общий кодировщик признаков 19
3 . ЭКСПЕРИМЕНТЫ 20
3.1 Сравнение архитектур 20
3.2 Проверка общего кодировщика признаков 20
3.3 Сравнение различных настроек окружения 21
ЗАКЛЮЧЕНИЕ 22
СПИСОК ЛИТЕРАТУРЫ 24
Высокочастотная торговля (High-Frequency Trading, HFT) стала неотъемлемой частью современных финансовых рынков, где десятки тысяч транзакций могут быть выполнены за доли секунды. Эта форма торговли характеризуется высокой скоростью выполнения сделок, часто измеряемой в микросекундах, и зависит от мощных вычислительных систем, передовых алгоритмов и современных технологий передачи данных. В своей стремительной природе высокочастотная торговля открывает новые возможности для получения прибыли, однако требует участия активных и адаптивных торговых алгоритмов.
В контексте высокочастотной торговли, компания «Спектральные технологии», будучи одним из ключевых участников данного сектора, стремится максимизировать свою прибыль и снизить риски, связанные с торговыми операциями. В настоящее время их торговый алгоритм работает на основе заранее фиксированных параметров, которые определяются перед началом торговли и остаются неизменными в течение сессии. Однако, если бы эти параметры могли быть динамически оптимизированы в процессе торговли, компания «Спектральные технологии» могла бы достичь ещё более высоких результатов.
Именно здесь вступает в игру глубокое обучение с подкреплением, один из ключевых подходов в области машинного обучения. Глубокое обучение с подкреплением предоставляет возможность разработки алгоритмов, которые способны обучаться на основе опыта и взаимодействия с окружающей средой. Этот подход позволяет автоматически оптимизировать параметры торгового алгоритма на основе полученных наград и обратной связи от рынка в режиме реального времени. Внедрение глубокого обучения с подкреплением в сферу высокочастотной торговли может принести значительные преимущества, такие как повышение эффективности торговых стратегий, адаптация к изменяющимся рыночным условиям и снижение воздействия человеческого фактора на процесс принятия решений.
Целью данной дипломной работы является создание практического применения глубокого обучения с подкреплением для оптимизации параметров торгового алгоритма компании «Спектральные технологии» в контексте высокочастотной торговли. Мы стремимся разработать инновационный подход, который позволит автоматически оптимизировать параметры торгового алгоритма на основе полученного опыта и обратной связи от рынка в режиме реального времени...
В данной дипломной работе мы исследовали применение глубокого обучения с подкреплением в контексте высокочастотного трейдинга. Наша цель состояла в разработке практического применения DRL для оптимизации параметров торгового алгоритма.
В ходе работы мы:
• Сравнили различные алгоритмы DRL. Лучше всего для нашей задачи подошел алгоритм SAC. Его мы реализовали и использовали для обучения агента при проведении экспериментов.
• Разработали эффективный пайплайн обучения агента на основе Ape-X. В нем данные собираются асинхронно несколькими агентами-исследователями, а полученный опыт эффективно переиспользуется с помощью буфера опыта с приоритезацией.
• Определили среду в формальной постановке RL задачи и смогли с помощью нормализации наград, буферизации наблюдений и вручную сконструированных признаков заставить ее работать с нейронными сетями.
• Сравнили различные варианты архитектуры нейронных сетей в обучении агента. Выяснили, что сверточные сети не подходят для решения поставленной задачи, в то время как полносвязные и LSTM сети достигают желаемого качества.
• Выяснили, что использование общего кодировщика для актора и критиков алгоритма SAC не улучшает результатов, а наоборот делает процесс обучения менее стабильным.
Мы успешно достигли поставленных в рамках нашего исследования задач. Обученный агент показывает качество работы сравнимое с качеством работы торгового алгоритма, настроенного экспертами. Однако, несмотря на эти достижения, нельзя сказать, что показатели значительно улучшились по 22
сравнению с использованием константных параметров. Есть несколько гипотез о том, как можно улучшить результаты:
1. Подбор более информативных и релевантных для торгового алгоритма признаков.
2. Улучшение качества работы торгового алгоритма упростит задачу для агента. Эксперименты с более современными версиями торгового алгоритма могут показать улучшение результатов по сравнению с константными параметрами.
3. Обучение агента на большем объеме тренировочных данных.
Улучшение качества работы агента может стать темой для последующих исследований в этой области, а данная работа служит хорошей отправной точкой для них.
[1] S. Fujimoto, H. van Hoof, D. Meger. Addressing Function Approximation Error in Actor-Critic Methods.
https://arxiv.org/pdf/1802.09477.pdf
[2] R. S. Sutton, A. G. Barto. Reinforcement Learning: An Introduction, volume 1. MIT press, Cambridge, 1998.
[3] J. Schulman, S. Levine, P. Moritz, M. Jordan, P. Abbeel. Trust Region Policy Optimization.
https://arxiv.org/pdf/1502.05477.pdf
[4] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, O. Klimov. Proximal Policy Optimization Algorithms.
https://arxiv.org/pdf/1707.06347.pdf
[5] V. Mnih, A. P. Badia, M. Mirza, A. Graves, T. Harley, T. P. Lillicrap, D. Silver, K. Kavukcuoglu. Asynchronous Methods for Deep Reinforcement Learning.
https ://arxiv.org/pdf/1602.01783v2. pdf
[6] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, D. Wierstra. Continuous Control With Deep Reinforcement Learning.
https://arxiv.org/pdf/1509.02971.pdf
[7] S. Fujimoto, H. van Hoof, D. Meger. Addressing Function Approximation Error in Actor-Critic Methods.
https://arxiv.org/pdf/1802.09477.pdf
[8] T. Haarnoja, A. Zhou, P. Abbeel, S. Levine. Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor.
https://arxiv.org/pdf/1801.01290.pdf
[9] T. Haarnoja, A. Zhou, K. Hartikainen, G. Tucker, S. Ha, J. Tan,
V. Kumar, H. Zhu, A. Gupta, P. Abbeel, S. Levine. Soft Actor-Critic Algorithms and Applications.
https://arxiv.org/pdf/1812.05905.pdf
[10] D. Horgan, J. Quan, D. Budden, G. Barth-Maron, M. Hessel,
H. van Hasselt, D. Silver. Distributed Prioritized Experience Replay. https://arxiv.org/pdf/1803.00933v1.pdf