Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Математическая постановка и данные 8
1.1. Модель энергосистемы 8
1.2. Обзор данных 10
Глава 2. Обучение с подкреплением 16
2.1. Мотивация 16
2.2. Общие понятия обучения с подкреплением 16
2.2.1 Марковский процесс принятия решений 17
2.2.2 Policy Iteration и Value Iteration 23
2.2.3 Temporal Difference Learning 25
2.2.4 Policy Gradient 27
2.2.5 Actor-Critic 28
2.3. Алгоритмы обучения с подкреплением 29
2.3.1 Proximal Policy Optimization (PPO) 29
2.3.2 Asynchronous Advantage Actor-Critic (A3C) 31
2.3.3 Deep Deterministic Policy Gradients (DDPG) 33
Глава 3. Этапы в решении задачи с помощью RL 36
3.1. Формирование среды 36
3.2. Ray 37
3.2.1 Ray Tune 39
3.2.2 Ray RLlib 41
3.3. Выбор алгоритмов обучения с подкреплением 41
Глава 4. Реализация 43
4.1. Результаты 44
Выводы 47
Заключение 47
Список литературы 48
Системы накопления энергии и возобновляемые источники энергии занимают важное место в оптимальном планировании работы энергосистем. Инжиниринговой компанией Sсhneider Electric [1], специализирующейся на энергетическом менеджменте и автоматизации, были опубликованы данные в рамках соревнования Power Laws [2]. Главной целью стала разработка оптимизационной модели для минимизации финансовых затрат на электроэнергию за счет планирования зарядки и разрядки аккумуляторной батареи, а также обмена с энергетическим рынком при условиях соблюдения ограничений системы и достижения энергетического баланса.
В рамках соревнования участниками были предложены решения [2], основывающиеся на детерминистических подходах и не позволяющие при-менять их в условиях реальных индустриальных задач. Однако, в области планирования в энергосистемах стали популяризироваться подходы, основанные на обучении с подкреплением (Reinforcemenet Learning (RL))[3]-[5], в связи с их возможностью к адаптации в среде задачи в случае изменения входных параметров или столкновения с непредвиденными ранее ситуациями, а также способностью к работе с множеством неопределенностей, содержащихся в исторических данных.
В данной работе автором проводится анализ недостатков в применении смешанного целочисленного линейного программирования (MILP) при решении исследуемой задачи и предлагается альтернативный подход, основанный на использовании методов RL, алгоритмы которого в последнее время становятся более популярными в сфере использования накопительных систем в энергосистемах. На основе имеющихся исторических данных, проводится обучение трех моделей RL категории on-policy learning с помощью Ray API [6], включая описание процесса определения среды рассматриваемой задачи, использование параллелизма в обучении модели, а также результаты и визуализацию полученных результатов в сравнении с MILP.
Постановка задачи
Объект исследования - система электроснабжения, состоящая из фотоэлектрической электростанции генерирующей солнечную энергию, накопителя энергии в виде аккумуляторной батареи и обладающей возможностью обмена энергией (купли / продажи) с местной коммунальной сетью по заранее известным тарифам.
Цель работы - получение модели планирования подхода RL, способной в режиме реального времени оптимально использовать аккумуляторную батарею для минимизации финансовых затрат на покупку энергии у местной коммунальной сети с необходимым условием в удовлетворении спроса на энергию в энергосистеме.
В рамках данной работы были решены следующие задачи:
• проведена математическая постановка задачи в терминах линейного программирования
• выполнен обзор имеющихся в задаче данных
• выявлены недостатки детерминистического подхода в рамках рассматриваемой задачи и необходимость перехода к обучению с под-креплением
• сделано описание основных принципов, понятий и методов RL
• приведен обзор алгоритмов RL использованных при решении задачи
• определена и разработана среда в рамках задачи RL на основе имеющихся данных
• выполнено проведение экспериментов и сравнение результатов работы полученных моделей RL с результатами MILP
В задаче планирования использования батареи в энергосистеме с возобновляемыми источниками энергии и возможностью обмена с местной коммунальной сетью, подход смешанного целочисленного линейного программирования продемонстрировал ряд существенных недостатков. Прогнозные значения затрудняют использование модели при решении проблем долгосрочного планирования, не имеется возможности учитывания изменений во входных значениях, ввиду чего возникает потребность в повторном решении задачи с новыми данными, а отсутствие адаптивности подхода не позволяет применять его в рамках реальных индустриальных задач.
Автором работы предлагается воспользоваться не рассмотренным в рамках соревнования Power Laws подходом - методами обучения с под-креплением. Они позволяют работать с неопределенностями в прогнозных значениях, учитывать важные изменения во входных данных, например, эффект деградации батареи, а также в случаях возникновения незнакомых агенту ситуаций, адаптироваться под них, что делает этот подход очень эффективным в рамках применения к исследуемой задаче.
Заключение
В рамках работы были выполнены все поставленные задачи. Построена математическая модель рассматриваемой проблемы, проведен анализ исторических данных, исследованы и имплементированы алгоритмы обучения с подкреплением, а также сделано сравнение их результатов с подходом MILP, показавшего неплохие результаты в рамках соревнования Power Laws.
В результате исследований рассматриваемым алгоритмам обучения с подкреплением (PPO, A3C, PG), работающим с непрерывным пространством действий и относящимся к on-policy learning, удалось достичь хороших результатов. Увеличение времени обучения и повышение вычислительных мощностей позволит данным методам достичь еще лучших показателей с точки зрения экономии финансовых затрат, а также повысить скорость выполнения этапа обучения моделей.
[1] Официальный сайт schneider electric [Электронный ресурс] / SE. Режим доступа:https://www.se.com/ru/ru/, свободный. (дата обращения: 6.05.21)
[2] Гепозиторий соревнования [Электронный ресурс] / GitHub.
Режим доступа: https://github.com/drivendataorg/
power-laws-optimization, свободный. (дата обращения: 6.05.21)
[3] Wang H., Huang T., Liao X. Reinforcement Learning for Constrained Energy Trading Games With Incomplete Information // IEEE Trans. Cybern, 2017. Vol. 47, P. 3404-3416.
[4] Kim B., Zhang Y. Dynamic Pricing and Energy Consumption Scheduling With Reinforcement Learning // IEEE Trans. Smart Grid, 2016. Vol. 7, P. 2187-2198.
[5] Ruelens F., Claessens B.J., Vandael S. Residential Demand Response of Thermostatically Controlled Loads Using Batch Reinforcement Learning // IEEE Trans. Smart Grid, 2017. Vol. 7, P. 2149-2159.
[6] Ray // 2022
URL: https://docs.ray.io/en/releases-1.1.0/index.html(дата обращения: 12.05.22)
[7] Dulout J., Hernandez L. Optimal Scheduling of a Battery-based Energy Storage System for a Microgrid with High Penetration of Renewable Sources // ELECTRIMACS Conference, 2017. P. 1-6.
[8] Chaouachi A., Rashad M., Kamel M. Multiobjective Intelligent Energy Management for a Microgrid // IEEE Transactions on Industrial Electronics, 2013. Vol. 60, No. 4, P. 1688-1699.
[9] Hatziargyriou N. Special issue on microgrids and energy management // Eur Trans Electr Power, 2011. Vol. 21, P. 1139-1141.
[10] Mohamed F.A., Koivo H.N. System modelling and online optimal management of MicroGrid with battery storage // International Journal on Electrical Power and Energy Systems, 2010. Vol. 32, No. 5, P. 398-407.
[11] Atia R., Yamada N. Sizing and analysis of renewable energy and battery systems in residential microgrids // IEEE Transactions on Smart Grid, 2016. Vol. 7, No. 3, P. 1204-1213.
[12] Bahramirad S., Reder W., Khodaei A. Reliability-constrained optimal sizing of energy storage system in a microgrid // IEEE Transactions on Smart Grid, 2012. Vol. 3, No. 4, P. 2056-2062.
[13] Gengo T., Kobayashi Y. Development of Grid-stabilization Power-storage System with Lithium-ion Secondary Battery // Mitsubishi Heavy Industries Technical Review, 2009. Vol. 46, No. 2, P. 36-42.
[14] Perez A., Moreno R. Effect of Battery Degradation on Multi-Service Portfolios of Energy Storage // IEEE Transactions on Sustainable Energy, 2016. Vol. 7, P. 1718-1729.
[15] Ruelens F., Claessens B.J., Vandael S. Residential Demand Response of Thermostatically Controlled Loads Using Batch Reinforcement Learning // IEEE Trans. Smart Grid, 2017. Vol. 7, P. 2149-2159.
[16] Xiong R., Cao J., Yu Q. Reinforcement learning-based real-time power management for hybrid energy storage system in the plugin hybrid electric vehicle // Appl. Energy, 2018. Vol. 211, P. 538-548.
[17] Kim B., Zhang Y. Dynamic Pricing and Energy Consumption Scheduling With Reinforcement Learning // IEEE Trans. Smart Grid, 2016. Vol. 7, P. 2187-2198.
[18] Sutton R.S., Barto A.G. // Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA, 2018.
[19] Wei C., Zhang Z., Qia W. Reinforcement learning based intelligent maximum power point tracking control for wind energy conversion systems // IEEE Trans. Ind. Electron, 2015. Vol. 62, No. 10, P. 6360-6370.
[20] Xi L., Yu L., Fu Y. Automatic generation control based on deep reinforcement learning with exploration awareness // Proc. CSEE, 2019. Vol. 39, No. 14, P. 4150-4162.
[21] Wang B., Zhou M., Xin B. Analysis of operation cost and wind curtailment using multi-objective unit commitment with battery energy storage // Energy, 2019. Vol. 178, P. 101-114.
[22] Wan Z., Li H., He H. Model-Free Real-Time EV Charging Scheduling Based on Deep Reinforcement Learning // IEEE Transactions on Smart Grid, 2019. Vol. 10, No. 5, P. 5246-5257.
[23] Sutton R.S., McAllester D., Singh S., Mansour Y. Policy Gradient Methods for Reinforcement Learning with Function Approximation // Advances in Neural Information Processing Systems, 2000, Vol. 12, P. 1057-1063
[24] Schulman J., Wolski F., Dhariwal P., Radford A., Klimov O. // Proximal Policy Optimization Algorithms, ArXiv, 2017, abs/1707.06347
[25] V. Mnih, Adria Puigdomenech Badia, Mehdi Mirza, A. Graves, T. Lillicrap, Tim Harley, D. Silver and K. Kavukcuoglu. // Asynchronous Methods for Deep Reinforcement Learning, ArXiv, 2016, abs/1602.01783
[26] Timothy P. Lillicrap, Jonathan J. Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, Daan Wierstra // Continuous control with deep reinforcement learning, ArXiv, 2015, abs/1509.02971
[27] Williams, R. J. Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning // Machine Learning, 1992. Vol. 8, P. 229-256.
[28] Hunter D. R., Lange K. A Tutorial on MM Algorithms // The American Statistician, 2004. Vol. 58, P. 30-37.
[29] Wu, C. F. Jeff On the Convergence Properties of the EM Algorithm // Annals of Statistics, 1983. Vol. 11, P. 95-103.
[30] Schulman J., Levine S., Moritz P., Jordan M. I., Abbeel P. // Trust region policy optimization, ArXiv, 2015, abs/1502.05477
[31] Population Based Training // 2017
URL: https://www.deepmind.com/blog/population-based-training-of-
neural-networks (дата обращения 12.05.22)
[32] Lisha Li, Kevin Jamieson, Giulia DeSalvo, Afshin Rostamizadeh, Ameet Talwalkar // Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization, ArXiv, 2018, abs/1603.06560
[33] OpenAI Gym // 2022
URL: https://www.gymlibrary.ml/l(дата обращения: 12.05.22)
[34] Huang S., Ontanon S. // A Closer Look at Invalid Action Masking in Policy Gradient Algorithms, ArXiv, 2020, abs/2006.14171