Применение алгоритмов обучения с подкреплением для управления системами электроснабжения с возобновляемыми источниками энергии

Содержание

Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Математическая постановка и данные 8
1.1. Модель энергосистемы 8
1.2. Обзор данных 10
Глава 2. Обучение с подкреплением 16
2.1. Мотивация 16
2.2. Общие понятия обучения с подкреплением 16
2.2.1 Марковский процесс принятия решений 17
2.2.2 Policy Iteration и Value Iteration 23
2.2.3 Temporal Difference Learning 25
2.2.4 Policy Gradient 27
2.2.5 Actor-Critic 28
2.3. Алгоритмы обучения с подкреплением 29
2.3.1 Proximal Policy Optimization (PPO) 29
2.3.2 Asynchronous Advantage Actor-Critic (A3C) 31
2.3.3 Deep Deterministic Policy Gradients (DDPG) 33
Глава 3. Этапы в решении задачи с помощью RL 36
3.1. Формирование среды 36
3.2. Ray 37
3.2.1 Ray Tune 39
3.2.2 Ray RLlib 41
3.3. Выбор алгоритмов обучения с подкреплением 41
Глава 4. Реализация 43
4.1. Результаты 44
Выводы 47
Заключение 47
Список литературы 48

Введение

Системы накопления энергии и возобновляемые источники энергии занимают важное место в оптимальном планировании работы энергосистем. Инжиниринговой компанией Sсhneider Electric [1], специализирующейся на энергетическом менеджменте и автоматизации, были опубликованы данные в рамках соревнования Power Laws [2]. Главной целью стала разработка оптимизационной модели для минимизации финансовых затрат на электроэнергию за счет планирования зарядки и разрядки аккумуляторной батареи, а также обмена с энергетическим рынком при условиях соблюдения ограничений системы и достижения энергетического баланса.
В рамках соревнования участниками были предложены решения [2], основывающиеся на детерминистических подходах и не позволяющие применять их в условиях реальных индустриальных задач. Однако, в области планирования в энергосистемах стали популяризироваться подходы, основанные на обучении с подкреплением (Reinforcemenet Learning (RL))[3]-[5], в связи с их возможностью к адаптации в среде задачи в случае изменения входных параметров или столкновения с непредвиденными ранее ситуациями, а также способностью к работе с множеством неопределенностей, содержащихся в исторических данных.
В данной работе автором проводится анализ недостатков в применении смешанного целочисленного линейного программирования (MILP) при решении исследуемой задачи и предлагается альтернативный подход, основанный на использовании методов RL, алгоритмы которого в последнее время становятся более популярными в сфере использования накопительных систем в энергосистемах. На основе имеющихся исторических данных, проводится обучение трех моделей RL категории on-policy learning с помощью Ray API [6], включая описание процесса определения среды рассматриваемой задачи, использование параллелизма в обучении модели, а также результаты и визуализацию полученных результатов в сравнении с MILP.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Заключение

В рамках работы были выполнены все поставленные задачи. Построена математическая модель рассматриваемой проблемы, проведен анализ исторических данных, исследованы и имплементированы алгоритмы обучения с подкреплением, а также сделано сравнение их результатов с подходом MILP, показавшего неплохие результаты в рамках соревнования Power Laws.
В результате исследований рассматриваемым алгоритмам обучения с подкреплением (PPO, A3C, PG), работающим с непрерывным пространством действий и относящимся к on-policy learning, удалось достичь хороших результатов. Увеличение времени обучения и повышение вычислительных мощностей позволит данным методам достичь еще лучших показателей с точки зрения экономии финансовых затрат, а также повысить скорость выполнения этапа обучения моделей.

Литература

[1] Официальный сайт schneider electric [Электронный ресурс] / SE. Режим доступа: https://www.se.com/ru/ru/, свободный. (дата обращения: 6.05.21)
[2] Гепозиторий соревнования [Электронный ресурс] / GitHub. Режим доступа: https://github.com/drivendataorg/power-laws-optimization, свободный. (дата обращения: 6.05.21)
[3] Wang H., Huang T., Liao X. Reinforcement Learning for Constrained Energy Trading Games With Incomplete Information // IEEE Trans. Cybern, 2017. Vol. 47, P. 3404-3416.
[4] Kim B., Zhang Y. Dynamic Pricing and Energy Consumption Scheduling With Reinforcement Learning // IEEE Trans. Smart Grid, 2016. Vol. 7, P. 2187-2198.
[5] Ruelens F., Claessens B.J., Vandael S. Residential Demand Response of Thermostatically Controlled Loads Using Batch Reinforcement Learning // IEEE Trans. Smart Grid, 2017. Vol. 7, P. 2149-2159.
[6] Ray // 2022. URL: https://docs.ray.io/en/releases-1.1.0/index.html (дата обращения: 12.05.22)
[7] Dulout J., Hernandez L. Optimal Scheduling of a Battery-based Energy Storage System for a Microgrid with High Penetration of Renewable Sources // ELECTRIMACS Conference, 2017. P. 1-6.
[8] Chaouachi A., Rashad M., Kamel M. Multiobjective Intelligent Energy Management for a Microgrid // IEEE Transactions on Industrial Electronics, 2013. Vol. 60, No. 4, P. 1688-1699.
[9] Hatziargyriou N. Special issue on microgrids and energy management // Eur Trans Electr Power, 2011. Vol. 21, P. 1139-1141.
[10] Mohamed F.A., Koivo H.N. System modelling and online optimal management of MicroGrid with battery storage // International Journal on Electrical Power and Energy Systems, 2010. Vol. 32, No. 5, P. 398-407.
[11] Atia R., Yamada N. Sizing and analysis of renewable energy and battery systems in residential microgrids // IEEE Transactions on Smart Grid, 2016. Vol. 7, No. 3, P. 1204-1213.
[12] Bahramirad S., Reder W., Khodaei A. Reliability-constrained optimal sizing of energy storage system in a microgrid // IEEE Transactions on Smart Grid, 2012. Vol. 3, No. 4, P. 2056-2062.
[13] Gengo T., Kobayashi Y. Development of Grid-stabilization Power-storage System with Lithium-ion Secondary Battery // Mitsubishi Heavy Industries Technical Review, 2009. Vol. 46, No. 2, P. 36-42.
[14] Perez A., Moreno R. Effect of Battery Degradation on Multi-Service Portfolios of Energy Storage // IEEE Transactions on Sustainable Energy, 2016. Vol. 7, P. 1718-1729.
[15] Ruelens F., Claessens B.J., Vandael S. Residential Demand Response of Thermostatically Controlled Loads Using Batch Reinforcement Learning // IEEE Trans. Smart Grid, 2017. Vol. 7, P. 2149-2159.
...

Скриншоты

Содержание с введением

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Подобные работы

Применение алгоритмов обучения с подкреплением для управления системами электроснабжения с возобновляемыми источниками энергии
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4870 р. Год сдачи: 2022

Применение алгоритмов обучения с подкреплением для управления системами электроснабжения с возобновляемыми источниками энергии

Тип работы

Магистерская диссертация

Предмет

математика и информатика

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

88

Подобные работы

Логин
Пароль


Тип работы:	Предмет:	Язык работы: