Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Математическая постановка и данные 8
1.1. Модель энергосистемы 8
1.2. Обзор данных 10
Глава 2. Обучение с подкреплением 16
2.1. Мотивация 16
2.2. Общие понятия обучения с подкреплением 16
2.2.1 Марковский процесс принятия решений 17
2.2.2 Policy Iteration и Value Iteration 23
2.2.3 Temporal Difference Learning 25
2.2.4 Policy Gradient 27
2.2.5 Actor-Critic 28
2.3. Алгоритмы обучения с подкреплением 29
2.3.1 Proximal Policy Optimization (PPO) 29
2.3.2 Asynchronous Advantage Actor-Critic (A3C) 31
2.3.3 Deep Deterministic Policy Gradients (DDPG) 33
Глава 3. Этапы в решении задачи с помощью RL 36
3.1. Формирование среды 36
3.2. Ray 37
3.2.1 Ray Tune 39
3.2.2 Ray RLlib 41
3.3. Выбор алгоритмов обучения с подкреплением 41
Глава 4. Реализация 43
4.1. Результаты 44
Выводы 47
Заключение 47
Список литературы 48
Системы накопления энергии и возобновляемые источники энергии занимают важное место в оптимальном планировании работы энергосистем. Инжиниринговой компанией Sсhneider Electric [1], специализирующейся на энергетическом менеджменте и автоматизации, были опубликованы данные в рамках соревнования Power Laws [2]. Главной целью стала разработка оптимизационной модели для минимизации финансовых затрат на электроэнергию за счет планирования зарядки и разрядки аккумуляторной батареи, а также обмена с энергетическим рынком при условиях соблюдения ограничений системы и достижения энергетического баланса.
В рамках соревнования участниками были предложены решения [2], основывающиеся на детерминистических подходах и не позволяющие при-менять их в условиях реальных индустриальных задач. Однако, в области планирования в энергосистемах стали популяризироваться подходы, основанные на обучении с подкреплением (Reinforcemenet Learning (RL))[3]-[5], в связи с их возможностью к адаптации в среде задачи в случае изменения входных параметров или столкновения с непредвиденными ранее ситуациями, а также способностью к работе с множеством неопределенностей, содержащихся в исторических данных.
В данной работе автором проводится анализ недостатков в применении смешанного целочисленного линейного программирования (MILP) при решении исследуемой задачи и предлагается альтернативный подход, основанный на использовании методов RL, алгоритмы которого в последнее время становятся более популярными в сфере использования накопительных систем в энергосистемах. На основе имеющихся исторических данных, проводится обучение трех моделей RL категории on-policy learning с помощью Ray API [6], включая описание процесса определения среды рассматриваемой задачи, использование параллелизма в обучении модели, а также результаты и визуализацию полученных результатов в сравнении с MILP.
Постановка задачи
Объект исследования - система электроснабжения, состоящая из фотоэлектрической электростанции генерирующей солнечную энергию, накопителя энергии в виде аккумуляторной батареи и обладающей возможностью обмена энергией (купли / продажи) с местной коммунальной сетью по заранее известным тарифам.
Цель работы - получение модели планирования подхода RL, способной в режиме реального времени оптимально использовать аккумуляторную батарею для минимизации финансовых затрат на покупку энергии у местной коммунальной сети с необходимым условием в удовлетворении спроса на энергию в энергосистеме.
В рамках данной работы были решены следующие задачи:
• проведена математическая постановка задачи в терминах линейного программирования
• выполнен обзор имеющихся в задаче данных
• выявлены недостатки детерминистического подхода в рамках рассматриваемой задачи и необходимость перехода к обучению с под-креплением
• сделано описание основных принципов, понятий и методов RL
• приведен обзор алгоритмов RL использованных при решении задачи
• определена и разработана среда в рамках задачи RL на основе имеющихся данных
• выполнено проведение экспериментов и сравнение результатов работы полученных моделей RL с результатами MILP
В задаче планирования использования батареи в энергосистеме с возобновляемыми источниками энергии и возможностью обмена с местной коммунальной сетью, подход смешанного целочисленного линейного программирования продемонстрировал ряд существенных недостатков. Прогнозные значения затрудняют использование модели при решении проблем долгосрочного планирования, не имеется возможности учитывания изменений во входных значениях, ввиду чего возникает потребность в повторном решении задачи с новыми данными, а отсутствие адаптивности подхода не позволяет применять его в рамках реальных индустриальных задач.
Автором работы предлагается воспользоваться не рассмотренным в рамках соревнования Power Laws подходом - методами обучения с под-креплением. Они позволяют работать с неопределенностями в прогнозных значениях, учитывать важные изменения во входных данных, например, эффект деградации батареи, а также в случаях возникновения незнакомых агенту ситуаций, адаптироваться под них, что делает этот подход очень эффективным в рамках применения к исследуемой задаче.
Заключение
В рамках работы были выполнены все поставленные задачи. Построена математическая модель рассматриваемой проблемы, проведен анализ исторических данных, исследованы и имплементированы алгоритмы обучения с подкреплением, а также сделано сравнение их результатов с подходом MILP, показавшего неплохие результаты в рамках соревнования Power Laws.
В результате исследований рассматриваемым алгоритмам обучения с подкреплением (PPO, A3C, PG), работающим с непрерывным пространством действий и относящимся к on-policy learning, удалось достичь хороших результатов. Увеличение времени обучения и повышение вычислительных мощностей позволит данным методам достичь еще лучших показателей с точки зрения экономии финансовых затрат, а также повысить скорость выполнения этапа обучения моделей.