Тема: Применение алгоритмов обучения с подкреплением для управления системами электроснабжения с возобновляемыми источниками энергии
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 4
Обзор литературы 5
Глава 1. Математическая постановка и данные 8
1.1. Модель энергосистемы 8
1.2. Обзор данных 10
Глава 2. Обучение с подкреплением 16
2.1. Мотивация 16
2.2. Общие понятия обучения с подкреплением 16
2.2.1 Марковский процесс принятия решений 17
2.2.2 Policy Iteration и Value Iteration 23
2.2.3 Temporal Difference Learning 25
2.2.4 Policy Gradient 27
2.2.5 Actor-Critic 28
2.3. Алгоритмы обучения с подкреплением 29
2.3.1 Proximal Policy Optimization (PPO) 29
2.3.2 Asynchronous Advantage Actor-Critic (A3C) 31
2.3.3 Deep Deterministic Policy Gradients (DDPG) 33
Глава 3. Этапы в решении задачи с помощью RL 36
3.1. Формирование среды 36
3.2. Ray 37
3.2.1 Ray Tune 39
3.2.2 Ray RLlib 41
3.3. Выбор алгоритмов обучения с подкреплением 41
Глава 4. Реализация 43
4.1. Результаты 44
Выводы 47
Заключение 47
Список литературы 48
📖 Введение
В рамках соревнования участниками были предложены решения [2], основывающиеся на детерминистических подходах и не позволяющие при-менять их в условиях реальных индустриальных задач. Однако, в области планирования в энергосистемах стали популяризироваться подходы, основанные на обучении с подкреплением (Reinforcemenet Learning (RL))[3]-[5], в связи с их возможностью к адаптации в среде задачи в случае изменения входных параметров или столкновения с непредвиденными ранее ситуациями, а также способностью к работе с множеством неопределенностей, содержащихся в исторических данных.
В данной работе автором проводится анализ недостатков в применении смешанного целочисленного линейного программирования (MILP) при решении исследуемой задачи и предлагается альтернативный подход, основанный на использовании методов RL, алгоритмы которого в последнее время становятся более популярными в сфере использования накопительных систем в энергосистемах. На основе имеющихся исторических данных, проводится обучение трех моделей RL категории on-policy learning с помощью Ray API [6], включая описание процесса определения среды рассматриваемой задачи, использование параллелизма в обучении модели, а также результаты и визуализацию полученных результатов в сравнении с MILP.
Постановка задачи
Объект исследования - система электроснабжения, состоящая из фотоэлектрической электростанции генерирующей солнечную энергию, накопителя энергии в виде аккумуляторной батареи и обладающей возможностью обмена энергией (купли / продажи) с местной коммунальной сетью по заранее известным тарифам.
Цель работы - получение модели планирования подхода RL, способной в режиме реального времени оптимально использовать аккумуляторную батарею для минимизации финансовых затрат на покупку энергии у местной коммунальной сети с необходимым условием в удовлетворении спроса на энергию в энергосистеме.
В рамках данной работы были решены следующие задачи:
• проведена математическая постановка задачи в терминах линейного программирования
• выполнен обзор имеющихся в задаче данных
• выявлены недостатки детерминистического подхода в рамках рассматриваемой задачи и необходимость перехода к обучению с под-креплением
• сделано описание основных принципов, понятий и методов RL
• приведен обзор алгоритмов RL использованных при решении задачи
• определена и разработана среда в рамках задачи RL на основе имеющихся данных
• выполнено проведение экспериментов и сравнение результатов работы полученных моделей RL с результатами MILP
✅ Заключение
Автором работы предлагается воспользоваться не рассмотренным в рамках соревнования Power Laws подходом - методами обучения с под-креплением. Они позволяют работать с неопределенностями в прогнозных значениях, учитывать важные изменения во входных данных, например, эффект деградации батареи, а также в случаях возникновения незнакомых агенту ситуаций, адаптироваться под них, что делает этот подход очень эффективным в рамках применения к исследуемой задаче.
Заключение
В рамках работы были выполнены все поставленные задачи. Построена математическая модель рассматриваемой проблемы, проведен анализ исторических данных, исследованы и имплементированы алгоритмы обучения с подкреплением, а также сделано сравнение их результатов с подходом MILP, показавшего неплохие результаты в рамках соревнования Power Laws.
В результате исследований рассматриваемым алгоритмам обучения с подкреплением (PPO, A3C, PG), работающим с непрерывным пространством действий и относящимся к on-policy learning, удалось достичь хороших результатов. Увеличение времени обучения и повышение вычислительных мощностей позволит данным методам достичь еще лучших показателей с точки зрения экономии финансовых затрат, а также повысить скорость выполнения этапа обучения моделей.



