Тема: Применение алгоритмов обучения с подкреплением для управления системами электроснабжения с возобновляемыми источниками энергии
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 4
Обзор литературы 5
Глава 1. Математическая постановка и данные 8
1.1. Модель энергосистемы 8
1.2. Обзор данных 10
Глава 2. Обучение с подкреплением 16
2.1. Мотивация 16
2.2. Общие понятия обучения с подкреплением 16
2.2.1 Марковский процесс принятия решений 17
2.2.2 Policy Iteration и Value Iteration 23
2.2.3 Temporal Difference Learning 25
2.2.4 Policy Gradient 27
2.2.5 Actor-Critic 28
2.3. Алгоритмы обучения с подкреплением 29
2.3.1 Proximal Policy Optimization (PPO) 29
2.3.2 Asynchronous Advantage Actor-Critic (A3C) 31
2.3.3 Deep Deterministic Policy Gradients (DDPG) 33
Глава 3. Этапы в решении задачи с помощью RL 36
3.1. Формирование среды 36
3.2. Ray 37
3.2.1 Ray Tune 39
3.2.2 Ray RLlib 41
3.3. Выбор алгоритмов обучения с подкреплением 41
Глава 4. Реализация 43
4.1. Результаты 44
Выводы 47
Заключение 47
Список литературы 48
📖 Введение
В рамках соревнования участниками были предложены решения [2], основывающиеся на детерминистических подходах и не позволяющие применять их в условиях реальных индустриальных задач. Однако, в области планирования в энергосистемах стали популяризироваться подходы, основанные на обучении с подкреплением (Reinforcemenet Learning (RL))[3]-[5], в связи с их возможностью к адаптации в среде задачи в случае изменения входных параметров или столкновения с непредвиденными ранее ситуациями, а также способностью к работе с множеством неопределенностей, содержащихся в исторических данных.
В данной работе автором проводится анализ недостатков в применении смешанного целочисленного линейного программирования (MILP) при решении исследуемой задачи и предлагается альтернативный подход, основанный на использовании методов RL, алгоритмы которого в последнее время становятся более популярными в сфере использования накопительных систем в энергосистемах. На основе имеющихся исторических данных, проводится обучение трех моделей RL категории on-policy learning с помощью Ray API [6], включая описание процесса определения среды рассматриваемой задачи, использование параллелизма в обучении модели, а также результаты и визуализацию полученных результатов в сравнении с MILP.
✅ Заключение
В результате исследований рассматриваемым алгоритмам обучения с подкреплением (PPO, A3C, PG), работающим с непрерывным пространством действий и относящимся к on-policy learning, удалось достичь хороших результатов. Увеличение времени обучения и повышение вычислительных мощностей позволит данным методам достичь еще лучших показателей с точки зрения экономии финансовых затрат, а также повысить скорость выполнения этапа обучения моделей.





