Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Искусственная нейронная сетв 10
1.1. Модели нейрона 10
1.2. Нейронная сеть 11
1.3. Обучение многослойного персептрона 12
Глава 2. Сверточная нейронная сеть 15
2.1. Архитектура сверточной нейронной сети 15
2.5. Изменение метода обратного распространения ошибки для сверточной нейронной сети 16
Глава 3. Обучение с подкреплением 17
3.1. Model-free and model-based methods 18
3.2. Q-learning 18
3.3. DQN 20
3.4. Policy gradient 21
Глава 4. Проведение эксперимента 24
4.1. Оборудование и программное обеспечение 24
4.2. Игровая среда 24
4.3. Проведение эксперимента 25
4.4. Результаты эксперимента 28
Выводы 30
Заключение 31
Список литературы 32
В последний годы благодаря появлению сложных архитектур нейронных сетей и развитию области Deep learning (DL) в целом, произошла серия прорывов в области Reinforcement learning (RL) обучения с подкреплением [1].
Обучение с подкреплением дает возможности решать задачи оптимального управления, когда точные модели недоступны. Использование RL может сэкономить время построения программной модели системы управления, если рассматривать ее, как агента, для которого проводится обучение. В процессе обучения агент учится выбирать наилучшее действие, получая сигнал от окружающей среды (награду, чем выше награда, тем более оптимальное действие было выбрано агентом) и накапливать опыт на основе предыдущих решений и откликов среды. Таким образом агент учится на своих ошибках и удачах, постепенно совершая более выгодные действия [2].
Обучение с подкреплением включает рассмотрение таких проблем, как выбор лучшего действия, с целью максимизировать значение награды, получаемой в результате этого действия. Причем, в отличие от обучения с учителем, при обучении не используется набор правильных выходных данных, вместо этого обучаемая модель должна сама в процессе обучения выяснить, какие действия приносят наибольшую выгоду. В наиболее сложных задачах выбор определенного действия влияет не только на размер текущей награды, но и на ожидаемую величину возможных будущих наград [3].
Хотя подходы RL получили несколько удачных применений, их широкому распространению помешала проблема высокой размерности многих задач [4]. В 1957 при исследовании решения задач оптимального управления в дискретных многомерных пространствах Веллман описал это как "проклятие размерности" [5]. Т.к. алгоритмы обучения с подкреплением можно рассматривать как алгоритмы оптимизации, они обладают теми же проблемами: объем вычислительной памяти, вычислительная сложность и т.п.
В свою очередь модели DL за счет использования множества уровней обработки информации, позволяют работать со сложными данными на разных уровнях абстракции. Но наиболее важным свойством глубокого обучения является то, что глубокие нейронные сети могут находить низкоразмерные представления высокоразмерных данных (изображения, текст и др.), тем самым помогая избежать "проклятие размерности" [6].
Благодаря объединению этих областей появилась возможность успешно решать сложные задачи во многих разных сферах.
Алгоритмы глубокого обучения с подкреплением широко применяются в робототехнике [7]. В них стратегия управления роботом, строится на основе сигнала, который приходит с камер [8].
Также широкого применения эти алгоритмы достигли в области видео игр. Стало возможным создание агентов играющих не хуже профессиональных игроков в такие игры как go, игры atari , starcraft2 и др., что не удавалось раньше. Хотя успехи в этой области послужили главным толчком в развитии deep reinforcement learning (DRLf главной целью все же остается создание агента способного самостоятельно адаптироваться в реальном мире [9] [10].
Однако это не единственные области, в которых успешно применяется DRL. Также эти методы применяются в таких областях, как обработка естественного языка, обучении беспилотных автомобилях, в рекомендательных системах и даже химии [11] [12] [13].
Несмотря на впечатляющий успех некоторых экспериментов, методы DRL все еще находятся на стадии разработки, при их использовании возможно столкновение со многими проблемами, такими как выбор наиболее подходящего для определенного приложения метода, его характеристики и многое другое.
В магистерской диссертации были выполнены:
1. Реализация среды обучения для агента.
2. Реализация глубокой сверточной нейронной сети, обеспечивающей возможности обучения по методу Q — lerning.
3. Обучение реализованной сверточной сети нейронной сети с использованием метода Q — lerning.
4. Модификация процесса обучения сверточной нейронной сети с использованием метода Q — lerning.
5. Сравнение результатов обучения нейронной сети при стандартном процессе обучения и модифицированном.
[1] A Survey of Adaptive Resonance Theory Neural Network Models for Engineering Applications [Электронный ресурс]: URL: https://arxiv.org/pdf/1905.11437.pdf
[2] Learning to Discretize: Solving ID Scalar Conservation Laws via Deep Reinforcement Learning [Электронный ресурс]: URL: https://arxiv.org/pdf/1905.11079.pdf
[3] Enforcing constraints for time series prediction in supervised, unsupervised and reinforcement learning [Электронный ресурс]: URL: https: //arxiv.org/pdf/1905.07501.pdf
[4] Reinforcement Leaning in Feature Space: Matrix Bandit, Kernels, and Regret Bound [Электронный ресурс]: URL: https://arxiv.org/pdf/1905.10389.pdf
[5] Веллман P. Динамическое программирование. M.: Иностранная литература, 1960. 400 с.
[6] Structured Compression by Unstructured Pruning for Sparse Quantized Neural Networks [Электронный ресурс]: URL: https://arxiv.org/pdf/1905.10138.pdf
[7] Interactive Differentiable Simulation [Электронный ресурс]: URL: https://arxiv.org/pdf/1905.10706.pdf
[8] Learning Navigation Subroutines by Watching Videos [Электронный ресурс]: URL: https://arxiv.org/pdf/1905.12612.pdf
[9] StarCraft II: A New Challenge forReinforcement Learning [Электронный ресурс]: URL: https://arxiv.org/pdf/1708.04782.pdf
[10] Generative Adversarial Imagination for Sample Efficient Deep Reinforcement Learning [Электронный ресурс]: URL: https: / / arxiv.org/pdf/1904.13255
[11] Reinforcement Learning of Speech Recognition System Based on Policy Gradient and Hypothesis Selection [Электронный ресурс]: URL: https://arxiv.org/pdf/1711.03689vl.pdf
[12] Deep Learning Based Automatic Video Annotation Tool for Self-Driving Car [Электронный ресурс]: URL: https: / / arxiv.org/ftp / arxiv / papers/1904/1904.12618.pdf
[13] Optimization of Molecules via Deep Reinforcement Learning [Электронный ресурс]: URL: https://arxiv.org/pdf/1810.08678.pdf
[14] Веллман P., Гликсберг И., Гросс О. Некоторые вопросы математической теории процессов управления. М.: Наука, Государственное изда- телвство физико-математической литературы, 1962. 335 с.
[15] Bellman, R. Е. 1957. A Markov decision process.Journal of Mathematical Mechanics, 6:679-684.
...