Тип работы:
Предмет:
Язык работы:


Применение методов обучения с подкреплением для агента в изменяющейся среде

Работа №125132

Тип работы

Магистерская диссертация

Предмет

нейронные сети

Объем работы38
Год сдачи2019
Стоимость5550 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
36
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Искусственная нейронная сетв 10
1.1. Модели нейрона 10
1.2. Нейронная сеть 11
1.3. Обучение многослойного персептрона 12
Глава 2. Сверточная нейронная сеть 15
2.1. Архитектура сверточной нейронной сети 15
2.5. Изменение метода обратного распространения ошибки для сверточной нейронной сети 16
Глава 3. Обучение с подкреплением 17
3.1. Model-free and model-based methods 18
3.2. Q-learning 18
3.3. DQN 20
3.4. Policy gradient 21
Глава 4. Проведение эксперимента 24
4.1. Оборудование и программное обеспечение 24
4.2. Игровая среда 24
4.3. Проведение эксперимента 25
4.4. Результаты эксперимента 28
Выводы 30
Заключение 31
Список литературы 32

В последний годы благодаря появлению сложных архитектур ней­ронных сетей и развитию области Deep learning (DL) в целом, произошла серия прорывов в области Reinforcement learning (RL) обучения с под­креплением [1].
Обучение с подкреплением дает возможности решать задачи опти­мального управления, когда точные модели недоступны. Использование RL может сэкономить время построения программной модели системы управления, если рассматривать ее, как агента, для которого проводится обучение. В процессе обучения агент учится выбирать наилучшее действие, получая сигнал от окружающей среды (награду, чем выше награда, тем более оптимальное действие было выбрано агентом) и накапливать опыт на основе предыдущих решений и откликов среды. Таким образом агент учится на своих ошибках и удачах, постепенно совершая более выгодные действия [2].
Обучение с подкреплением включает рассмотрение таких проблем, как выбор лучшего действия, с целью максимизировать значение награды, получаемой в результате этого действия. Причем, в отличие от обучения с учителем, при обучении не используется набор правильных выходных данных, вместо этого обучаемая модель должна сама в процессе обуче­ния выяснить, какие действия приносят наибольшую выгоду. В наиболее сложных задачах выбор определенного действия влияет не только на раз­мер текущей награды, но и на ожидаемую величину возможных будущих наград [3].
Хотя подходы RL получили несколько удачных применений, их ши­рокому распространению помешала проблема высокой размерности многих задач [4]. В 1957 при исследовании решения задач оптимального управле­ния в дискретных многомерных пространствах Веллман описал это как "проклятие размерности" [5]. Т.к. алгоритмы обучения с подкреплением можно рассматривать как алгоритмы оптимизации, они обладают теми же проблемами: объем вычислительной памяти, вычислительная сложность и т.п.
В свою очередь модели DL за счет использования множества уров­ней обработки информации, позволяют работать со сложными данными на разных уровнях абстракции. Но наиболее важным свойством глубокого обучения является то, что глубокие нейронные сети могут находить низко­размерные представления высокоразмерных данных (изображения, текст и др.), тем самым помогая избежать "проклятие размерности" [6].
Благодаря объединению этих областей появилась возможность успеш­но решать сложные задачи во многих разных сферах.
Алгоритмы глубокого обучения с подкреплением широко применя­ются в робототехнике [7]. В них стратегия управления роботом, строится на основе сигнала, который приходит с камер [8].
Также широкого применения эти алгоритмы достигли в области ви­део игр. Стало возможным создание агентов играющих не хуже професси­ональных игроков в такие игры как go, игры atari , starcraft2 и др., что не удавалось раньше. Хотя успехи в этой области послужили главным толч­ком в развитии deep reinforcement learning (DRLf главной целью все же остается создание агента способного самостоятельно адаптироваться в реальном мире [9] [10].
Однако это не единственные области, в которых успешно применяет­ся DRL. Также эти методы применяются в таких областях, как обработ­ка естественного языка, обучении беспилотных автомобилях, в рекоменда­тельных системах и даже химии [11] [12] [13].
Несмотря на впечатляющий успех некоторых экспериментов, методы DRL все еще находятся на стадии разработки, при их использовании воз­можно столкновение со многими проблемами, такими как выбор наиболее подходящего для определенного приложения метода, его характеристики и многое другое.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В магистерской диссертации были выполнены:
1. Реализация среды обучения для агента.
2. Реализация глубокой сверточной нейронной сети, обеспечивающей воз­можности обучения по методу Q — lerning.
3. Обучение реализованной сверточной сети нейронной сети с использо­ванием метода Q — lerning.
4. Модификация процесса обучения сверточной нейронной сети с исполь­зованием метода Q — lerning.
5. Сравнение результатов обучения нейронной сети при стандартном про­цессе обучения и модифицированном.


[1] A Survey of Adaptive Resonance Theory Neural Network Models for Engineering Applications [Электронный ресурс]: URL: https://arxiv.org/pdf/1905.11437.pdf
[2] Learning to Discretize: Solving ID Scalar Conservation Laws via Deep Reinforcement Learning [Электронный ресурс]: URL: https://arxiv.org/pdf/1905.11079.pdf
[3] Enforcing constraints for time series prediction in supervised, unsupervised and reinforcement learning [Электронный ресурс]: URL: https: //arxiv.org/pdf/1905.07501.pdf
[4] Reinforcement Leaning in Feature Space: Matrix Bandit, Kernels, and Regret Bound [Электронный ресурс]: URL: https://arxiv.org/pdf/1905.10389.pdf
[5] Веллман P. Динамическое программирование. M.: Иностранная литера­тура, 1960. 400 с.
[6] Structured Compression by Unstructured Pruning for Sparse Quantized Neural Networks [Электронный ресурс]: URL: https://arxiv.org/pdf/1905.10138.pdf
[7] Interactive Differentiable Simulation [Электронный ресурс]: URL: https://arxiv.org/pdf/1905.10706.pdf
[8] Learning Navigation Subroutines by Watching Videos [Электронный ре­сурс]: URL: https://arxiv.org/pdf/1905.12612.pdf
[9] StarCraft II: A New Challenge forReinforcement Learning [Электронный ресурс]: URL: https://arxiv.org/pdf/1708.04782.pdf
[10] Generative Adversarial Imagination for Sample Efficient Deep Reinforcement Learning [Электронный ресурс]: URL: https: / / arxiv.org/pdf/1904.13255
[11] Reinforcement Learning of Speech Recognition System Based on Policy Gradient and Hypothesis Selection [Электронный ресурс]: URL: https://arxiv.org/pdf/1711.03689vl.pdf
[12] Deep Learning Based Automatic Video Annotation Tool for Self-Driving Car [Электронный ресурс]: URL: https: / / arxiv.org/ftp / arxiv / papers/1904/1904.12618.pdf
[13] Optimization of Molecules via Deep Reinforcement Learning [Электрон­ный ресурс]: URL: https://arxiv.org/pdf/1810.08678.pdf
[14] Веллман P., Гликсберг И., Гросс О. Некоторые вопросы математиче­ской теории процессов управления. М.: Наука, Государственное изда- телвство физико-математической литературы, 1962. 335 с.
[15] Bellman, R. Е. 1957. A Markov decision process.Journal of Mathematical Mechanics, 6:679-684.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ