Тема: Алгоритм обучения с подкреплением для решения задачи движения робота
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 6
1 АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 8
1.1 Исследование объекта управления 8
1.2 Обзор существующих алгоритмов движения 13
1.3 Обзор алгоритмов обучения с подкреплением 17
1.4 Выводы по разделу 27
2 РАЗРАБОТКА АЛГОРИТМА УПРАВЛЕНИЯ РОБОТОМ 29
2.1 Модель объекта управления 29
2.2 Модель среды и взаимодействия с роботом 31
2.3 Модель процесса обучения 33
2.4 Функция вознаграждения 35
2.5 Выводы по разделу 36
3 ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ 37
3.1 Интерфейс взаимодействия 37
3.2 Реализация среды 38
3.3 Реализация агента 40
3.4 Организация вычислительного эксперимента 41
3.5 Результаты обучения 43
3.6 Выводы по разделу 47
ЗАКЛЮЧЕНИЕ 49
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 50
ПРИЛОЖЕНИЕ 1 Листинг программы 53
📖 Введение
Робототехника - прикладная наука, занимающаяся разработкой автома-тизированных технических систем. Робот действует по заранее заложенной программе, получая информацию о внешнем мире от датчиков, он самостоятельно осуществляет производственные и иные операции, обычно выполняемые человеком (либо животными). При этом робот может, как иметь связь с оператором (получать от него команды), так и действовать автономно. Робототехника опирается на такие дисциплины, как электроника, механика, информатика, радиотехника, электротехника и другие. Выделяют основные виды робототехники: строительная, промышленная, бытовая, авиационная, военная, космическая и подводная. Практически в каждом виде роботов выделяют задачу движения, которая является одной из главных подзадач, требуемых для реализации проекта.
Для решения задач на стыке машинного обучения и оптимального управления была создана область обучения с подкреплением. В системах обучения с подкреплением выделяют важную проблему выбора между эксплуатацией текущих знаний для получения наибольшей награды и исследованием окружения с целью получения знаний о структуре окружения. В данной работе ставилась задача получения стратегия исследования окружений с непрерывными пространствами состояний. В качестве основы системы обучения с подкреплением была выбрана модель глубокого - обучения. Была предложена модификации существующей стратегии исследования в рамках задачи движения робота.
Существует множество готовых конфигураций роботов, механизмов и исполнителей, в основе которых лежат различные датчики, позволяющие осуществлять навигацию и передвижение в пространстве. А также существуют конструкторы, которые позволяют создавать макеты и прототипы роботов, используя практически любые конфигурации и формы исполнителей.
Цель работы: разработать и реализовать на языке высокого уровня алгоритм обучения с подкреплением для решения задачи движения робота по заданной линии.
Таким образом, для достижения цели были поставлены следующие задачи.
1. Провести анализ предметной области движения робота.
2. Изучить алгоритмы обучения с подкреплением.
3. Выполнить программную реализацию алгоритма обучения с подкреплением для решения задачи движения робота по линии.
4. Провести тестирование работы алгоритма в виртуальной среде.
✅ Заключение
Была разработана модель робота и системы обучения, а также виртуальная среда выполнения и тестирования стратегий. Был реализован алгоритм обучения и предложены критерии оценки.
В ходе выполнения работы был создан фреймворк для обучения различных моделей. Выполнена настройка параметров агента - матрица Q в алгоритме обучения Q-learning, для получения наилучших результатов. Были выбраны количество эпох обучения. Разработана программа на языке высокого уровня Python. Результатами работы программы являются коэффициенты матрицы . С помощью нее были получены результаты работы на контрольных картах. Результаты работы говорят о том, что алгоритм обучения работает лучше, чем тривиальный алгоритм.
Самые лучшие результаты получены при 10000 эпох обучения агента. При меньшем количестве агент обучается недостаточно и теряет управление в некоторых ситуациях на крутых поворотах. При увеличении числа эпох агент подвергается переобучению и заучиванию тренировочных трасс, теряет обобщающую способность и показывает по некоторым тестам худшие результаты, чем тривиальный алгоритм обучения. Полученные результаты обучения можно считать приемлемыми, если сравнивать с работой тривиального алгоритма.
Важным заключением данной работы является то, что удалось получить довольно точную модель, используя минимальное количество входной информации и затратив минимальное количество средств для моделирования объекта физической природы. Имеется в виду то, что как описывалось ранее, мы используем виртуальную модель, а не натурную.





