Глава 1. Введение 3
Глава 2. Постановка задачи 5
Глава 3. Обзор литературы 7
3.1. Поиск путей на графе состояний (Алгоритм Дейкстры, A*) 7
3.2. Sample-based методы (PRM, RRT, RRT-connect, BiRRT, SST) 9
3.3. Experience-based методы 11
Глава 4. Метод 12
4.1. RRT 13
4.2. Bi-RRT 14
4.3. EM-алгоритм в общем виде 17
4.4. EM-алгоритм для Gaussian Mixture 18
4.5. Полный алгоритм 21
Глава 5. Эксперименты 23
5.1. Симулятор CoppeliaSim 23
5.2. Детали экспериментов с CoppeliaSim 24
5.3. Результаты с CoppeliaSim 26
Глава 6. Заключение 29
Список литературы 30
Технологии играют ключевую роль в современном мире, проникая в
различные аспекты жизнедеятельности. Их широкое распространение обусловлено их стремительным развитием и интеграцией во многие отрасли, от
промышленности до повседневной жизни. В этом контексте стоит отметить
значимость роботов-манипуляторов, эффективно выполняющих различные
задачи на предприятиях(Рис. 1) и в исследовательских целях. Также роботы манипуляторы могут использоваться в медицине. Возможно через несколько
лет сложнейшие хирургические операции станут задачей подобных роботов.
Рис. 1: Роботы манипуляторы на заводе
В данной области робототехники необходимо планирование и в различных сценариях могут требоваться разные подходы к планированию движения. В некоторых случаях, например, при выполнении рутинных задач на
производстве, эффективными могут быть предварительно спланированные
траектории движения. В других ситуациях, манипулятору нужно имитировать
действия человека, например, роботы участвующие в хирургии. Часто необходимо использовать адаптивное планирование, позволяющее манипулятору
динамически реагировать на изменения окружающей среды и эффективно
3адаптироваться к новым условиям, например, мобильные роботы манипуляторы.
Задача адаптивного планирования довольно сложна из-за большой размерности пространства, в котором осуществляется поиск решения, наличия
кинематических ограничений манипулятора, наличия препятствий. Поэтому
несмотря на долгую историю развития методов планирования для таких манипуляционных роботов единого универсального решения на данный момент
не существует. И притом, в последнее время исследователями активно изучается вопрос применения методов машинного обучения к данной задаче,
которые могли бы повысить эффективность разработанных ранее подходов.
Целью данной дипломной работы является исследование методов адаптивного планирования траектории движения манипуляторов в средах с препятствиями, использующих методы машинного обучения.
Для достижения данной цели необходимо выполнить следующие задачи:
• Провести анализ литературы, связанной с планированием для роботовманипуляторов и в частности использующие машинное обучение
• Реализовать метод планирования на основе машинного обучения
• Провести сравнительные эксперименты в средах с манипуляторами.
В ходе выполнения работы были исследованы методы адаптивного планирования траектории движения манипуляторов в средах с препятствиями,
использующих машинное обучение. Был проведен технический анализ литературы, на его основе был разработан новый метод для задачи планирования
траектории движения роботов-манипуляторов. Данный методы был реализован на языке Python на основе идеи использования обученной на полученном
29опыте смеси гауссианов и проведено экспериментальное сравнение с базовыми алгоритмами по выбранным метрикам в среде CoppeliaSim с манипулятором UR-10. Подход с использованием смеси гауссианов в sample-based
методах был ранее упомянут в литературе, но применялся к другим доменам
и не имел открытой реализации. К основным результатам работы относится
программная реализация алгоритма планирования и его улучшения при помощи добавления Goal-Bias и всего пайплайна эксперимента в CoppeliaSim.
На основании экспериментальных исследований можно сделать вывод,
что обучение смеси гауссианов на основе накопленного опыта даёт большой
прирост в скорости решения и в среднем существенно уменьшает длину,
построенного пути. Также было выявлено, что добавление Goal-Bias(GB) к
получившемуся распределению улучшает стабильность решения и значимо
уменьшает время планирования.
В будущих работах планируется изучение вопроса выбора функции f
и учёта ковариационной матрицы для изменения весов. Можно попробовать
использование GB не сразу, например сначала использовать обычную смесь
до какого-то момента, чтобы побольше исследовать среду в начале, а потом
использовать перевзвешенную. Можно попробовать вносить информацию в
распределение изменяя средние распределений, а не веса смеси.
[1] E. Dijkstra (1959). "A note on two problems in connection with graphs”
[2] Peter Hart, Nils Nilsson, Bertram Raphael (1968). “A Formal Basis for the Heuristic Determination of Minimum Cost Paths”
[3] Zhou, R.; Hansen, E.A. (2002). “Multiple sequence alignment using A*”
[4] Pohl, Ira (1970). “First results on the effect of error in heuristic search”
[5] Pohl, Ira (1970). “The avoidance of (relative) catastrophe, heuristic competence, genuine dynamic weighting and computational issues in heuristic problems solving”
[6] Daniel harabor, Alban Grastien (2011). “Online Graph Pruning for Pathfinding on Grid Maps”
[7] Aditya Mandalika, Oren Salzaman, Siddhartha (2018). “Lazy Receding Horizon A* for Efficient Path Planning in Graphs with Expensive-to-Evaluate Edges”
[8] Russel, S. (1992). “Efficient memory-bounded search methods”
[9] Stentz, Anthony (1994). “Optimal and Efficient Path Planning for Partially- Known Environments”
[10] Pohl, Ira (1971). “Bi-directional Search”
[11] R. Alterovitz, S. Patil, and A. Derbakova (2011). "Rapidly-exploring roadmaps: Weighing exploration vs. reginement in optimal motion planning."
[12] Steven M. Valle (1998) “Rapidly-Exploring Random Trees”
[13] James Kuffner, Steven M. Valle (2000). “RRT-Connect: An Efficient Approach to Single-Query Path Planning”
[14] Steven M. Valle, James Kuffner (2001) “Randomized Kinodynamic Planning.”
[15] Yanbo Li, Zakary Littlefield, Kostas E. Bekris (2016). "Asymptotically Optimal Sampling-based Kinodynamic Planning"
[16] Sertac Karaman, Emilio Frazzoli (2011). "Sampling-based Algorithms for Optimal Motion Planning"
[17] M. Jordan, A. Perez (2013) “Optimal bidirectional rapidly-exploring random trees”
[18] Jonathan D. Gammell, Siddhartha S. Srinivasa, and Timothy D. Barfoot (2015) “Informed RRT*: Optimal Sampling-based Path Planning Focused via Direct Sampling of an Admissible Ellipsoidal Heuristic”
[19] J. D. Gammell, S. S. Srinivasa, T. D. Barfoot (2015) “Batch Informed Trees (BIT*): Sampling-based Optimal Planning via the Heuristically Guided Search of Implicit Random Geometric Graphs”
[20] S. Choudhury, J. D. Gammell, T. D. Barfoot, S. S. Srinivasa, and S. Scherer (2016) “Regionally accelerated batch informed trees (RABIT*): A framework to integrate local information into optimal path planning”
[21] F. Hauer, P. Tsiotras (2017) “Deformable rapidly-exploring random trees”
[22] Marcin Andrychowicz, Filip Wolski, Alex Ray, Jonas Schneider, Rachel Fong, Peter Welinder, Bob McGrew, Josh Tobin, Pieter Abbeel, Wojciech Zaremba (2018) “Hindsight Experience Replay”
[23] Minttu Alakuijala; Gabriel Dulac-Arnold; Julien Mairal; Jean Ponce (2023) "Learning Reward Functions for Robotic Manipulation by Observing Humans"
[24] A. Boularias, J. A. Bagnell, and A. Stentz (2015). “Learning to manipulate unknown objects in clutter by reinforcement”
[25] V. Pong, S. Gu, M. Dalal, and S. Levine (2020) “Temporal Difference Models: Model-Free Deep RL for Model-Based Control”
[26] Hao-Tien Lewis Chiang, Jasmine Hsu, Marek Fiser, Lydia Tapia, Aleksandra Faust (2019) “RL-RRT: Kinodynamic Motion Planning via Learning Reachability Estimators from RL Policies”
[27] Brian Ichter1, James Harrison2, Marco Pavone3 (2019). "Learning Sampling Distributions for Robot Motion Planning"
[28] Liam Schramm, Abdeslam Boularias (2022). "Learning-Guided Exploration for Efficient Sampling-Based Motion Planning in High Dimensions"
[29] Jakob Thumm, Matthias Althoff (2022). "Provably Safe Deep Reinforcement Learning for Robotic Manipulation in Human Environments"
[30] Jinda Cui, Jiawei Xu, David Saldan (2023). "Toward Fine Contact Interactions: Learning to Control Normal Contact Force with Limited Information"
[31] Minoru Sasaki, Joseph Muguro, Fumiya Kitano, Waweru Njeri, Daiki Maeno, Kojiro Matsushita (2023). "Vibration and Position Control of a Two-Link Flexible Manipulator Using Reinforcement Learning"
[32] Matt Zucker, James Kuffner, J. Andrew Bagnell (2008). "Adaptive workspace biasing for sampling-based planners"
[33] Xiao-Li Meng, David van Dyk (1997). "The EM Algorithm-An Old Folk¬Song Sung to a Fast New Tune"
[34] Thomas Fridolin Iversen, Lars-Peter Ellekilde (2016). "Kernel density estimation based self-learning sampling strategy for motion planning of repetitive tasks"
[35] Peter Lehner, Alin Albu-Schaffer (2017). "Repetition sampling for efficiently planning similar constrained manipulation tasks"
[36] Peter Lehner, Maximo A. Roa, Alin Albu-Schaffer (2022). "Kinematic Transfer Learning of Sampling Distributions for Manipulator Motion Planning"