Введение 5
1. Постановка задачи и терминология 6
1.1. VO и SLAM 6
1.2. Предварительные сведения 7
1.2.1. Группы Ли SO(3), SE(3), Sim(3) 7
1.2.2. Пространство изображения и связанные операции 9
1.2.3. Метод наименьших квадратов и оценки максимального правдоподобия 10
2. Алгоритмы VO и VSLAM 12
2.1. Классификация 12
2.2. Методы оценки качества модели 13
2.3. Обзор данных для экспериментов 14
2.3.1. Tum Mono Dataset 15
2.3.2. KITTI Dataset 15
2.3.3. ApolloScape 16
2.3.4. Эксперименты 16
2.4. LSD-SLAM 17
2.4.1. Отслеживание кадров 17
2.4.2. Оценка глубин 19
2.4.3. Sim(3) ограничение и оптимизация карты территории 19
2.4.4. Полученные результаты 20
2.5. Semi-direct Visual Odometry 23
2.5.1. Оценка движения 25
2.5.2. Оценка карты глубин 26
2.5.3. Полученные результаты 28
2.6. Direct Sparse Odometry 28
2.6.1. Полученные результаты 30
3. Анализ результатов 33
3.1. Выводы 34
Заключение 36
Список литературы 37
Одной из фундаментальных задач в сфере мобильных роботов и беспилотных автомобилей является локализация объекта и построение карты окружающей территории. Существует множество подходов к решению этой проблемы с использованием различных технических средств, например, таких, как лазерные установки типа LiDAR [5, 22], IMU [16], GPS, радар [21]. Все они, однако, имеют различные недостатки. Например, технология LiDAR очень дорогая, а GPS имеет огромную погрешность и не может использоваться сама по себе в системах, где требуется большая точность. В связи с этим, большой интерес представляют методы визуальной одометрии, то есть методы, которые используют информацию, захваченную с видеопотока камеры, установленной на объекте. Действительно, камеры имеют низкую стоимость по сравнению с большинством других технических средств, кроме того существуют алгоритмы, способные качественно преобразовывать фотометрическую информацию в информацию о местоположении камеры. Разумеется, и этот способ страдает от многих проблем. Например, плохое освещение может сильно испортить оценку движения, а для корректного сопоставления необходимо доминирование в окружении статичных объектов. Кроме того, существуют фундаментальные геометрические ограничения для определения точного вращения и перемещения камеры по изображениям. Для многих систем, однако, это наиболее многообещающий подход, нередки и его сочетания с использованием других дополнительных датчиков (LiDAR, IMU и т.д.). Кроме того, текущие исследования далеко продвинулись в ослаблении ограничений для применимости этого метода. Настоящая работа, следуя тенденциям, представляет обзор современных подходов визуальной одометрии для монокулярных камер.
В ходе работы удалось разобраться с современными методами в задачах VO, изучить их открытые реализации и найти там ошибки, а так же познакомиться с различными наборами данных, из которых хочется отметить недавно вышедший ApolloScape, так как до этого он не применялся (в литературе) для оценки качества алгоритмов одометрии.
В заключение хочется сказать, что оценка точности методов SLAM и VO является непростой задачей, так как разные алгоритмы работают при разных условиях, и небольшое их нарушение приводит к плачевным результатам. Это в основном касается монокулярных алгоритмов, в то время как алгоритмы, работающие со стереопарой, не столь подвержены сильным колебаниям в качестве.
Также я пришел к выводу, что открытые реализации требуют серьезной доработки для того, чтобы быть использованными реальных задачах.
[1] The ApolloScape Dataset for Autonomous Driving / Xinyu Huang, Xinjing Cheng, Qichuan Geng et al. // arXiv preprint arXiv:1803.06184. — 2018.
[2] Baker Simon, Matthews Iain. Lucas-kanade 20 years on: A unifying framework // International journal of computer vision. — 2004. — Vol. 56, no. 3. — P. 221-255.
[3] Bjorck Ake. Numerical methods for least squares problems. — Siam, 1996.
[4] Civera Javier, Davison Andrew J, Montiel JM Martinez. Inverse depth parametrization for monocular SLAM // IEEE transactions on robotics. — 2008. — Vol. 24, no. 5. — P. 932-945.
[5] Cole David M, Newman Paul M. Using laser range data for 3D SLAM in outdoor environments // Robotics and Automation, 2006. ICRA 2006. Proceedings 2006 IEEE International Conference on / IEEE. — 2006. — P. 1556-1563.
[6] Eigen alignement and allocation issues.
[7] Engel Jakob, Cremers Daniel. LSD-SLAM: Large-scale direct monocular SLAM. — 2014.
[8] Engel J., Koltun V., Cremers D. Direct Sparse Odometry // ArXiv e-prints. - 2016. - 1607.02565.
[9] Engel Jakob, Stuckler Jorg, Cremers Daniel. Large-scale direct SLAM with stereo cameras // Intelligent Robots and Systems (IROS), 2015 IEEE/RSJ International Conference on / IEEE.— 2015.— P. 19351942.
[10] Engel Jakob, Sturm Jurgen, Cremers Daniel. Semi-dense visual odometry for a monocular camera // Computer Vision (ICCV), 2013 IEEE International Conference on / IEEE. — 2013. — P. 1449-1456.
[11] Engel Jakob, Usenko Vladyslav, Cremers Daniel. A photometrically calibrated benchmark for monocular visual odometry // arXiv preprint arXiv:1607.02555. — 2016.
[12] Forster Christian, Pizzoli Matia, Scaramuzza Davide. SVO: Fast SemiDirect Monocular Visual Odometry // IEEE International Conference on Robotics and Automation (ICRA). — 2014.
[13] Geiger Andreas, Lenz Philip, Urtasun Raquel. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite // Conference on Computer Vision and Pattern Recognition (CVPR).— 2012.
[14] Hartley Richard, Zisserman Andrew. Multiple view geometry in computer vision. — Cambridge university press, 2003.
[15] Hertzberg Christoph. A framework for sparse, non-linear least squares problems on manifolds // UNIVERSITAT BREMEN / Citeseer. — 2008.
...