Введение 4
1. Постановка цели и задач 6
2. Обзор 7
2.1. Алгоритмы сегментации облаков точек 7
2.2. Метрики оценки точности сегментации 12
2.3. Наборы данных 15
2.4. Вывод 16
3. Алгоритм сегметации облаков 17
3.1. Принцип работы алгоритма 17
3.2. Использованные инструменты 18
3.3. Подготовка облака к сегментации 19
3.4. Кластеризация точек 27
4. Экспериментальное исследование 33
4.1. Цель и вопросы эксперимента 33
4.2. Условия эксперимента 33
4.3. Результаты 34
4.4. Вывод 39
Заключение 40
Список литературы 41
В современном мире широкое распространение получили автономные транспортные средства, управление которыми осуществляется без водителя. Такие автомобили планируют движение путем сканирования пространства различными датчиками, анализируя полученную информацию. Популярным компонентом подобной системы датчиков является лидар. Лидар направляет лазерный луч на объект и при отражении получает его обратно, за счет чего вычисляется расстояние до точки. Таким образом, лидар формирует 3В~представление окружающего пространства в виде облака точек. Время суток и погодные условия не оказывают губительное влияние на качество лидарных данных, чего нельзя сказать о снимках камеры. Солнце и уличное освещение создают блики, пасмурная погода и темное время суток делают объекты на фото неразличимыми для механизмов распознавания. В связи с вышеизложенным использование лидара необходимо для получения стабильных данных в любых условиях и, как следствие, для надежной беспилотной навигации.
Для ориентирования автономного средства в пространстве первостепенной задачей является обнаружение и семантическая сегментация объектов в лидарных облаках, то есть разбиение точек на категории в соответствии с их смыслом. Лидарные данные представляют собой десятки тысяч разреженных точек с неравномерной плотностью, поэтому детерменированные алгоритмы не справляются с их обработкой. Для сегментации данных используют нейронные сети, которым для генерации качественных предсказаний необходимы тренировочные данные в виде больших датасетов аннотированных облаков. Ручная разметка требует много средств и времени и не способна охватить все разнообразие географических регионов, множество редких классов объектов, таких как детские коляски и неизвестные животные. Так, в рамках работы была проведена семантическая сегментация облаков одного из самых крупномасштабных наборов данных KITTI. Авторы отмечают, что разметка проводилась не для каждого отдельного разреженного облака, а сразу для нескольких облаков, объединенных в одно плотное. Несмотря на эту оптимизацию, разметка всего набора данных заняла более 1700 часов. В связи с этим возникает необходимость автоматизировать процесс сегментации лидарных облаков для генерации предсказаний объектов на плотном облаке. Это позволит свести процесс ручной сегментации необработанных данных к корректировкам уже готовых предсказаний, что существенно облегчает и снижает затраты на ручную разметку и, как следствие, упрощает генерацию обучающих данных для нейронных сетей. Таким образом, задача сводится к получению предварительной автоматической разметки отдельных объектов в плотных облаках.
Беспилотные средства в совокупности с лидарами оснащены камерами. Изображения с них могут быть сегментированы с помощью нейронных сетей, например SAM, SEEM. Генерируемая ими разметка довольно точна, так как нейронные сети имеют большие коллекции тренировочных снимков c истинной семантической сегментацией. Так как лидарные облака и снимки камеры отражают одно и то же пространство, но в разных форматах, сегментация изображений с камер может быть переиспользована для облаков. Некоторые современные алгоритмы задействуют разметку объектов со снимков вместе с лидарными облаками. Так, например, работы переносят разметку со снимков на отдельные лидарные облака. Другие методы [направлены на изучение дескрипторов для отдельных лидарных облаков, которые содержат полезную для распознавания объектов информацию об изображениях. Однако, оба класса подходов не ориентированы на использование данной разметки для плотного облака, с которым приходится работать разметчикам. Более того, в таком сценарии сегментации доступна информация об изображениях со всей протяженности отснятой траектории, то есть сегментация может быть уточнена за счет объединения предсказаний объекта с различных ракурсов съемки.
В данной работе предлагается алгоритм разметки объектов в плотных облаках точек с использованием информации с изображений и современных подходов для распознавания объектов на них.
При выполнении данной работы были достигнуты следующие результаты.
1. В рамках обзора рассмотрены существующие алгоритмы сегментации облаков точек, метрики для оценки качества их разметки, выявлен ряд наиболее популярных наборов данных для обучения моделей и тестирования решений.
2. Предложен и реализован алгоритм разметки облаков точек на основе сегментации изображений1. Реализован набор модульных тестов, создана система непрерывной интеграции на основе GitHub Actions.
3. Определены оптимальные значения гиперпараметров алгоритма и исследовано их влияние на генерируемую сегментацию.
4. Проведено экспериментальное сравнение разработанного алгоритма с ручной разметкой и существующими алгоритмами кластеризации.
[1] Bogoslavskyi Igor, Stachniss Cyrill. Fast range image-based segmentation of sparse 3D laser scans for online operation // 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) / IEEE. — 2016. — P. 163-169.
[2] Boykov Yuri, Funka-Lea Gareth. Graph cuts and efficient ND image segmentation // International journal of computer vision. — 2006. — Vol. 70, no. 2. —P. 109-131.
[3] Boykov Yuri Y, Jolly M-P. Interactive graph cuts for optimal boundary & region segmentation of objects in ND images // Proceedings eighth IEEE international conference on computer vision. ICCV 2001 / IEEE. — Vol. 1. — 2001. — P. 105-112.
[4] Campello Ricardo JGB, Moulavi Davoud, Sander Jorg. Density-based clustering based on hierarchical density estimates // Pacific-Asia conference on knowledge discovery and data mining / Springer. — 2013. — P. 160-172.
[5] Curved-voxel clustering for accurate segmentation of 3D LiDAR point clouds with real-time performance / Seungcheol Park, Shuyu Wang, Hunjung Lim, U Kang // 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) / IEEE. — 2019. — P. 64596464.
[6] Drive&segment: Unsupervised semantic segmentation of urban scenes via cross-modal distillation / Antonin Vobecky, David Hurych, Ori- ane Simeoni et al. // European Conference on Computer Vision / Springer. — 2022. — P. 478-495.
[7] ElC-OIS: Ellipsoidal Clustering for Open-World Instance Segmentation on LiDAR Data / Wenbang Deng, Kaihong Huang, Qinghua Yu et al. // arXiv preprint arXiv:2303.04351.— 2023.
[8] Geiger Andreas, Lenz Philip, Urtasun Raquel. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite // Conference on Computer Vision and Pattern Recognition (CVPR).— 2012.
[9] Image-to-lidar self-supervised distillation for autonomous driving data / Corentin Sautier, Gilles Puy, Spyros Gidaris et al. // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. — 2022. — P. 9891-9901.
[10] Learning 3D semantic segmentation with only 2D image supervision / Kyle Genova, Xiaoqi Yin, Abhijit Kundu et al. // 2021 International Conference on 3D Vision (3DV) / IEEE. — 2021. — P. 361-372.
[11] Li Rong, Cao Anh-Quan, de Charette Raoul. COARSE3D: ClassPrototypes for Contrastive Learning in Weakly-Supervised 3D Point Cloud Segmentation // arXiv preprint arXiv:2210.01784. — 2022.
[12] Martens Jan, Blut Timothy, Blankenbach Jorg. Cross domain matching for semantic point cloud segmentation based on image segmentation and geometric reasoning // Advanced Engineering Informatics. -2023. — Vol. 57. — P. 102076.
[13] Rozenberszki David, Litany Or, Dai Angela. UnScene3D: Unsupervised 3D Instance Segmentation for Indoor Scenes // arXiv preprint arXiv:2303.14541. — 2023.
[14] SLIC superpixels compared to state-of-the-art superpixel methods / Radhakrishna Achanta, Appu Shaji, Kevin Smith et al. // IEEE transactions on pattern analysis and machine intelligence. — 2012. — Vol. 34, no. 11. — P. 2274-2282.
[15] Scalability in perception for autonomous driving: Waymo open dataset / Pei Sun, Henrik Kretzschmar, Xerxes Dotiwalla et al. // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. -- 2020. -- P. 2446-2454.
... всего 30 источников