Введение 4
Постановка задачи 6
Обзор литературы 7
1. Глава 1. Анализ предметной области 8
1.1. Форма из текстуры 8
1.2. Форма из тени 9
1.3. Глубокое обучение 11
2. Глава 2. Анализ и сравнение 13
2.1. Анализ 13
2.2. Детектирование объектов 13
2.2.1. Faster R-CNN (Region-based Convolutional Neural Networks) 13
2.2.2. SSD (Single Shot Multibox Detector) 16
2.2.3. YOLO (You Only Look Once) 17
2.2.4. Выбор 18
2.3. Реконструкция трёхмерной модели 19
2.3.1. 3D-R2N2: 3D Recurrent Reconstruction Neural Network 19
2.3.2. AtlasNet: A Papier-Mache Approach to Learning 3D Surface Generation 21
2.3.3. Выбор 23
3. Глава 3. Разработка 24
3.1. Проектирование 24
3.2. Реализация 25
3.3. Результаты 26
3.3.1. Метрика 27
Выводы 29
Заключение 30
Список литературы 31
Множество объектов окружают человека в реальном мире. У них разнятся форма, структура, цвет, размер. И, хотя, человек умеет взаимодействовать с всеми различными типами объектов, современные роботизированные системы весьма ограничены в этом плане. У роботизированных систем существует четкий набор инструкций при работе с предметами той или иной формы. Этим набором инструкций и ограничивается область применения конкретной системы. Умение же анализировать объект позволило бы расширить область применения той или иной роботизированной системы. Более того, так как взаимодействие с объектом происходит в трёхмерном пространстве, то и анализировать форму тоже необходимо в трёх измерениях.
Направление в компьютерном зрении, которое связано с этой задачей называется ’’Трёхмерная реконструкция”. Вообще говоря, область применения решений в данном направлении гораздо шире, нежели взаимодействие роботизированных систем с реальным миром. Как пример, можно рассмотреть задачу взаимодействия с предметами в дополненной реальности, трёхмерную реконструкцию человеческого тела, детальную оценку дорожной ситуации.
Есть множество способов реконструкции трёхмерных моделей и они в корне различаются. Выделяют два основных набора методов при реконструкции: активные и пассивные.
Активные методы подразумевают исследование объектов с помощью использования определённого излучения, направленного на объект, а затем считывания данных, отразившихся от объекта. Например: структурное освещение, лазерные дальномеры, лидары, радиоизлучения, ультразвуковые волны, микроволновые излучения и так далее. Однако для этого необходимо специфическое оборудование, что, несомненно, является минусом данного подхода.
Пассивные же методы не производят никакого воздействия на объект, они лишь используют набор датчиков для измерения естественного излучения, отражаемого объектом. Типичным примером являются матрицы камер. При использовании камер выделяют бинокулярные и монокулярные схемы.
В первом случае используется стереопара из двух камер. Используя два ракурса, строится карта глубины снятой сцены [9]. Имея карту глубины, получается 2.5 мерное пространство. Используя 2.5 мерное представление объекта, с помощью методов глубокого обучения получается полноценная трёхмерная модель [6][12].
Во втором случае, при использовании одной камеры, принцип реконструкции состоит в том, чтобы отснять набор кадров объекта с разных ракурсов, либо заснять интересующий объект на видео, чтобы в дальнейшем реконструировать объект из набора изображений[20]. Относительно новым подходом является реконструкция объекта по единственному монокулярному изображению.
Существует множество решений, позволяющих реконструировать трёхмерную модель по одному изображению, однако ни одно из этих решений не реализует принцип, позволяющий извлекать несколько трёхмерных моделей из одного изображения реального мира.
Разработанное решение выполняет поставленные задачи, однако оно очень чувствительно к фону извлекаемого объекта, а так же к пересечениям извлекаемого объекта с другими объектами. Это накладывает ограничения на область его применения. Проблема кроется в архитектурных особенностях сети AtlasNet, а так же в типе данных, на которых эта сеть обучалась. Изображения, подаваемые на вход при обучении были ’’идеальной версией” трёхмерных объектов, которые они представляли, с простым фоном, без наложений других объектов, под определёнными углами и так далее. Решением этой проблемы является модификация принципа генерации двумерных представлений трёхмерных объектов в угоду фотореалистичному качеству и построениям сложных сцен из реального мира, а так же внедрение дополнительного модуля, выполняющего семантическую сегментацию в процесс тестирования, для того чтобы с более высокой точностью определять границы объекта и тем самым увеличить точность реконструкции.
[1] 3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction / Christopher B Choy, Danfei Xu, JunYoung Gwak et al. // Proceedings of the European Conference on Computer Vision (ECCV). — 2016.
[2] AtlasNet: A Papier-Mache Approach to Learning 3D Surface Generation / Thibault Groueix, Matthew Fisher, Vladimir G. Kim et al. // CoRR. — 2018. — Vol. abs/1802.05384. — 1802.05384.
[3] AtlasNet: A Papier-Mache Approach to Learning 3D Surface Generation / Thibault Groueix, Matthew Fisher, Vladimir G. Kim et al. // Proceedings IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). - 2018.
[4] Belhumeur Peter, Kriegman David, Yuille A.L. The bas-relief ambiguity. — Vol. 3. — 1997. — 01. — P. 1060-1066.
[5] Brooks. M. Two results concerning ambiguity in shape from shading. // AAAI-83. — 1983. — P. 36-39.
[6] Estellers V., Schmidt F., Cremers D. Robust Fitting of Subdivision Surfaces for Smooth Shape Analysis // Proc. of the Int. Conference on 3D Vision (3DV). - 2018. - September.
[7] A Faster Pytorch Implementation of Faster R-CNN / Jianwei Yang, Jiasen Lu, Dhruv Batra, Devi Parikh // https://github.com/jwyang/faster-rcnn.pytorch. — 2017.
[8] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks / Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun // CoRR.-2015.-Vol. abs/1506.01497. - 1506.01497.
[9] Hartley R. I., Zisserman A. Multiple View Geometry in Computer Vision.— Second edition.— Cambridge University Press, ISBN: 0521540518, 2004.
[10] ImageNet: A Large-Scale Hierarchical Image Database / J. Deng, W. Dong, R. Socher et al. // CVPR09. - 2009.
[11] Learning a Predictable and Generative Vector Representation for Objects / Rohit Girdhar, David F. Fouhey, Mikel Rodriguez, Abhinav Gupta // CoRR.— 2016.— Vol. abs/1603.08637. — 1603.08637.
[12] Motion Cooperation: Smooth Piece-Wise Rigid Scene Flow from RGB- D Images / M. Jaimez, M. Souiai, J. Stueckler et al. // Proc. of the Int. Conference on 3D Vision (3DV). — 2015. — .
[13] ObjectNet3D: A Large Scale Database for 3D Object Recognition / Yu Xiang, Wonhui Kim, Wei Chen et al. // European Conference Computer Vision (ECCV). — 2016.
[14] Oliensis. J. Shape from shading as a partially well-constrained problem. // CVGIP: Image Understanding.— 1991.— P. 54(2):163- 183.
[15] Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling / Xingyuan Sun, Jiajun Wu, Xiuming Zhang et al. // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2018.
...