Тип работы:
Предмет:
Язык работы:


Распознавание и извлечение 3D-моделей по двумерным изображениям

Работа №125522

Тип работы

Дипломные работы, ВКР

Предмет

программирование

Объем работы33
Год сдачи2019
Стоимость4550 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
66
Не подходит работа?

Узнай цену на написание


Введение 4
Постановка задачи 6
Обзор литературы 7
1. Глава 1. Анализ предметной области 8
1.1. Форма из текстуры 8
1.2. Форма из тени 9
1.3. Глубокое обучение 11
2. Глава 2. Анализ и сравнение 13
2.1. Анализ 13
2.2. Детектирование объектов 13
2.2.1. Faster R-CNN (Region-based Convolutional Neural Networks) 13
2.2.2. SSD (Single Shot Multibox Detector) 16
2.2.3. YOLO (You Only Look Once) 17
2.2.4. Выбор 18
2.3. Реконструкция трёхмерной модели 19
2.3.1. 3D-R2N2: 3D Recurrent Reconstruction Neural Network 19
2.3.2. AtlasNet: A Papier-Mache Approach to Learning 3D Surface Generation 21
2.3.3. Выбор 23
3. Глава 3. Разработка 24
3.1. Проектирование 24
3.2. Реализация 25
3.3. Результаты 26
3.3.1. Метрика 27
Выводы 29
Заключение 30
Список литературы 31

Множество объектов окружают человека в реальном мире. У них разнятся форма, структура, цвет, размер. И, хотя, человек умеет взаи­модействовать с всеми различными типами объектов, современные ро­ботизированные системы весьма ограничены в этом плане. У роботи­зированных систем существует четкий набор инструкций при работе с предметами той или иной формы. Этим набором инструкций и ограни­чивается область применения конкретной системы. Умение же анали­зировать объект позволило бы расширить область применения той или иной роботизированной системы. Более того, так как взаимодействие с объектом происходит в трёхмерном пространстве, то и анализировать форму тоже необходимо в трёх измерениях.
Направление в компьютерном зрении, которое связано с этой зада­чей называется ’’Трёхмерная реконструкция”. Вообще говоря, область применения решений в данном направлении гораздо шире, нежели вза­имодействие роботизированных систем с реальным миром. Как при­мер, можно рассмотреть задачу взаимодействия с предметами в допол­ненной реальности, трёхмерную реконструкцию человеческого тела, де­тальную оценку дорожной ситуации.
Есть множество способов реконструкции трёхмерных моделей и они в корне различаются. Выделяют два основных набора методов при ре­конструкции: активные и пассивные.
Активные методы подразумевают исследование объектов с помо­щью использования определённого излучения, направленного на объ­ект, а затем считывания данных, отразившихся от объекта. Например: структурное освещение, лазерные дальномеры, лидары, радиоизлуче­ния, ультразвуковые волны, микроволновые излучения и так далее. Однако для этого необходимо специфическое оборудование, что, несо­мненно, является минусом данного подхода.
Пассивные же методы не производят никакого воздействия на объ­ект, они лишь используют набор датчиков для измерения естественно­го излучения, отражаемого объектом. Типичным примером являются матрицы камер. При использовании камер выделяют бинокулярные и монокулярные схемы.
В первом случае используется стереопара из двух камер. Исполь­зуя два ракурса, строится карта глубины снятой сцены [9]. Имея карту глубины, получается 2.5 мерное пространство. Используя 2.5 мерное представление объекта, с помощью методов глубокого обучения полу­чается полноценная трёхмерная модель [6][12].
Во втором случае, при использовании одной камеры, принцип ре­конструкции состоит в том, чтобы отснять набор кадров объекта с раз­ных ракурсов, либо заснять интересующий объект на видео, чтобы в дальнейшем реконструировать объект из набора изображений[20]. От­носительно новым подходом является реконструкция объекта по един­ственному монокулярному изображению.
Существует множество решений, позволяющих реконструировать трёхмерную модель по одному изображению, однако ни одно из этих ре­шений не реализует принцип, позволяющий извлекать несколько трёх­мерных моделей из одного изображения реального мира.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Разработанное решение выполняет поставленные задачи, однако оно очень чувствительно к фону извлекаемого объекта, а так же к пересе­чениям извлекаемого объекта с другими объектами. Это накладывает ограничения на область его применения. Проблема кроется в архитек­турных особенностях сети AtlasNet, а так же в типе данных, на кото­рых эта сеть обучалась. Изображения, подаваемые на вход при обу­чении были ’’идеальной версией” трёхмерных объектов, которые они представляли, с простым фоном, без наложений других объектов, под определёнными углами и так далее. Решением этой проблемы являет­ся модификация принципа генерации двумерных представлений трёх­мерных объектов в угоду фотореалистичному качеству и построениям сложных сцен из реального мира, а так же внедрение дополнительного модуля, выполняющего семантическую сегментацию в процесс тестиро­вания, для того чтобы с более высокой точностью определять границы объекта и тем самым увеличить точность реконструкции.


[1] 3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction / Christopher B Choy, Danfei Xu, JunYoung Gwak et al. // Proceedings of the European Conference on Computer Vision (ECCV). — 2016.
[2] AtlasNet: A Papier-Mache Approach to Learning 3D Surface Generation / Thibault Groueix, Matthew Fisher, Vladimir G. Kim et al. // CoRR. — 2018. — Vol. abs/1802.05384. — 1802.05384.
[3] AtlasNet: A Papier-Mache Approach to Learning 3D Surface Generation / Thibault Groueix, Matthew Fisher, Vladimir G. Kim et al. // Proceedings IEEE Conf. on Computer Vision and Pattern Recognition (CVPR). - 2018.
[4] Belhumeur Peter, Kriegman David, Yuille A.L. The bas-relief ambiguity. — Vol. 3. — 1997. — 01. — P. 1060-1066.
[5] Brooks. M. Two results concerning ambiguity in shape from shading. // AAAI-83. — 1983. — P. 36-39.
[6] Estellers V., Schmidt F., Cremers D. Robust Fitting of Subdivision Surfaces for Smooth Shape Analysis // Proc. of the Int. Conference on 3D Vision (3DV). - 2018. - September.
[7] A Faster Pytorch Implementation of Faster R-CNN / Jianwei Yang, Jiasen Lu, Dhruv Batra, Devi Parikh // https://github.com/jwyang/faster-rcnn.pytorch. — 2017.
[8] Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks / Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun // CoRR.-2015.-Vol. abs/1506.01497. - 1506.01497.
[9] Hartley R. I., Zisserman A. Multiple View Geometry in Computer Vision.— Second edition.— Cambridge University Press, ISBN: 0521540518, 2004.
[10] ImageNet: A Large-Scale Hierarchical Image Database / J. Deng, W. Dong, R. Socher et al. // CVPR09. - 2009.
[11] Learning a Predictable and Generative Vector Representation for Objects / Rohit Girdhar, David F. Fouhey, Mikel Rodriguez, Abhinav Gupta // CoRR.— 2016.— Vol. abs/1603.08637. — 1603.08637.
[12] Motion Cooperation: Smooth Piece-Wise Rigid Scene Flow from RGB- D Images / M. Jaimez, M. Souiai, J. Stueckler et al. // Proc. of the Int. Conference on 3D Vision (3DV). — 2015. — .
[13] ObjectNet3D: A Large Scale Database for 3D Object Recognition / Yu Xiang, Wonhui Kim, Wei Chen et al. // European Conference Computer Vision (ECCV). — 2016.
[14] Oliensis. J. Shape from shading as a partially well-constrained problem. // CVGIP: Image Understanding.— 1991.— P. 54(2):163- 183.
[15] Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling / Xingyuan Sun, Jiajun Wu, Xiuming Zhang et al. // IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2018.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ