Введение 3
Обзор литературы 5
Постановка задачи 6
Глава 1. Архитектуры нейронных сетей для построения карт глубин 7
1.1. Сверточные нейронные сети 7
1.2. Капсульные нейронные сети 9
Глава 2. Программная реализация 14
2.1 Построение модели 14
2.2 Результаты 15
Выводы 17
Заключение 18
Список литературы 19
В последние десятилетия наблюдается существенный прогресс в построении трехмерной модели сцены по набору изображений или видеоряду. Эти работы стали востребованы в связи с необходимостью наполнения систем виртуальной реальности данными из реальных сцен.
Так, например, при создании фильмов все чаще прибегают к 3D- моделированию. С помощью камер и датчиков воссоздается модель сцены и накладываются на нее эффекты, что гораздо быстрее, чем создание модели с нуля. Однако область применения 3D-реконструкции обширна и не ограничивается кинематографом. Сюда входит робототехника, археология, медицина, машиностроение, архитектура, дизайн. Также все чаще при создании анимации в компьютерных играх прибегают к 3D-моделированию реальных сцен и людей.
Все это делает задачу восстановления трехмерной модели по набору изображений одной из основных в области компьютерного зрения. На сегодняшний день представлено множество различных решений. В простейшем случае, модель может представлять из себя набор точек трехмерного пространства. Более же сложные методы строят полную трехмерную модель.
Существует два класса методов для решения данной задачи. Активные методы используют вспомогательные оборудования: различные 3D-сенсоры, - датчики, -сканеры, лазерные дальномеры. Все эти приспособления стоят очень дорого и могут быть применены не везде, но дают точный результат. Пассивные же методы не требуют больших материальных затрат и основаны на обработке изображений, полученных с одной или нескольких камер.
Пассивные методы различают по ограничениям, которые накладываются на входные данные. Это может быть стереопара изображений, видеоряд с движущейся в пространстве камерой или, наоборот, со статической камерой, но обязательно движущимся объектом. Рассмотрим пассивный метод построения трехмерных моделей по одному изображению с применением нейронных сетей.
Один из самых простых способов решения данной задачи подразумевает использование уже готовых 3D-моделей различных объектов, которые могут встречаться на фотографиях сцен. Главная задача состоит в том, чтобы определить какие именно объекты изображены на фотографии, и как они расположены в пространстве.
Таким образом, основными этапами метода являются:
• Семантическая сегментация.
• Построение карты глубин.
Семантическая сегментация изображения — это разделение изображения на отдельные группы пикселей, области, соответствующие одному объекту с одновременным определением типа объекта в каждой области.
Карта глубины — это изображение, на котором для каждого пикселя, вместо цвета, хранится его расстояние до камеры.
Особенное внимание уделим капсульным нейронным сетям, так как эта архитектура появилась совсем недавно и количество решений различных задач с их применением мало, а результаты превосходят многие известные методы.
В ходе выполнения выпускной работы получены следующие результаты, которые выносятся на защиту:
• Предложена модификация модели капсульной нейронной сети SegCaps для построения карты глубин.
• Реализована программа для обучения модели.
• Проведены тесты и сравнения с другими работами.
1. Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia Pyramid Scene Parsing Network // CVPR 2017.
2. Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang, Jian Sun. Unified Perceptual Parsing for Scene Understanding // Accepted to European Conference on Computer Vision (ECCV) 2018.
3. Ke Sun, Yang Zhao, Borui Jiang, Tianheng Cheng, Bin Xiao, Dong Liu, Yadong Mu, Xinggang Wang, Wenyu Liu, Jingdong Wang High-Resolution Representations for Labeling Pixels and Regions // CVPR 2019.
4. Rodney LaLonde, Ulas Bagci Capsules for Object Segmentation // 1st Conference on Medical Imaging with Deep Learning (MIDL 2018).
5. Olaf Ronneberger, Philipp Fischer, and Thomas Brox U-net: Convolutional networks for biomedical image segmentation // In International Conference on Medical image computing and computer-assisted intervention, pages 234-241. Springer, 2015.
6. Iro Laina, Christian Rupprecht, Vasileios Belagiannis, Federico Tombari, Nassir Navab Deeper Depth Prediction with Fully Convolutional Residual Networks // CVPR 2016.
7. Tinghui Zhou, Matthew Brown, Noah Snavely, David Lowe Unsupervised Learning of Depth and Ego-Motion from Video // CVPR 2017.
8. Clement Godard, Oisin Mac Aodha, Gabriel J. Brostow Unsupervised Monocular Depth Estimation with Left-Right Consistency // CVPR 2017.
9. Jonas Uhrig, Nick Schneider, Lukas Schneider, Uwe Franke, Thomas Brox, Andreas Geiger Sparsity Invariant CNNs // International Conference on 3D Visio 2017.
10. Sunil Prakash, Gaelan Gu Simultaneous Localization And Mapping with depth Prediction using Capsule Networks for UAVs // CVPR 2018.
11. Sara Sabour, Nicholas Frosst, Geoffrey E Hinton Dynamic Routing Between Capsules // CVPR 2017.
12. Nathan Silberman, Derek Hoiem, Pushmeet Kohli and Rob Fergus Indoor Segmentation and Support Inference from RGBD Images // ECCV 2012.
13. Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image // CVPR 2018