Тип работы:
Предмет:
Язык работы:


Алгоритмы машинного обучения в задаче реконструкции трехмерных объектов

Работа №126312

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы31
Год сдачи2021
Стоимость4850 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
55
Не подходит работа?

Узнай цену на написание


Введение 4
Цели и задачи ВКР 7
Обзор литературы 8
Глава 1. Нейронные сети в задачах компьютерного зрения 10
§1. Машинное обучение 10
§2. Архитектура и принципы обучения многослойного персептрона 11
§3. Архитектура автокодировщика 12
§4. Сверточные сети 13
§5. U-net 14
§6. ResNet 15
Глава 2. Задача реконструкции трехмерных объектов из одинарных изображений 17
§1. Математическая постановка задачи 17
§2. Набор данных 17
§3. MarrNet 18
§4. Оценка работы сети 23
Глава 3. Практическая реализация и эксперимент 25
§1. Программное обеспечение 25
§2. Эксперимент 26
Заключение 29
Список литературы 30

Задача реконструкции объемных объектов уходит корнями в 60-е годы прошлого века, когда только начинали исследоваться возможности компьютеров по работе с трехмерной графикой. А когда в конце 80-х — начале 90-х годов индустрии кино и видеоигр стали движущим механизмом в развитии компьютерной графики, проблема реконструкции трехмерных объектов получила новый толчок.
Если необходимо представить с помощью графики некий объект, существующий в реальном мире, то обычно этим занимаются определенные специалисты — художники по 3D (3D Artist) — которые строят трехмерную модель полагаясь на фотографии или иные изображения объекта. Однако работа эта довольно сложная и трудоемкая. Очевидно возникает идея автоматизации данного процесса или хотя бы его части. Отсюда и появляется задача реконструкции.
Классические методы решения этой задачи строятся в основном на геометрических принципах. Имея множественные двумерные представления объекта (фотографии), описывающие его с разных ракурсов и зная при этом точную информацию о конкретных ракурсах, а также настройках камеры, таких как например фокусное расстояние (определяющее по большей части угол обзора), мы можем, строить проекции наших изображений на трехмерное пространство, как бы проекция за проекцией высекая нужную нам форму. Один из таких подходов сформулирован в [1].
Человек, однако, может представить форму объекта, увидев его всего раз, с одного ракурса. Мы способны на это благодаря большому опыту взаимодействия с разнообразными вещами. Когда мы видим какой-то предмет, то сразу ассоциируем его с другими подобными предметами, которые нам приходилось видеть в течение жизни, и таким образом можем представить форму объекта, а также предположить, как этот объект будет выглядеть с другого ракурса.
Когда речь идет о решении подобных задач, которые человек выполняет с легкостью, несмотря на то, что строго алгоритмически задать их решения будет крайне проблематично, на помощь нам приходят методы машинного обучения.
На данный момент существует множество хорошо изученных и показывающих впечатляющие результаты, методов решения разнообразных задач обработки обычных, двумерных изображений, основанных на глубоком обучении (задача классификации, сегментации и т. п.) Соответственно, используя глубинные нейронные сети, мы можем легко обрабатывать входные изображения объемных объектов. Однако, выходной результат существующих алгоритмов обычно имеет вид числовых векторов, либо таких же двумерных изображений. И потому перед нами стоит задача построения трехмерных представлений, удобных для восприятия нейронной сетью, а также модификации существующих методов для получения возможности работы с этими представлениями.
Любая задача машинного обучения начинается с набора данных. В нашем случае, началом эры нейросетевой реконструкции можно считать 2015 год, дату публикации ShapeNet [2] — первого набора данных для работы с объемными объектами.
Первой серьезной работой в этой области можно считать 3D-R2N2 [3] — архитектура рекуррентной сверточной сети, представленная в 2016. На тот момент архитектура показывала state-of-the-art результат и до сих пор современные подходы сравниваются с ней по эффективности.
Также были и другие, относительно успешные на момент создания, подходы решения задачи. В их числе GAN архитектуры [4] — например 3D-VAE-GAN [5].
Другим популярным решением является разработанный в 2017 году принцип дифференцируемой согласованности лучей (differentiable ray consistency, DRC) [6]. Авторы этой работы предложили новый способ оценки согласованности двумерного и трехмерного представления объектов, что дало прирост эффективности.
Долгое время лучшим решением задачи реконструкции 3D объектов из изображений считался подход, использующий промежуточные, псевдотрехмерные наброски, в частности, предложенная в 2017 году архитектура MarrNet [7], усовершенствованная в 2018 году [8].
Однако на данный момент существуют и более эффективные подходы к решению задачи, например [9], в этой работе будет использоваться именно архитектура MarrNet так как при относительной эффективности работы, она не требует таких же трудозатрат, а также настолько серьезных вычислительных ресурсов, как более поздние решения.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной выпускной квалификационной работы были выполнены:
1. Выбор набора данных для решения поставленной задачи. Был выбран набор Pix3D [8] так как он является относительно свежим и собранным специально для решения задачи, рассматриваемой в работе.
2. Предобработка данных из набора. Данные, включенные в набор, были недостаточными для реализации выбранного метода решения задачи. Набор был дополнен псевдо-трехмерными набросками. Также все данные были приведены к формату, оптимальному для восприятия нейросетевой моделью, использованной для решения задачи.
3. Разработка и реализация нейросетевой модели для решения задачи. На основе изученных работ посвященных рассматриваемой задаче, была разработана и реализована нейросетевая модель, которая впоследствии была модифицирована самостоятельно для повышения эффективности обучения и точности получаемого результата.
4. Обучение нейросетевой модели. Было проведено обучение разработанной модели с использованием обработанных данных из набора.
5. Оценка и анализ работы решения. Была оценена эффективность обучения и точность выдаваемых нейросетевой моделью результатов. Анализ этих показателей помог оптимизировать и модифицировать архитектуру сети, а также параметры обучения, что в конечном итоге позволило добиться достаточно хороших результатов.


1. A. Laurentini, “The visual hull concept for silhouette-based image understanding,” IEEE TPAMI, vol. 16, no. 2, pp. 150-162, 1994.
2. A. X. Chang, T. Funkhouser, L. Guibas, P. Hanrahan, Q. Huang, Z. Li, S. Savarese, M. Savva, S. Song, H. Su et al., “Shapenet: An information-rich 3D model repository” arXiv:1512.03012, 2015.
3. C. B. Choy, D. Xu, J. Gwak, K. Chen, and S. Savarese. 3d-r2n2: A unified approach for single and multi-view 3d object reconstruction. In ECCV, 2016
4. I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio, “Generative Adversarial Nets,” in NIPS, 2014, pp. 2672-2680.
5. J. Wu, C. Zhang, T. Xue, W. T. Freeman, and J. B. Tenenbaum. Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling. In NIPS, 2016.
6. S. Tulsiani, T. Zhou, A. A. Efros, and J. Malik. Multi-view supervision for single-view reconstruction via differentiable ray consistency. In CVPR, 2017
7. J. Wu, Y. Wang, T. Xue, X. Sun, W. T. Freeman, and J. B. Tenenbaum. MarrNet: 3D Shape Reconstruction via 2.5D Sketches. In NIPS, 2017.
8. X. Z. Xingyuan Sun, Jiajun Wu and Z. Zhang, “Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling” in IEEE CVPR, 2018.
9. L. Mescheder, M. Oechsle, M. Niemeyer, S. Nowozin, A. Geiger, “Occupancy Networks: Learning 3D Reconstruction in Function Space”, CoRR, 2020.
10. Xian-Feng Han, Hamid Laga, Mohammed Bennamoun, “Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era”, IEEE, 2019.
11. K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition”, IEEE CVPR, 2016.
12. Diederik P. Kingma and Jimmy Ba, “Adam: A Method for Stochastic Optimization”, ICLR, 2015.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ