Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Задача трехмерной реконструкции по одиночному снимку 7
1.1. Общая постановка задачи 7
Глава 2. Методы решения 9
2.1. Критерии выбора архитектуры нейронной сети 9
2.2. Математическое определение Unet 10
2.3. Энкодер 11
2.4. Декодер 13
Глава 3. Набор данных 15
3.1. Критерии выбора обучающего набора данных 15
3.2. Обзор состава датасета 15
3.3. Ограничения датасета 18
Глава 4. Построение архитектуры нейронной сети 22
4.1. Оптимизатор 22
4.2. Инициализатор 23
4.3. Метрики качества 24
4.4. Подбор гиперпараметров 25
4.5. Программная реализация 31
Глава 5. Обучение модели 34
5.1. Доступные аппаратные средства 34
5.2. Процесс обучения 34
Глава 6. Обзор результатов 37
6.1. Визуализация предсказаний 37
6.2. Сравнение результатов 39
Глава 7. Заключение 42
Список литературы 43
В последние годы заметен возрастающий интерес к приобретению модных изделий через Интернет. Динамика онлайн-торговли в натуральном выражении продемонстрировала рост на 104% в 2021 году, на 65% в 2022 году, а для 2023 года прогнозируется увеличение рынка на 33-34% [1]. Тем не менее, несмотря на удобство интернет-шопинга, потребители зачастую испытывают опасения относительно соответствия выбранного на фотографиях товара модного предмета их размерам и стилю. В связи с этим, разработка технологии быстрой и доступной трехмерной реконструкции предметов гардероба может существенно улучшить опыт покупок, трансформировать подход к выбору одежды, а также привлечь новую клиентуру для розничных продавцов.
К тому же, данная технология обладает потенциалом расширения своего применения не исключительно в сфере электронной коммерции, но и в других областях, таких как виртуальная и дополненная реальность, а также компьютерные игры. Трехмерная реконструкция обыденного гардероба способствует оптимизации процесса наполнения открытых игровых миров реалистичными персонажами второго плана, и, в дополнение к этому, предоставляет пользователям возможность индивидуализации их визуального облика.
Ориентированность разрабатываемой технологии на скорость и дешевизну реконструкции является еще одним существенным аспектом, который делает ее привлекательной для широкого круга потенциальных пользователей и секторов применения.
Выбор предметов гардероба в качестве целевых объектов для трехмерной реконструкции в данном исследовании обусловлен несколькими причинами.
• Во-первых, эти объекты представляют собой интересный и сложный пример для реконструкции по одиночному снимку, поскольку они обычно имеют сложные формы и структуры, многовариантные фактуры и материалы.
• Во-вторых стоит отметить, что если модель успешно справляется с такой сложной задачей, как трехмерная реконструкция предметов гардероба, то ее адаптация и дообучение для работы с более простыми объектами не составит большого труда.
Постановка задачи
Целью данной работы является разработка технологии для быстрой и экономически эффективной трехмерной реконструкции элементов повседневного гардероба, с акцентом на работу с ограниченными наборами данных. Задача обладает высокой сложностью, поскольку объекты гардероба часто обладают уникальной и детализированной структурой, что делает реконструкцию особенно требовательной к объемам данных для обучения моделей. Однако, в ходе исследования будет сформулирован подход, позволяющий эффективно обучать модель даже при ограниченном объеме данных.
В ходе проделанных исследований была сформулирована и реализована архитектура нейронной сети, на основе анализа существующих эталонных методов в области трехмерной реконструкции. Разработанная модель способна успешно реконструировать объекты гардероба, обеспечивая при этом приемлемое качество исходя из поставленных задач.
К тому же, в рамках сложившихся ограничений набора данных, а в частности отсутствия в открытом доступе обучающих двумерных изображений, был разработан подход восстановления двумерных обучающих изображений по их трехмерным таргетам, что позволило минимизировать негативное влияние замены реальных данных синтетическими на разработанную модель.
Отдельно стоит отметить, что разработанный подход обладает низкими требованиями к вычислительным ресурсам, что делает его доступным для использования на широком спектре аппаратных платформ. Это открывает возможности для гибкого масштабирования и расширения целевой аудитории пользователей разработанной модели.
Несмотря на геометрическую сложность объектов гардероба, модель продемонстрировала способность к достаточно качественному их предсказанию. Это предоставляет сильный фундамент для дальнейшего обобщения разработанного подхода на другие трехмерные классы объектов.
В сравнении с аналогами, представленный подход характеризуется значительно меньшим количеством параметров, что, тем не менее, не приводит к существенной потере в качестве. Таким образом, результаты работы подтверждают эффективность и перспективность выбранной стратегии в решении задач трехмерной реконструкции.
Весь написанный код можно посмотреть в репозитории на GitHub.
[1] https://www.vedomosti.ru/business/articles/2023/03/23/967746-onlain- prodazhi-v-rossii-po-itogam-2022-goda-uvelichilis. 2023.
[2] Seitz S. M., Curless B., Diebel J., Scharstein D., Szeliski R. «A comparison and evaluation of multi-view stereo reconstruction algorithms». IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2006.
[3] Snavely N., Seitz S. M., Szeliski R. «Photo tourism: Exploring photo collections in 3D». In ACM Transactions on Graphics (TOG). 2006.
[4] Szeliski R. «Computer vision: Algorithms and applications. Springer Science & Business Media». 2010.
[5] Furukawa Y., Ponce J. «Accurate, dense, and robust multi-view stereopsis». IEEE Transactions on Pattern Analysis and Machine Intelligence. 2010.
[6] Newcombe R. A., Lovegrove S. J., Davison A. J. «DTAM: Dense tracking and mapping in real-time». In 2011 International Conference on Computer Vision. 2011.
[7] Connelly B., Eli S., Adam F., Dan B. G. «PatchMatch: A Randomized Correspondence Algorithm for Structural Image Editing». ACM Trans. Graph. 2009
[8] Hoiem D., Efros A. A., Hebert M. «Automatic photo pop-up». ACM SIGGRAPH. 2005
[9] James C., Alan Y. «Manhatten world». In Neural Computation. 2003.
[10] Geiger A., Lenz P., Urtasun R. «Are we ready for autonomous driving? The KITTI vision benchmark suite». IEEE Conference on Computer Vision and Pattern Recognition. 2012.
[11] Keiron O’Shea, Ryan N. «An Introduction to Convolutional Neural Networks». ArXiv e-prints. 2015.
[12] Christopher B. C., Danfei X., Jun Y. G., Kevin C., Silvio S. «3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction». ArXiv e-prints. 2016.
[13] Haozhe X, Hongxun Y, Xiaoshuai S, Shangchen Z, Shengping Z. «Pix2Vox: Context-aware 3D Reconstruction from Single and Multi-view Images». ArXiv e-prints. 2019.
[14] Jiajun W., Chengkai Z., Tianfan X., William T. F., Joshua B. T. «Learning a Probabilistic Latent Space of Object Shapes via 3D Generative-Adversarial Modeling». NeurIPS. 2016
[15] O. Ronneberger, P. Fischer, T. Brox «U-Net: Convolutional Networks for Biomedical Image Segmentation». ArXiv e-prints. 2015.
... всего 22 источников