Тип работы:
Предмет:
Язык работы:


Применение style-transfer моделей для генерации искусственных данных в задаче генерации 3D-моделей персонажей по скетч рисункам

Работа №127710

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы32
Год сдачи2022
Стоимость4225 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
11
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
1. Обзор предметной области 6
2. Описание исходных данных 9
3. Применение существующих моделей 12
3.1. Cycle Gan 13
3.2. Contrastive Unpaired Translation 16
3.3. UGATIT 19
3.4. AdaIn 21
3.5. StyTr2 24
4. Применение искусственных данных в задаче определения 2D позы 26
Заключение 30
Список литературы

В наши дни трудно представить себе человека, который не пользуется какими-либо электронными устройствами. Несмотря на это, нам важны не устройства сами по себе, а скорее контент, доступ к которому они предоставляют. Этот контент может принимать различные формы, однако наиболее часто он представляется в виде визуальной информации. Большую часть подобного рода информации можно отнести к тем или иным разновидностям компьютерной графики.
Производство графики представляет собой комплексный процесс. В первую очередь на свет появляются концепты и наброски, представляющие собой первое видение будущего произведения или его части. По существующим концепт-артам создаются 3D модели. 3D-художник вручную переносит содержание двумерного изображения в трехмерное пространство. На построенную модель накладываются текстуры. В зависимости от формы и содержания конечного продукта в пайплайн может добавиться труд аниматоров, скульпторов, риггеров и других специалистов.
^здание трехмерной компьютерной графики является длительным и дорогим процессом, включающем в себя труд множества людей.
В настоящее время существуют различные разновидности программного обеспечения, стремящиеся облегчить труд цифровых художников. К ним относятся пакеты для 3D моделирования, скульптинга, текстурирования и другие. Большинство из них можно настроить с помощью различных плагинов и сделать процесс работы с 3D более удобным.
В связи с быстрым развитием методов, основанных на анализе данных, логично попытаться применить их к задачам, решаемым в процессе создания компьютерной графики. В частности, попытаться внедрить нейронные сети в пайплайн создания 3D модели или анимации для того, чтобы освободить художника от рутинных задач.
Однако данный подход встречается с некоторыми трудностями на своем пути к реализации: для обучения моделей, основанных на анализе данных, требуется большое количество этих самых данных. К сожалению, для решения задач, связанных с обработкой рисунков с человекоподобными персонажами существует мало размеченных наборов данных. Это оправдано, так как для получения разметки по рисункам в большинстве случаев необходим труд профессионалов. Например в задаче реконструкции позы персонажа по рисунку для каждого элемента данных необходимо провести ручную реконструкцию позы, что, в свою очередь, является довольно трудоемким процессом, который подвластен не каждому.
Не стоит забывать, что при рисовании художники не используют точные математические измерения для ортографической или перспективной проекции, вместо этого полагаясь на свой опыт и эмпирические правила [16, 36]. В связи с этим художники часто искажают пропорции конечностей и используют нелинейную перспективу [32]. Кости персонажей часто выходят за пределы своей нормальной длины на рисунках из-за неточностей рисунка или художественной лицензии [36, 16, 34]. Все это не позволяет использовать искусственные данные в необработанном формате, сгенерированные как есть.
В данной работе мы хотим преодолеть ограничения, накладываемые на применение нейронных сетей в работе с реалистичными изображениями, путем создания искусственных данных на основе существующих 3D-моделей [2]. Эти искусственные данные должны, быть похожи на реальные рисунки, чтобы затем на них имело смысл проводить обучение нейронных сетей для решения различных задач, требующих размеченных датасетов. Для создания датасета предлагается воспользоваться современными моделями переноса стиля между изображениями [14]. Перенос стиля позволит нам использовать обширные базы с 3D моделями для создания правдоподобных набросков с соответствующими им разметками, полученными непосредственно из 3D моделей.
Предполагается исследовать применимость подобного подхода к генерации искусственных данных в задаче реконструкции 2D скелета персонажа по рисунку. В связи с тем, что персонажи на рисунках часто имеют нереалистичные или сильно искаженные пропорции также мы хотим сравнить методы переноса стиля с применением пространственных аугментаций.
Постановка задачи
Целью данной работы является поиск метода генерации искусственных данных, подражающих наброскам реальных художников. Получение правдоподобных набросков предполагается осуществлять с помощью нейросетевых моделей переноса стиля [14]. Помимо этого предполагается оценить полезность использования сгенерированных данных как аугментации при решении задачи реконструкции 2D позы по изображениям. Для достижения поставленной цели требуется решить следующие задачи.
• Изучить существующие подходы для генерации правдоподобных на-бросков.
• Собрать датасет отрендеренных 3D моделей с сохранением информации о скелете.
• Рассмотреть популярные методы переноса стиля и применить их к отрендеренным изображениям для имитации стиля набросков.
• Рабочие методы из предыдущей задачи использовать для создания да- тасета правдоподобных скетчей.
• Оценить качество полученных датасетов на задаче определения 2D позы.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках работы было изучено несколько архитектур нейронных сетей, позволяющих переносить стиль между изображениями. Эксперименты показали, что генеративно состязательные сети плохо приспособлены для работы с разреженными изображениями, какими являются например наброски.
Были отобраны архитектуры, позволяющие правдоподобно переносить стиль с реальных рисунков на изображения, сгенерированные по трехмерным моделям. Такими архитектурами оказались модели, основанные на специальных слоях, осуществляющих смешивание статистик контента и стиля.
Были собраны наборы данных правдоподобных скетчей с помощью моделей AdaIN и StyTr2с использованием различных стилевых источников. На данных наборах была обучена модель для определения 2D позы персонажа по изображению, которая показала себя не лучше предобученной модели и модели обученной на данных, непосредственно сгенерированных из трехмерных моделей.
Было изучено применение пространственных аугментаций при обучении модели определения 2D позы, которые позволили превзойти качество, полученное на данных без переноса стиля.



[1] Adain repository.https://github.com/naoto0804/pytorch-AdaIN.
[2] Adobe’s mixamo.https://www.mixamo.com/#/.
[3] Albumentations.https://albumentations.ai/.
[4] Coco dataset.https://cocodataset.org/.
[5] Cut repository.https://github.com/taesungp/contrastive-unpaired-translation.
[6] Cyclegan repository.https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix.
[7] K. nichol. painter by numbers, wikiart.https://www.kaggle.com/c/painter-by-numbers.
[8] Style transfer with transformers repository.https://github.com/diyiiyiii/StyTR-2.
[9] Ugatit repository.https://github.com/znxlwm/UGATIT-pytorch.
[10] Blender Online Community. Blender - a 3D modelling and rendering package. Blender Foundation, Stichting Blender Foundation, Amsterdam, 2018. URL:http://www.blender.org.
[11] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei- Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248-255. leee, 2009.
[12] Yingying Deng, Fan Tang, Xingjia Pan, Weiming Dong, Chongyang Ma, and Changsheng Xu. Stytr" 2: Unbiased image style transfer with transformers. arXiv preprint arXiv:2105.14576, 2021.
[13] Mathias Eitz, James Hays, and Marc Alexa. How do humans sketch objects? ACM Trans. Graph. (Proc. SIGGRAPH), 31(4):44:1-44:10, 2012.
[14] Leon A Gatys, Alexander S Ecker, and Matthias Bethge. Image style transfer using convolutional neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2414-2423, 2016.
[15] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde- Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. Advances in neural information processing systems, 27, 2014.
[16] Burne Hogarth. Dynamic Figure Drawing. Watson-Guptill, 1996.
[17] Xun Huang and Serge Belongie. Arbitrary style transfer in real-time with adaptive instance normalization. In Proceedings of the IEEE international conference on computer vision, pages 1501-1510, 2017.
[18] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. Image-
to-image translation with conditional adversarial networks. CoRR,
abs/1611.07004, 2016. URL:http://arxiv.org/abs/1611.07004, arXiv:1611.07004.
[19] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to- image translation with conditional adversarial networks. CVPR, 2017.
[20] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real¬time style transfer and super-resolution. In European conference on computer vision, pages 694-711. Springer, 2016.
[21] Junho Kim, Minjae Kim, Hyeonwoo Kang, and Kwanghee Lee. U- gat-it: Unsupervised generative attentional networks with adaptive layer¬instance normalization for image-to-image translation. arXiv preprint arXiv:1907.10830, 2019.
[22] Kangyeol Kim, Sunghyun Park, Jaeseong Lee, Sunghyo Chung, Junsoo Lee, and Jaegul Choo. Animeceleb: Large-scale animation celebfaces dataset via controllable 3d synthetic models. arXiv preprint arXiv:2111.07640, 2021.
[23] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
[24] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. Advances in neural information processing systems, 25, 2012.
[25] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European conference on computer vision, pages 740-755. Springer, 2014.
[26] Xudong Mao, Qing Li, Haoran Xie, Raymond YK Lau, Zhen Wang, and Stephen Paul Smolley. Least squares generative adversarial networks. In Proceedings of the IEEE international conference on computer vision, pages 2794-2802, 2017.
[27] Taesung Park, Alexei A. Efros, Richard Zhang, and Jun-Yan Zhu. Contrastive learning for unpaired image-to-image translation. In European Conference on Computer Vision, 2020.
[28] Patsorn Sangkloy, Nathan Burnell, Cusuh Ham, and James Hays. The sketchy database: Learning to retrieve badly drawn bunnies. ACM Transactions on Graphics (proceedings of SIGGRAPH), 2016.
[29] Connor Shorten and Taghi M Khoshgoftaar. A survey on image data augmentation for deep learning. Journal of big data, 6(1):1-48, 2019.
[30] Edgar Simo-Serra, Satoshi Iizuka, and Hiroshi Ishikawa. Mastering sketching: adversarial augmentation for structured prediction. ACM Transactions on Graphics (TOG), 37(1):1-13, 2018.
[31] Edgar Simo-Serra, Satoshi Iizuka, Kazuma Sasaki, and Hiroshi Ishikawa. Learning to simplify: fully convolutional networks for rough sketch cleanup. ACM Transactions on Graphics (TOG), 35(4):1-11, 2016.
[32] Karan Singh. A fresh perspective. In Proceedings of the Graphics Interface 2002 Conference, May 27-29, 2002, Calgary, Alberta, Canada, pages 17¬24, May 2002. URL:http://graphicsinterface.org/wp-content/uploads/gi2002-3.pdf.
[33] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep high-resolution representation learning for human pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5693-5703, 2019.
[34] Frank Thomas and Ollie Johnston. The Illusion of Life: Disney Animation. Disney Editions, New York, N.Y., 1st hyperi edition, 1981.
[35] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.
[36] Leo Brodie Walt Stanchfield. Gesture Drawing for Animation. Independently published, 1 edition, 2020.
[37] Changshen Zhao. A survey on image style transfer approaches using deep learning. Journal of Physics: Conference Series, 1453(1):012129, jan 2020. doi:10.1088/1742-6596/1453/1/012129.
[38] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision, pages 2223-2232, 2017.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ