ВВЕДЕНИЕ 5
1 Сравнение с другими методами 7
2 Физическая, аудиовизуальная генерирующая модель 8
2.1 Обзор 8
2.1.1 Физический движок 8
2.1.1.1 Bullet Physics Library 9
2.1.2 Графический движок 9
2.1.2.1 Blender 10
2.1.3 Звуковой движок 10
2.1.3.1 Метод конечных элементов 10
3 Столкновение с вибрацией 12
3.1 Решение волнового уравнения 13
3.2 Оффлайн-онлайн разложение 14
4 Набор данных Sound-20K 15
4.1 Формы 15
4.2 Материалы 16
4.3 Сценарии 16
4.4 Набор данных 17
5 Анализ данных 19
6 Восприятие объекта с аудио-визуальными данными 21
6.1 Данные 21
6.1.1 Physics 101 21
6.1.2 Greatest Hits 21
6.2 Методы 22
6.3 Распознавание материалов 24
6.4 Распознавание атрибутов формы 25
7 Переход от синтетических к реальным данным 27
7.1 Распознавание материала по аудио данных 27
7.2 Распознавание атрибутов формы 29
8 Заключение 30
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 31
В настоящее время активно развивается разработка визуального контента и тактильной составляющей виртуальной реальности. Но слуховая часть слабо разрабатывается либо игнорируется, а это 10% восприятия человеческого мозга, и мы теряем возможность полного погружения человека в виртуальную среду.
Для достижения поставленной цели были сформулированы следующие задачи:
1. Изучить ранее применяемые методы.
2. Определить подходы к созданию генерирующей модели.
3. Определить дизайн генерирующей модели.
4. Изучить методы для реализации генерирующей модели.
5. Реализовать генерирующую модель.
6. Оценить результативность методов.
В данной дипломной работе предлагается альтернативный подход к преодолению трудностей в синтезировании аудиовизуальных данных 3D объектов [9]. Синтезированные звуки будут естественно рассеиваться, а также можно генерировать звук каждого объекта независимо. Структура синтеза данных состоит из трех основных генеративных моделей: физический движок, графический движок и звуковой движок. Физический движок принимает формы объектов, свойства материала и начальные условия в качестве входных данных, а затем имитирует их последующие движения и столкновения. Графический движок отображает видео на основе имитируемого движения объекта. Звуковой движок основан на работе линии звуковой симуляции [5]. Он объединяет предварительно вычисленные данные о форме объектов и их столкновения для точного синтеза звука. Основанная на физике модель генератора контрастирует с недавними методами синтеза нейронных звуков [7].
Основной задачей синтеза данных является достижение подлинного звучания. Чтобы синтетический звук был реалистичным, предполагается проводить сравнения синтезированного звука с реальными записями полученных в экспериментальных условиях. Для этого будет использоваться база данных Sound20K.
В результате выполнения дипломной работы был предложен метод использования синтетических аудиовизуальных данных для точной передачи восприятия физических свойств 3D объектов при их столкновении. Использование синтетических данных дает уникальное преимущество: их относительно легко собирать и расширять, и они полностью аннотированы. Так же был выбран основанный на физике дизайн конвейера, который синтезирует реалистичные аудиовизуальные данные в больших масштабах.
В процессе выполнения дипломной работы были решены следующие задачи:
1. Изучены ранее применяемые методы.
2. Определены подходы к созданию генерирующей модели.
3. Определен дизайн генерирующей модели.
4. Изучены методы для реализации генерирующей модели.
5. Реализована генерирующая модель.
6. Оценена результативность методов.
На данный момент реализована генеративная модель, которая способна привязывать аудио файлы к 3D объектам, основываясь на уже сформированных базах данных, созданных в экспериментальных условиях. Поэтому геймдизайнеры и разработчики виртуальной среды ограничены определенным набором данных. Добавление возможности разработчикам вносить свои уникальные аудио файлы для реализации творческих идей в создании более правдоподобного мира может стать отличной идеей для дальнейшего улучшения
1. Bonneel, N., Drettakis, G., Tsingos, N. Viaud-Delmon, I. and James, D. Быстрые модальные звуки с масштабируемым синтезом в частотной области. ACM TOG, 27(3):24. - 2008.
2. Chang, A. X., Funkhouser T., Guibas L., Hanrahan P., Huang Q., Li Z., Savarese S., Savva M., Song S., Su H., et al. Shapenet: информационный репозиторий 3d-моделей. arXiv preprint arXiv:1512.03012. - 2015.
3. Coumans, E. Bullet physics engine. Open Source Software: http://bulletphysics. org, 1. - 2010. - 3 [11]
4. Davis, S. and Mermelstein, P. Сравнение параметрических представлений для распознавания односложных слов в непрерывно произносимых предложениях. IEEE TASSP, 28(4):357-366. - 1980.
5. Director-O’Brien, J. F. Синтезирование звуков от физического движения. In ACM SIGGRAPH 2001 видео обзор по программе анимационного театра, page 59. ACM. - 2001.
6. James D. L., Barbie, J. and Pai, D. K. Предварительно рассчитанная акустическая передача: чувствительная к выходу, точная генерация звука для геометрически сложных источников вибрации. ACM TOG, 25(3):987- 995. - 2006.
7. O’Brien, J. F., Shen, C., and Gatchalian, C. M.. Синтезирующие звуки из моделирования твердого тела. In SCA. - 2002.
8. Owens, A., Isola P., McDermott J., Torralba A., Adelson E. H., and Freeman,
W. T. Визуально обозначенные звуки. In CVPR. - 2016
9. Van den Doel, K. and Pai, D. K. The sounds of physical shapes. Presence: Teleoperators and Virtual Environments, 7(4):382-395. - 1998. - 2 [40]
10. Wu, J., Lim, J. J., Zhang, H., Tenenbaum, J. B. and Freeman W. T. Physics 101: Изучение физических свойств объекта из немаркированных видео. In BMVC. - 2016.
11.Su, H., C. R. Qi, Y. Li, and L. J. Guibas. Render for cnn: Оценка точек обзора в изображениях с использованием cnns, обученных с использованием визуализированных BD-моделей. In ICCV. - 2015.
12. Labelle, F. and J. R. Shewchuk. Isosurface stuffing: быстрые
четырехгранные сетки с хорошими двугранными углами. ACM TOG, 26(3):57. - 2007.
13. Ciskowski, R. D. and Brebbia, C. A. Boundary element meth- ods in acoustics. Springer. - 1991.
14. Fiala, P. and Rucz, P. Nihu: An open source c++ bem library. Advances in Engineering Software, 75:101-112. - 2014.
15. Liu, Y. Метод быстрого многополюсного граничного элемента: теория и приложения в технике. Cambridge university press. - 2009.
16. Gimbutas, L. G. Z. Fmmlib3d. Fortran li- braries for fast multiple method in three dimensions, http://www.cims.nyu.edu/cmcl/fmm3dlib/fmm3dlib.html., 1. - 2011.
17. Hughes, T. J. Метод конечных элементов: линейный статический и динамический анализ конечных элементов. Courier Corporation. - 2012.
18. Fouhey, D. F., Gupta, A. and Zisserman A. 3d shape attributes. In CVPR. - 2016
19. Wu, J., Lim, J. J., Zhang, H., Tenenbaum, J. B. and Freeman, W. T. Physics 101: Learning physical object properties from unlabeled videos. In BMVC. -2016.
20. Davisand, S., Mermelstein, P. Comparisonofparametricrepresentations for monosyllabic word recognition in continuously spoken sentences. IEEE TASSP, 28(4):357-366. - 1980.
21. He, K., Zhang, X., Ren, S. and Sun, J. Deep residual learning for image recognition. In CVPR. - 2016.
22. Aytar, Y., Vondrick, C., and Torralba, A. Soundnet: Learning sound representations from unlabeled video. In NIPS. - 2016.
23.Owens, A., Isola, P., McDermott, J., Torralba, A., Adelson, E. H. and Freeman, W. T. Visually indicated sounds. In CVPR. - 2016.
24. Valenza, E. Blender 2.6 Cycles: Сборник рецептов о материалах и текстурах. - 2013