Как правило, библиотеки звуковых эффектов состоят из множества засэмплированных звуков, хранящихся в виде несжатых wave файлов. Сэмплы в библиотеке между собой немного отличаются по звуку, чтобы у звукового дизайнера был широкий выбор, поэтому в библиотеке может находиться больше 100 сэмплов. На сегодняшний день существует огромное множество библиотек сэмплов, однако, у звуковых дизайнеров не всегда получается найти подходящий сэмпл для получения необходимого звука, и им приходится записывать собственный. Следует отметить, что процесс записи, например, реальных криков животных, соответствующих множеству ситуаций в видеоиграх, может оказаться очень непростым. Это ведет к потере большого количества ценного времени, а библиотеки сэмплов со временем становятся слишком большими и неорганизованными. Поэтому в видеоиграх крики животных обычно синтезируются и часто адаптируются для производства криков вымышленных существ, открывая широкие возможности в этой области.
В индустрии кино и видеоигр растет спрос на адаптируемые интерактивные звуковые эффекты, характеристики которых могут задаваться звуковыми дизайнерами, которые создают эффекты для фильма, и действиями пользователей, таких как игроки видеоигр. Это мотивировало множество исследований моделей синтеза на основе процедурного аудио.
Звуковые эффекты могут быть синтезированы из небольшого количества стартовых блоков, например, генератора случайных чисел и генератора синусоидальной волны. Таким образом можно создавать огромное количество контрастных звуков, изменяя различные параметры, предоставленные пользователю в физической модели. В статье [1], например, были предприняты попытки воссоздать и тиражировать большое количество сэмплов из библиотеки звуковых эффектов, используя небольшое количество физических моделей синтеза.
В последние годы процедурное аудио разрабатывалось в основном для использования в индустрии компьютерных игр, где память для хранения сэмплов ограничена, а повторение сэмпла, такого, как звук выстрела из оружия, вскоре становится утомительным и нереалистичным. Субъективные тесты, проведенные в статье [2], показали, что 64% пользователей предпочли синтезированные эффекты записанным звукам в простой игре, специально разработанной для теста. С помощью субъективных тестов в статье [3] показано, что физические модели могут быть эффективны при воспроизведении грубых, спектрально плотных звуков, таких как рёв льва, и могут воссоздать реалистичную артикуляцию. На сегодняшний день наиболее полная коллекция физических моделей содержится в книге [4]. Данная работа построена на одной из этих моделей.
Объектом исследования является создание модели синтеза звуковых эффектов вокализации млекопитающих. Предметом является синтез звуковых эффектов вокализации млекопитающих.
Цель данной диссертационной работы заключается в том, чтобы выяснить, является ли синтез достойной альтернативой библиотекам звуковых эффектов, основанным на сэмплах.
Для достижения поставленной цели были сформулированы следующие задачи:
1. Изучение предметной области.
2. Изучение средств синтеза звука.
3. Разработка модели синтеза звука.
4. Оценка и сравнение результативности методов.
В результате выполнения данной диссертационной работы было выяснено, что синтез может являться достойной альтернативой библиотекам звуковых эффектов, основанным на сэмплах.
Для достижения поставленной цели были выполнены следующие задачи:
1. Изучена предметная область.
2. Изучены средства синтеза звука.
3. Разработана модель синтеза звука.
4. Произведены оценка и сравнение результативности методов.
1. Hendry S. and Reiss J. D. Physical Modeling and Synthesis of Motor Noise for Replication of a Sound Effects Library // 129th AES Convention, San Francisco, 2010, 7 p.
2. Wilkinson W. J. and Reiss J. D. A Synthesis Model for Mammalian Vocalisation Sound Effects // 61st Audio Engineering Society Conference: Audio for Games, 2016, 8 p.
3. Bottcher N. and Serafin S. Design and evaluation of physically inspired models of sound effects in computer games // In Proc. of the Audio Engineering Society 35th International Conference, London, 2009, 6 p.
4. Farnell A. Designing sound // Cambridge: MIT Press, 2010, 689 p.
5. Fitch W. T. Production of vocalizations in mammals // Visual Communication 3, 2006, pp. 115-121.
6. Cook P. Identification of Control Parameters in an Articulatory Vocal Tract Model, With Applications to the Synthesis of Singing // Center of computer research in music and acoustic, 1991, 266 p.
7. Taylor A. M. and Reby D. The contribution of source-filter theory to mammal vocal communication research // Journal of Zoology 280, 2010, pp. 221236.
8. Fitch W. Tecumseh, Jurgen Neubauer and Hanspeter Herzel Calls out of chaos: the adaptive significance of nonlinear phenomena in mammalian vocal production // Animal Behaviour 63, 2002, pp. 407-418.
9. Ananthakrishnan, Gopal, et al. An acoustic analysis of lion roars. II: Vocal tract characteristics // Fonetik 2011. Royal Institute of Technology, Stockholm, Sweden, 2011, pp. 5-8.
10. Klemuk, Sarah A., et al. Adapted to roar: functional morphology of tiger and lion vocal folds // PloS one 6.11, 2011, 12 p.
11. Lucero, Jorge C. and Jean Schoentgen Modeling vocal fold asymmetries with coupled van der Pol oscillators // Proceedings of Meetings on Acoustics. Vol. 19. No. 1. Acoustical Society of America, 2013, 8 p.
12. Kelly, John L., and Carol C. Lochbaum Speech synthesis // Proc. Fourth Int. Congr. Acoustics, 1962, рр. 1-4
13. PARO Therapeutic Robot. - Режим доступа: http://www.parorobots.com, свободный.
14. Roger K. Moore A Real-Time Parametric General-Purpose Mammalian Vocal Synthesiser // INTERSPEECH. pp. 2636-2640. San Francisco, 2016.
15. Roger K. Moore and Ben Mitchinson A Biomimetic Vocalisation System for MiRo // Springer International Publishing, pp. 363-374, 2017.
16. P. K. McGregor, Ed., Playback and Studies of Animal Communication // Boston, MA: Springer US, 1992.
17. S. L. Hopp and C. S. Evans Acoustic Communication in Animals // Springer Verlag, 1998.
18. P. J. Rousseeuw and A. M. Leroy Robust Regression and Outlier Detection // New York: Wiley, 1987.
19. J. Worthington, I. S. Young, and J. D. Altringham The relationship between body mass and ventilation rate in mammals // Experimental Biology, vol. 161, pp. 533-536, 1991.
20. E. T. Stathopoulos Oral airflow during vowel production of children and adults // Cleft Palate Journal, vol. 21, no. 4, pp. 277-285, 1984.
21. Y.-T. Wang, J. R. Green, I. S. B. Nip, R. D. Kent, and J. F. Kent Breath group analysis for reading and spontaneous speech in healthy adults // Folia Phoniatrica et Logopaedica, vol. 62, no. 6, pp. 297-302, 2010.
22. N. H. Fletcher A simple frequency-scaling rule for animal communication // Journal of the Acoustical Society of America, vol. 115, no. 5, pp. 2334-2338, 2004.
23. T. Riede and T. Fitch Vocal tract length and acoustics of vocalization in the domestic dog (Canis familiaris) // Journal of Experimental Biology, vol. 202, no. 20, pp. 2859-2867, 1999.
24. W. T. Fitch Vocal tract length and formant frequency dispersion correlate with body size in rhesus macaques // Journal of the Acoustical Society of America, vol. 102, no. 2, pp. 1213-1222, 1997.
25. I. R. Titze Acoustic interpretation of resonant voice // Journal of Voice, vol. 15, no. 4, pp. 519-528, 2001.