🔍 Поиск готовых работ

🔍 Поиск работ

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И ПРОГРАММНОЕ РАСПОЗНАВАНИЕ НОТ В ВОКАЛЬНОМ ИСПОЛНЕНИИ

Работа №193893

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы74
Год сдачи2020
Стоимость4820 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
26
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 6
1 Аналитический обзор алгоритмов вычисления частоты основного
тона и вокальных исполнений 9
1.1 Роль частоты основного тона в исследовании речи 9
1.2 Алгоритмы анализа частоты основного тона 13
1.3 Исследование вокальных исполнений 16
2 Распознавание нот в вокальном исполнении 18
2.1 Параметры сегментации и идентификации нот 18
2.2 Применение математической модели слуховой системы человека . .. 21
2.3 Алгоритм распознавания нот в вокальном исполнении 28
2.4 Программный комплекс по определению нот вокального
исполнения 31
3 Оценка точности работы алгоритма распознавания нот в вокальном
исполнении 37
3.1 Эксперимент по распознаванию нот в вокальном исполнении 37
3.2 Определение частоты ошибок алгоритма распознавания нот 41
3.3 Проверка корректности экспертных оценок 44
4 Анализ исполнения нот с резким изменением частот основного тона 48
4.1 Влияние резкого изменения частот на точность работы алгоритма . 48
4.2 Анализ вибратоподобных вокальных исполнений 52
4.3 Анализ глиссандирующих переходов в пении 55
4.4 Сравнение скользящего среднего и линейного тренда на участках с
резким изменением частот основного тона 56
4.5 Экспериментальная проверка гипотезы 58
ЗАКЛЮЧЕНИЕ 66
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ


Актуальность темы. Применение программных средств при обучении распространено во многих областях знаний. Однако в сфере обучения вокальному мастерству существующие программы не всегда точно определяют спетую исполнителем ноту. Преподаватель, осуществляя занятия в классе, поочередно осуществляет прослушивание каждого из учеников и дает рекомендации. При таком подходе на начальном этапе обучение проходит длительный период вырабатывания музыкального слуха. Эффект биологической обратной связи полезен в сфере обучения музыкантов, что подводит к необходимости разработки системы распознавания нот с высокой точностью. Существующие коммерческие программы, реализующие функцию обучения пению, отличаются низкой точностью распознавания спетых исполнителем нот.
Исследованием вокализованной речи и сигналов, близким по структуре к пению, занимались такие ученые как М.В. Федотова, Е.В. Жаровская, В.П. Морозов, С.В. Шук, М.С. Агин, С. Лейдон, Дж. Бауэр, С. Ларсон, Э.Б. Абдуллин и др. В качестве ключевой информации, используемой в данных исследованиях, применяется значение частоты основного тона. Основной тон содержит в себе информацию об интонационной структуре произнесения, индивидуальности голоса диктора и его эмоциональном состоянии, возрастных и патологических изменениях голосового аппарата. Существующие алгоритмы не позволяют вычислить значение фундаментальной частоты в вокальном исполнении с высокой точностью за счет наличия высокого процента грубых ошибок в них и ограничены узким спектром охватываемых частот. Большинство алгоритмов разрабатывались с целью анализа речевой информации, что накладывает ограничение в виде верхней границы определения ЧОТ, равной 400 Гц. Однако, во время пения частота звучания речевого сигнала может быть гораздо выше, что делает неприменимыми алгоритмы, ограниченные диапазоном для обработки речи. Также неприменимы алгоритмы, обладающие высоким процентом грубых ошибок, для идентификации звучащей ноты. Ошибка в частоте порядка 20% от ее значения может привести к промаху более чем на 3 ноты. Наличие таких ограничений делает неприменимыми существующие решения по идентификации нот в задаче обучения вокалу с помощью программных средств.
Целью магистерской работы является разработка метода идентификации вокализованных участков с резким изменением частоты основного тона сигнала. Данная цель направлена на повышение качества работы программного комплекса распознавания звучащих нот в вокальном исполнении.
Для достижения поставленной цели необходимо было решить следующие задачи:
1) оценить точность работы применяемого алгоритма распознавания нот на аудиозаписях с вокальным исполнением;
2) исследовать временные ряды, полученные из аудиозаписей вокального исполнения с применением вибрато и глиссандо в пении;
3) определить закономерности поведения оценок частот основного тона при исследуемых вокальных техниках;
4) вычислить пороговые значения для идентификации вибрато и глиссандо по оценкам временных рядов.
Объектом исследования данной работы является речевой сигнал вокального исполнения с резким изменением частот основного тона.
Предметом исследования является распознавание эффектов вибрато и глиссандо на основе частоты основного тона вокального исполнения.
Методы исследования. Для решения задач, сформулированных в работе, использовались методы моделирования, системного анализа, цифровой обработки сигналов, математической статистики.
Научная новизна результатов работы и проведенных исследований заключается в следующем:
1) Разработан алгоритм распознавания нот, учитывающий минимальную длительность звучания нот и отличающийся учетом особенностей слуховой системы человека.
2) Предложен метод распознавания вибрато и глиссандо в вокальном исполнении, основанный на применении метода выделения синхронности к скользящему среднему и линейному тренду исследуемого сигнала.
Практическая значимость работы подтверждается использованием полученных в ней результатов для решения практических задач:
- автоматическое определения нот в вокальном исполнении;
- распознавание нот, спетых с применением вибрато или глиссандо.
Апробация работы. Основные положения работы докладывались и обсуждались на следующих конференциях:
- Международная научно-практическая конференция
«Электронные средства и системы управления» (ТУСУР, 2018, 2019);
- XII Всероссийская научная конференция молодых ученых «Наука. Технологии. Инновации» (НГТУ, г. Новосибирск, 2018);
- XVI Международная конференция студентов, аспирантов и молодых ученых «Перспективы развития фундаментальных наук» (г. Томск, 2019, 2020);
- VII молодежная конференция «Математическое и программное обеспечение информационных, технических и экономических систем» (ТГУ, 2019, 2020);
- Томский IEEE семинар «Интеллектуальные системы моделирования, проектирования и управления» (ТУСУР, 2018, 2019).
Структура и объем работы. Магистерская работа содержит введение, 4 главы, заключение и список источников из 61 наименования. Объем работы составляет 73 страницы, в том числе 9 таблиц и 37 рисунков.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В диссертационной работе решена задача повышения качества распознавания звучащих нот в вокальном исполнении за счёт разработки метода идентификации сегментов с резким изменением частоты основного тона.
Произведен обзор существующих методов и алгоритмов распознавания нот, в том числе определения частот основного тона. Было определено, что существующие алгоритмы анализа частоты основного тона неприменимы к вокальным исполнениям по 2 причинам: высокий процент грубых ошибок и ограничение полосы исследования диапазоном до 400 Гц.
Описан алгоритм распознавания нот, состоящий из этапа идентификации нот в каждый момент времени с их последующей сегментацией на основании значения минимальной длительности звучания ноты. В качестве минимальной меры различия в алгоритме был использован учет минимальной длительности звучания ноты.
Программный комплекс анализа вокальных исполнений протестирован на аудиозаписях с различными подходами к вокальному исполнению. Результаты эксперимента показали, что при анализе аудиозаписей вокального исполнения, содержащих исполнения с применением стаккато, легато, арпеджио, крещендо и декрещендо, алгоритм распознал безошибочно не менее 95% нот. Программный комплекс был оценен на предмет частоты ошибок в работе. С вероятностью 0,95 частота возникновения ошибок не превышает 3.3%.
Предложен метод идентификации сегментов с резким изменением частоты основного тона, основанный на применении метода выделения синхронности к оценкам, полученным на основании массива частот основного тона. Экспериментально было определено, что скользящее среднее и линейный тренд для пения с вибратоподобными колебаниями характеризуется синхронностью в диапазоне от 65 до 85%, а глиссандирующие переходы от одной ноты к другой отличаются менее чем на 15%.



1. Kharchenko S.S. Fundamental frequency evaluation subsystem for natural speech rehabilitation software calculation module for cancer patients after larynx resection /Kharchenko S.S., Mescheryakov R.V., Volf D.A., Balatskaya L.N., Choinzonov E.L.// Proceedings - 2015 International Conference on Biomedical Engineering and Computational Technologies, SIBIRCON 2015. - 2015. - P. 197¬200.
2. Балацкая Л.Н. Речевая реабилитация и качество жизни после хирургического лечения больных раком гортани//Сибирский онкологический журнал. - 2003. - № 2. - С. 54-57.
3. Kostuchenko E., Assessment of Syllable Intelligibility Based on Convolutional Neural Networks for Speech Rehabilitation After Speech Organs Surgical Interventions /Kostuchenko E., Novokhrestova D., Pekarskikh S., Shelupanov A., Nemirovich-Danchenko M., Choynzonov E., Balatskaya L.// SPECOM 2019: Speech and Computer. - 2019. - P. 359-369.
4. Dietz J.H. Adaptive rehabilitation in cancer: A program to improve quality of survival // Postrad. Med. -1980. - Vol. 68. - P. 145-163.
5. Федотова М.В. Мелодическая структура восходяще-нисходящего
тона как маркер валлийского акцента в английском языке // Вестник Московского государственного лингвистического университета.
Гуманитарные науки. - 2011. - № 607. - С. 233-244.
6. Жаровская Е.В. Просодические особенности речи молодежи // Филологические науки. Вопросы теории и практики. - 2018. - № 8-1 (86). - С. 95-99.
7. Сокорева Т.В. Роль высотно-мелодического компонента в сохранении и развитии ритмических тенденций // Вестник Московского государственного лингвистического университета. Гуманитарные науки. - 2017. - № 771. - C. 105-117.
8. Жаровская Е.В. Характеристика элементов мелодического рисунка речи // Филологические науки. Вопросы теории и практики. - 2017. - № 7-3 (73). - C. 112-114.
9. Шук С.В. Акустические признаки позитивной и негативной оценки в британском радиорепортаже // Вестник Полоцкого государственного университета. Серия A: Гуманитарные науки. - 2011. - № 10. - C. 78-82.
10. Murthy Y.V.S. , Koolagudi S.G. Classification of Vocal and Non-vocal segments in Audio Clips using Genetic Algorithm based Feature Selection (GAFS) // Expert Systems with Applications. - 2018. - Vol. 106. - P. 77-91.
11. Finley, Michael & Razi, Abolfazl. Musical Key Estimation with Unsupervised Pattern Recognition. // 2019 IEEE 9th Annual Computing and Communication Workshop and Conference (CCWC). - 2019. - P. 401-408.
12. Bader R. Computational Music Archiving as Physical Culture Theory // Computational Phonogram Archiving. Current Research in Systematic Musicology. - Vol 5. - Springer, Cham. - 2019. - P. 3-34.
13. McFee B., Wook K.J., Cartwright M., Salamon J. M., Bittner R., Pablo B. J. Open-Source Practices for Music Signal Processing Research: Recommendations for Transparent, Sustainable, and Reproducible Audio Research // IEEE Signal Processing Magazine. - 2019. - Vol. 36. - P. 128-137.
14. Глазырин Н.Ю. О задаче распознавания аккордов в цифровых звукозаписях // Известия Иркутского государственного университета. Серия: Математика. - 2013. - Т. 6. - № 2. - С. 2-17.
15. Masataka Goto. A real-time music-scene-description system: predominant-F0 estimation for detecting melody and bass lines in real-world audio signals // Speech Communication. - Vol. 43. - Issue 4. - 2004. - P. 311-329.
16. Способин И.В. Элементарная теория музыки. — М.: Музыка, 1968. - 204 c.
17. Тюлин Ю.Н. Краткий теоретический курс гармонии. — М.: Музыка, 1978. - 212 c.
18. Искусство пения: Учебное пособие. — 4-е изд., стер. — СПб.: Издательство «Лань»; Издательство «ПЛАНЕТА МУЗЫКИ», 2019. — 212 с.: ил., ноты. — (Учебники для вузов. Специальная литература).
19. Aronson, Arnold Elvin; Bless, Diane M. Clinical Voice Disorders (4th ed.). New York, NY: Thieme Medical Publishers. - 2009. - 278 p.
20. Фант Г. Анализ и синтез речи / Г. Фант. - Новосибирск: Наука. - 1970. - 306 с.
21. Шарий, Т. В. О проблеме параметризации речевого сигнала в современных системах распознавания речи / Т. В. Шарий // Вшник Донецького нацюнального ушверситету. - Сер. А: Природничi науки. - Вип. 2. - 2008. - С. 536-541.
22. Рабинер Р. Л. Цифровая обработка речевых сигналов / Р. Л. Рабинер, Р. В. Шафер - М.: Радио и связь. - 1981. - 496 с
23. Матвеев Ю.Н., Симончик К.К., Тропченко А.Ю., Хитров М.В. Цифровая обработка сигналов // Учебное пособие: СПбНИУ ИТМО. - 2013. - 166 с.
24. Azarov E. Instantaneous pitch estimation based on RAPT framework / E. Azarov, M. Vashkevich, A. Petrovsky // Proceedings of EUSIPCO'12 — European Signal Processing Conference. - Bucharest, Romania - August 27-31, 2012. — P. 2787-2791.
25. Talkin D. A robust algorithm for pitch tracking (RAPT) // Speech Coding and Synthesis, W. B. Kleijn and K. Paliwal, Eds. New York: Elseviever. - 1995. — P. 495-518.
26. Вашкевич М.И., Азаров И.С., Петровский А.А. Оценка мгновенной частоты основного тона речевого сигнала на основе многоскоростной обработки // Речевые технологии. - 2018. - № 1-2. - С. 12¬24.
27. Gonzalez S. PEFAC — A Pitch Estimation Algorithm Robust to High Levels of Noise / S. Gonzalez, M. Brookes // IEEE/ACM Transactions on Audio, Speech, and Language Processing. - 2014. - Vol. 22. - No.2. - P. 518-530.
28. Гитлин В.Б. Выделение основного тона речи методом SWIPE из сигнала, ограниченного полосой телефонного канала / В.Б. Гитлин, Д.Ю. Вашурин // Речевые технологии. - 2014. - №1. - С. 57-74.
29. De Cheveigne, A., Kawahara, H. YIN, a fundamental frequency estimator for speech and music // The Journal of the Acoustical Society of America. 2002. Vol. 111. [Электронный ресурс]. - Режим доступа: http: //asa. scitation.org/doi/abs/10.1121/1.1458024.
30. Вольф Д.А. Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа: дис. ... канд. техн. наук. - Томск, 2015. - 149 c.
31. Морозов В.П. Компьютерная диагностика вокальной одаренности // Голос и речь. - 2010. - № 1. - С. 81-93.
32. Leydon C., Bauer J.J., Larson C.R. The role of auditory feedback in sustaining vocal vibrato // Acoustical Society of America. - Vol. 114(3). - 2003. - P. 1575-1581.
33. Prame E. Vibrato extent and intonation in professional Western lyric singing // Acoustical Society of America. - Vol. 102(1). - 1997. - P. 616-621.
34. Reddy A., Subramanian U. Singers’ and nonsingers’ perception of vocal vibrato // J. Voice. - Vol. 29(5). - 2015. - P. 603-610
35 Агин М.С. Основные недостатки певческого голоса и речи и пути их преодоления // Голос и речь. - 2011. - № 3. - С. 79-90.
36. Zhang M., Bocko M., Beauchamp J. Measurement and analysis of musical vibrato parameters // Journal of the Acoustical Society of America. - Vol. 137. - 2015. - P. 2404-2404.
37. Leydon C., Bauer J.J., Larson C.R. The role of auditory feedback in sustaining vocal vibrato // Acoustical Society of America. - Vol. 114(3). - 2003. - P. 1575-1581.
38. Морозов В.П., Морозов П.В. Вибрато голоса мастеров вокального искусства // Компьютерные исследования. Вопросы вокального образования методические рекомендации Совета по вокальному искусству для преподавателей вузов и средних спец. учебных заведений. - Санкт-Петербург.
- 2007. - С. 33-45.
39. Абдуллин Э.Б., Чжан И. Анализ причин возникновения вокальной тремоляции и способы её устранения // Вестник кафедры ЮНЕСКО Музыкальное искусство и образование. - 2017. - № 4 (20). - С. 125-131.
40. Michel C., Ruiz M. (2017). The physics of singing vibrato // Physics Education. - Vol. 52 (4). - 2017. - P. 1-6.
41. Fric M., Pavlechova A. Listening evaluation and classification of female singing voice categories // Logopedics Phoniatrics Vocology. - 2019. - P. 1-13.
42. Jansens S., Bloothooft G., De Krom G. Perception and acoustics of emotions in singing // Proceedings of the Fifth European Conference on Speech Communication and Technology, Rhodes, Greece. - Vol. 4. - 1997. - P. 2155-2158.
43. Sundberg J. Acoustic and psychoacoustic aspects of vocal vibrato // Dejonckere PH, Hirano M, Sundberg J, eds. Vibrato. San Diego, Calif: Singular Publishing Group Inc. -1995. - P.35-62.
44. Kotlyar G. M., Morozov V. P. Acoustical correlates of the emotional content of vocalized speech // Sov. Phys. Acoust. - Vol. 22. - 1976. - P. 208-211.
45. Гай В.Е., Утробин В.А., Родионов П.А., Дербасов М.О. Оценка эмоционального состояния человека по голосу с позиций теории активного восприятия // Системы управления и информационные технологии. - 2015. - Т. 59. - № 1-1. - С. 118-122.
46. Nwe T. L., Foo S. W., De Silva L. C. Speech emotion recognition using hidden Markov models // Speech communication. - 2003. - Vol. 41. - No. 4. - P. 603-623.
47. El Ayadi M., Kamel M. S., Karray F. Survey on speech emotion recognition: Features, classification schemes, and databases // Pattern Recognition.
- 2011. -Vol. 44. - No. 3. - P. 572-587.
48. Scherer K., Sundberg J., Fantini B., Trznadel S., Eyben F. The expression of emotion in the singing voice: Acoustic patterns in vocal performance // The Journal of the Acoustical Society of America. - Vol. 142. - 2017. - P. 1805-1815.
49. Томская К.М. Определение метода шкалирования для идентификации нот с помощью частот основного тона / К.М. Томская // Российская наука в современном мире: сборник статей XVI международной научно-практической конференции. - 2018. - С. 88-91.
50. Якимук А.Ю. Исследование работы алгоритма идентификации нот для выбора метода определения границ ноты / А.Ю. Якимук, К.М. Томская // Наука. Технологии. Инновации Сборник научных трудов. В 9-ти частях. Под ред. А.В. Гадюкиной. - 2018. - С. 215-219.
51. Конев А. А. Модель и алгоритмы анализа и сегментации речевого сигнала // Диссертация на соискание ученой степени кандидата технических наук. - Томск: ТУСУР, 2007. - 150 с.
52. Якимук А.Ю. Г енерация фильтров для одновременной маскировки / А.Ю. Якимук // Электронные средства и системы управления: Материалы докладов XIV Международной научно-практической конференции (28-30 ноября 2018 г.): в 2 ч. - Ч. 2. - Томск: В-Спектр, 2018. - С. 29-31.
53. Якимук А.Ю. Распределенный программный комплекс по распознаванию нот / А.Ю. Якимук, М.Д. Холопов // Перспективы развития фундаментальных наук: сборник трудов XVI Международной конференции студентов, аспирантов и молодых ученых (Томск, 23-26 апреля 2019 г.) в 7 томах. Том 7. IT-технологии и электроника / под ред. И.А. Кузиной, Г.А. Вороновой. - Томск: Изд-во Томского политехнического университета, 2019. - С. 125-127.
54. Бондаренко В.П. Обработка речевых сигналов в задачах идентификации / В.П. Бондаренко, А.А. Конев, Р.В. Мещеряков // Известия высших учебных заведений. Физика. 2006. - Т. 49. № 9. - С. 207-210.
55. Конев А.А. Автоматическое распознавание музыкальных нот / А.А. Конев, А.А. Онищенко, Е.Ю. Костюченко, А.Ю. Якимук // Научный вестник Новосибирского государственного технического университета. - 2015. - № 3 (60). - С. 32-47.
56. Yakimuk A.Yu. Applying the principle of distribution in the program
complex for vocal recognition / A.Yu. Yakimuk, A.A. Konev, Yu.V. Andreeva, M.M. Nemirovich-Danchenko // IOP Conf. Series: Materials Science and Engineering. - 2019. - Vol. 597 - P. 012072. doi:10.1088/1757-
899X/597/1/012072.
57. Якимук А.Ю. Алгоритмы анализа частоты основного тона вокального исполнения / А.Ю. Якимук // Научная сессия ТУСУР-2016: материалы Международной научно-технической конференции студентов, аспирантов и молодых ученых, 2016. - С. 245-248.
58. Якимук А.Ю. Исследование надёжности детектора частоты
основного тона голосового сигнала / А.Ю. Якимук // Научная сессия ТУСУР - 2015: Материалы Всероссийской научно-технической конференции
студентов, аспирантов и молодых ученых - Томск: В-Спектр, 2015. - С. 194¬196.
59. Якимук А.Ю. Влияние вибрато на качество распознавания нот в вокальном исполнении / А.Ю. Якимук // Математическое и программное обеспечение информационных, технических и экономических систем: Материалы VII Международной молодежной научной конференции. Сер. "Физико-математическая". - 2019. - С. 215-220.
60. Катаева Е. С. Применение алгоритма выделения синхронности для метеорологических временных рядов/ Е. С. Катаева, Г.М. Кошкин // Известия вузов. Физика. — Т.56, № 9/2. — С.229-231.
61. Катаева Е.С. Применение выделения синхронности для оценки сходства вокальных исполнений / Е.С. Катаева, Ю.Р. Свешникова, А.Ю. Якимук // Информационно-коммуникационные технологии в педагогическом образовании. 2019. № 4 (61). С. 54-58.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ