МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И ПРОГРАММНОЕ РАСПОЗНАВАНИЕ НОТ В ВОКАЛЬНОМ ИСПОЛНЕНИИ
|
ВВЕДЕНИЕ 6
1 Аналитический обзор алгоритмов вычисления частоты основного
тона и вокальных исполнений 9
1.1 Роль частоты основного тона в исследовании речи 9
1.2 Алгоритмы анализа частоты основного тона 13
1.3 Исследование вокальных исполнений 16
2 Распознавание нот в вокальном исполнении 18
2.1 Параметры сегментации и идентификации нот 18
2.2 Применение математической модели слуховой системы человека . .. 21
2.3 Алгоритм распознавания нот в вокальном исполнении 28
2.4 Программный комплекс по определению нот вокального
исполнения 31
3 Оценка точности работы алгоритма распознавания нот в вокальном
исполнении 37
3.1 Эксперимент по распознаванию нот в вокальном исполнении 37
3.2 Определение частоты ошибок алгоритма распознавания нот 41
3.3 Проверка корректности экспертных оценок 44
4 Анализ исполнения нот с резким изменением частот основного тона 48
4.1 Влияние резкого изменения частот на точность работы алгоритма . 48
4.2 Анализ вибратоподобных вокальных исполнений 52
4.3 Анализ глиссандирующих переходов в пении 55
4.4 Сравнение скользящего среднего и линейного тренда на участках с
резким изменением частот основного тона 56
4.5 Экспериментальная проверка гипотезы 58
ЗАКЛЮЧЕНИЕ 66
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1 Аналитический обзор алгоритмов вычисления частоты основного
тона и вокальных исполнений 9
1.1 Роль частоты основного тона в исследовании речи 9
1.2 Алгоритмы анализа частоты основного тона 13
1.3 Исследование вокальных исполнений 16
2 Распознавание нот в вокальном исполнении 18
2.1 Параметры сегментации и идентификации нот 18
2.2 Применение математической модели слуховой системы человека . .. 21
2.3 Алгоритм распознавания нот в вокальном исполнении 28
2.4 Программный комплекс по определению нот вокального
исполнения 31
3 Оценка точности работы алгоритма распознавания нот в вокальном
исполнении 37
3.1 Эксперимент по распознаванию нот в вокальном исполнении 37
3.2 Определение частоты ошибок алгоритма распознавания нот 41
3.3 Проверка корректности экспертных оценок 44
4 Анализ исполнения нот с резким изменением частот основного тона 48
4.1 Влияние резкого изменения частот на точность работы алгоритма . 48
4.2 Анализ вибратоподобных вокальных исполнений 52
4.3 Анализ глиссандирующих переходов в пении 55
4.4 Сравнение скользящего среднего и линейного тренда на участках с
резким изменением частот основного тона 56
4.5 Экспериментальная проверка гипотезы 58
ЗАКЛЮЧЕНИЕ 66
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Актуальность темы. Применение программных средств при обучении распространено во многих областях знаний. Однако в сфере обучения вокальному мастерству существующие программы не всегда точно определяют спетую исполнителем ноту. Преподаватель, осуществляя занятия в классе, поочередно осуществляет прослушивание каждого из учеников и дает рекомендации. При таком подходе на начальном этапе обучение проходит длительный период вырабатывания музыкального слуха. Эффект биологической обратной связи полезен в сфере обучения музыкантов, что подводит к необходимости разработки системы распознавания нот с высокой точностью. Существующие коммерческие программы, реализующие функцию обучения пению, отличаются низкой точностью распознавания спетых исполнителем нот.
Исследованием вокализованной речи и сигналов, близким по структуре к пению, занимались такие ученые как М.В. Федотова, Е.В. Жаровская, В.П. Морозов, С.В. Шук, М.С. Агин, С. Лейдон, Дж. Бауэр, С. Ларсон, Э.Б. Абдуллин и др. В качестве ключевой информации, используемой в данных исследованиях, применяется значение частоты основного тона. Основной тон содержит в себе информацию об интонационной структуре произнесения, индивидуальности голоса диктора и его эмоциональном состоянии, возрастных и патологических изменениях голосового аппарата. Существующие алгоритмы не позволяют вычислить значение фундаментальной частоты в вокальном исполнении с высокой точностью за счет наличия высокого процента грубых ошибок в них и ограничены узким спектром охватываемых частот. Большинство алгоритмов разрабатывались с целью анализа речевой информации, что накладывает ограничение в виде верхней границы определения ЧОТ, равной 400 Гц. Однако, во время пения частота звучания речевого сигнала может быть гораздо выше, что делает неприменимыми алгоритмы, ограниченные диапазоном для обработки речи. Также неприменимы алгоритмы, обладающие высоким процентом грубых ошибок, для идентификации звучащей ноты. Ошибка в частоте порядка 20% от ее значения может привести к промаху более чем на 3 ноты. Наличие таких ограничений делает неприменимыми существующие решения по идентификации нот в задаче обучения вокалу с помощью программных средств.
Целью магистерской работы является разработка метода идентификации вокализованных участков с резким изменением частоты основного тона сигнала. Данная цель направлена на повышение качества работы программного комплекса распознавания звучащих нот в вокальном исполнении.
Для достижения поставленной цели необходимо было решить следующие задачи:
1) оценить точность работы применяемого алгоритма распознавания нот на аудиозаписях с вокальным исполнением;
2) исследовать временные ряды, полученные из аудиозаписей вокального исполнения с применением вибрато и глиссандо в пении;
3) определить закономерности поведения оценок частот основного тона при исследуемых вокальных техниках;
4) вычислить пороговые значения для идентификации вибрато и глиссандо по оценкам временных рядов.
Объектом исследования данной работы является речевой сигнал вокального исполнения с резким изменением частот основного тона.
Предметом исследования является распознавание эффектов вибрато и глиссандо на основе частоты основного тона вокального исполнения.
Методы исследования. Для решения задач, сформулированных в работе, использовались методы моделирования, системного анализа, цифровой обработки сигналов, математической статистики.
Научная новизна результатов работы и проведенных исследований заключается в следующем:
1) Разработан алгоритм распознавания нот, учитывающий минимальную длительность звучания нот и отличающийся учетом особенностей слуховой системы человека.
2) Предложен метод распознавания вибрато и глиссандо в вокальном исполнении, основанный на применении метода выделения синхронности к скользящему среднему и линейному тренду исследуемого сигнала.
Практическая значимость работы подтверждается использованием полученных в ней результатов для решения практических задач:
- автоматическое определения нот в вокальном исполнении;
- распознавание нот, спетых с применением вибрато или глиссандо.
Апробация работы. Основные положения работы докладывались и обсуждались на следующих конференциях:
- Международная научно-практическая конференция
«Электронные средства и системы управления» (ТУСУР, 2018, 2019);
- XII Всероссийская научная конференция молодых ученых «Наука. Технологии. Инновации» (НГТУ, г. Новосибирск, 2018);
- XVI Международная конференция студентов, аспирантов и молодых ученых «Перспективы развития фундаментальных наук» (г. Томск, 2019, 2020);
- VII молодежная конференция «Математическое и программное обеспечение информационных, технических и экономических систем» (ТГУ, 2019, 2020);
- Томский IEEE семинар «Интеллектуальные системы моделирования, проектирования и управления» (ТУСУР, 2018, 2019).
Структура и объем работы. Магистерская работа содержит введение, 4 главы, заключение и список источников из 61 наименования. Объем работы составляет 73 страницы, в том числе 9 таблиц и 37 рисунков.
Исследованием вокализованной речи и сигналов, близким по структуре к пению, занимались такие ученые как М.В. Федотова, Е.В. Жаровская, В.П. Морозов, С.В. Шук, М.С. Агин, С. Лейдон, Дж. Бауэр, С. Ларсон, Э.Б. Абдуллин и др. В качестве ключевой информации, используемой в данных исследованиях, применяется значение частоты основного тона. Основной тон содержит в себе информацию об интонационной структуре произнесения, индивидуальности голоса диктора и его эмоциональном состоянии, возрастных и патологических изменениях голосового аппарата. Существующие алгоритмы не позволяют вычислить значение фундаментальной частоты в вокальном исполнении с высокой точностью за счет наличия высокого процента грубых ошибок в них и ограничены узким спектром охватываемых частот. Большинство алгоритмов разрабатывались с целью анализа речевой информации, что накладывает ограничение в виде верхней границы определения ЧОТ, равной 400 Гц. Однако, во время пения частота звучания речевого сигнала может быть гораздо выше, что делает неприменимыми алгоритмы, ограниченные диапазоном для обработки речи. Также неприменимы алгоритмы, обладающие высоким процентом грубых ошибок, для идентификации звучащей ноты. Ошибка в частоте порядка 20% от ее значения может привести к промаху более чем на 3 ноты. Наличие таких ограничений делает неприменимыми существующие решения по идентификации нот в задаче обучения вокалу с помощью программных средств.
Целью магистерской работы является разработка метода идентификации вокализованных участков с резким изменением частоты основного тона сигнала. Данная цель направлена на повышение качества работы программного комплекса распознавания звучащих нот в вокальном исполнении.
Для достижения поставленной цели необходимо было решить следующие задачи:
1) оценить точность работы применяемого алгоритма распознавания нот на аудиозаписях с вокальным исполнением;
2) исследовать временные ряды, полученные из аудиозаписей вокального исполнения с применением вибрато и глиссандо в пении;
3) определить закономерности поведения оценок частот основного тона при исследуемых вокальных техниках;
4) вычислить пороговые значения для идентификации вибрато и глиссандо по оценкам временных рядов.
Объектом исследования данной работы является речевой сигнал вокального исполнения с резким изменением частот основного тона.
Предметом исследования является распознавание эффектов вибрато и глиссандо на основе частоты основного тона вокального исполнения.
Методы исследования. Для решения задач, сформулированных в работе, использовались методы моделирования, системного анализа, цифровой обработки сигналов, математической статистики.
Научная новизна результатов работы и проведенных исследований заключается в следующем:
1) Разработан алгоритм распознавания нот, учитывающий минимальную длительность звучания нот и отличающийся учетом особенностей слуховой системы человека.
2) Предложен метод распознавания вибрато и глиссандо в вокальном исполнении, основанный на применении метода выделения синхронности к скользящему среднему и линейному тренду исследуемого сигнала.
Практическая значимость работы подтверждается использованием полученных в ней результатов для решения практических задач:
- автоматическое определения нот в вокальном исполнении;
- распознавание нот, спетых с применением вибрато или глиссандо.
Апробация работы. Основные положения работы докладывались и обсуждались на следующих конференциях:
- Международная научно-практическая конференция
«Электронные средства и системы управления» (ТУСУР, 2018, 2019);
- XII Всероссийская научная конференция молодых ученых «Наука. Технологии. Инновации» (НГТУ, г. Новосибирск, 2018);
- XVI Международная конференция студентов, аспирантов и молодых ученых «Перспективы развития фундаментальных наук» (г. Томск, 2019, 2020);
- VII молодежная конференция «Математическое и программное обеспечение информационных, технических и экономических систем» (ТГУ, 2019, 2020);
- Томский IEEE семинар «Интеллектуальные системы моделирования, проектирования и управления» (ТУСУР, 2018, 2019).
Структура и объем работы. Магистерская работа содержит введение, 4 главы, заключение и список источников из 61 наименования. Объем работы составляет 73 страницы, в том числе 9 таблиц и 37 рисунков.
В диссертационной работе решена задача повышения качества распознавания звучащих нот в вокальном исполнении за счёт разработки метода идентификации сегментов с резким изменением частоты основного тона.
Произведен обзор существующих методов и алгоритмов распознавания нот, в том числе определения частот основного тона. Было определено, что существующие алгоритмы анализа частоты основного тона неприменимы к вокальным исполнениям по 2 причинам: высокий процент грубых ошибок и ограничение полосы исследования диапазоном до 400 Гц.
Описан алгоритм распознавания нот, состоящий из этапа идентификации нот в каждый момент времени с их последующей сегментацией на основании значения минимальной длительности звучания ноты. В качестве минимальной меры различия в алгоритме был использован учет минимальной длительности звучания ноты.
Программный комплекс анализа вокальных исполнений протестирован на аудиозаписях с различными подходами к вокальному исполнению. Результаты эксперимента показали, что при анализе аудиозаписей вокального исполнения, содержащих исполнения с применением стаккато, легато, арпеджио, крещендо и декрещендо, алгоритм распознал безошибочно не менее 95% нот. Программный комплекс был оценен на предмет частоты ошибок в работе. С вероятностью 0,95 частота возникновения ошибок не превышает 3.3%.
Предложен метод идентификации сегментов с резким изменением частоты основного тона, основанный на применении метода выделения синхронности к оценкам, полученным на основании массива частот основного тона. Экспериментально было определено, что скользящее среднее и линейный тренд для пения с вибратоподобными колебаниями характеризуется синхронностью в диапазоне от 65 до 85%, а глиссандирующие переходы от одной ноты к другой отличаются менее чем на 15%.
Произведен обзор существующих методов и алгоритмов распознавания нот, в том числе определения частот основного тона. Было определено, что существующие алгоритмы анализа частоты основного тона неприменимы к вокальным исполнениям по 2 причинам: высокий процент грубых ошибок и ограничение полосы исследования диапазоном до 400 Гц.
Описан алгоритм распознавания нот, состоящий из этапа идентификации нот в каждый момент времени с их последующей сегментацией на основании значения минимальной длительности звучания ноты. В качестве минимальной меры различия в алгоритме был использован учет минимальной длительности звучания ноты.
Программный комплекс анализа вокальных исполнений протестирован на аудиозаписях с различными подходами к вокальному исполнению. Результаты эксперимента показали, что при анализе аудиозаписей вокального исполнения, содержащих исполнения с применением стаккато, легато, арпеджио, крещендо и декрещендо, алгоритм распознал безошибочно не менее 95% нот. Программный комплекс был оценен на предмет частоты ошибок в работе. С вероятностью 0,95 частота возникновения ошибок не превышает 3.3%.
Предложен метод идентификации сегментов с резким изменением частоты основного тона, основанный на применении метода выделения синхронности к оценкам, полученным на основании массива частот основного тона. Экспериментально было определено, что скользящее среднее и линейный тренд для пения с вибратоподобными колебаниями характеризуется синхронностью в диапазоне от 65 до 85%, а глиссандирующие переходы от одной ноты к другой отличаются менее чем на 15%.



