Введение 3
Постановка задачи 4
Глава 1. Акустика. Понятие основного тона для музыкальных и речевых колебаний 5
1.1. Музыкальная акустика 6
1.2. Речевая акустика 7
Глава 2. Обзор существующих алгоритмов оценивания частоты основного тона речи 11
2.1. Амплитудная селекция 11
2.2. Частотная селекция 12
2.3. Корреляционные методы 13
Глава 3. Модификация алгоритма оценивания частоты основного тона речевого сигнала 15
Глава 4. Программная реализация оценивания частоты основного тона речевого сигнала. Результат эксперимента программного комплекса 17
3.1. Обработка звукового сигнала 19
3.2. Обработка речевого сигнала 20
Выводы и заключение 24
Список литературы 25
Приложение 26
Данная работа посвящена проблеме оценивания периода основного тона (ОТ) звукового сигнала.
Речь есть средство обмена информацией между людьми, в отличие от сигналов, получаемых на выходе технических систем, для речевого сигнала характерна большая вариативность даже при передаче совершенно идентичных сообщений. Акустический речевой сигнал, в отличие от письменной речи, переносит огромное количество дополнительной информации, связанной со смысловым значением сообщения (семантика), с индивидуальностью голоса диктора, с эмоциональным характером и стилем высказывания, типом речевого сообщения (монолог, диалог и т.п.), с окружающей обстановкой, состоянием голосового аппарата, половой принадлежностью, возрастом, ростом и весом диктора. Одним из важнейших параметров речевого сигнала является основной тон, содержащий информацию об интонационной структуре произнесения, особенности голоса диктора и его эмоциональном состоянии. Оценивание частоты (или периода) основного тона является одной из наиболее важных задач в обработке речи. Выделители основного тона используются в вокодерах [1], системах распознавания и идентификации дикторов [2], в устройствах, предназначенных для глухих [1,2]. Поскольку задача выделения основного тона очень важна, существует ряд способов ее решения [1]. Все они обладают ограничениями и наиболее естественным будет признать, что в настоящее время отсутствует метод выделения основного тона, обеспечивающий удовлетворительные результаты для различных дикторов, в разных областях применения и условиях эксплуатации.
Для определения основного тона оцифрованных звуковых сигналов в работе применены модификации корреляционного анализа.
Таким образом, в работе произведена компьютерная обработка цифрового звука с целью получения основного тона, меняющегося по времени, и определение амплитуды гармоники с основным тоном. Произведен анализ различных методов определения основного тона. Основной упор был сделан на различные виды корреляционного анализа. Исследована, в частности, вариант максимизации скалярного произведения звуковых фрагментов одинаковой длины неподвижного и скользящего. А так же, квадратичное отклонение подвижного от неподвижного. Лучшей оказалась модификация, заключающаяся в их объединении. Скалярное произведение было использовано в качестве коэффициента усиления при скользящем фрагменте. Для проверки качества обработки входного файла была создана программа акустической "иллюстрации". Она позволила быстро оценивать качество определения основного тона тем или иным способом. Наиболее показательной была проверка работы всего комплекса на простых музыкальных фрагментах, сыгранных на фортепиано.
[1] Рабинер, Л.Р. Цифровая обработка речевых сигналов / Л.Р. Рабинер, Р.В. Шафер - М.: Радио и связь, 1981. - 496с.
[2] Загоруйко Н.Г. Методы распознавания и их применение. - М.: Сов. радио, 1972. - 206 с.
[3] Маркел Дж. Линейное предсказание речи / Дж. Маркел, А.Х. Грей. - М.: Связь, 1980. - 308 с.
[4] Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов/ Киев: Наук. думка, 1987. - 264 с.
[5] Гапочкин А.В. Определение основного тона речи с помощью вейвлет- преобразования и его применение//Вестник МГУП имени Ивана Федорова, 2016. - № 1. - С. 22-24.
[6] Голубинский А.Н. Расчет частоты основного тона речевого сигнала на основе полигармонической математической модели //Вестник Воронежского института МВД России, 2009. - № 1. - С. 81-90.
[7] Борискевич А.А. Электронный учебно-методический комплекс по дисциплине Цифровая обработка речи и изображений. - Минск, 2007. - 293 с.
[8] Рамишвили Г.С. Автоматическое опознавание говорящего по голосу. - М.: Радио и связь, 1981. - 224 с.
[9] Алимурадов А.К. Обзор и классификация методов обработки речевых сигналов в системах распознавания речи / А.К. Алимурадов, П.П. Чураков // Измерение. Мониторинг. Управление. Контроль. - 2015. - № 2 (12). - С. 27-35.
[10] Вольф Д.А. Модель, численная и программная реализация оценивания частоты основного тона речевого сигнала с помощью сингулярного спектрального анализа//Диссертация соискателя учёной степени к. т. н. - 2015. - С. 149.