СУБПОЛОСНАЯ ИДЕНТИФИКАЦИЯ ДИКТОРОВ
|
ВВЕДЕНИЕ 4
ГЛАВА 1 МЕТОДЫ ИДЕНТИФИКАЦИИ ДИКТОРОВ 7
1.1 Общая схема процедуры идентификации 7
1.2 Основные подходы к построению признакового пространства и их
адекватность 9
1.2.1 Спектральные признаки 9
1.2.2 Кепстральные признаки 18
1.2.3 Признаки, извлекаемые на основе субполосного анализа 25
1.3 Решающие правила 34
1.4 Результаты и выводы главы. Задачи исследования 36
ГЛАВА 2 РАЗРАБОТКА МЕТОДА СУБПОЛОСНОЙ ИДЕНТИФИКАЦИИ ДИКТОРОВ 38
2.1 Удаление пауз из речевого сигнала диктора 38
2.2 Сегментация речевых сигналов на однородные отрезки 41
2.3 Решающая функция для субполосной идентификации дикторов 46
2.4 Результаты и выводы главы 48
ГЛАВА 3 ИССЛЕДОВАНИЕ МЕТОДА СУБПОЛОСНОЙ ИДЕНТИФИКАЦИИ ДИКТОРОВ 50
3.1 Реализация этапа обучения 50
3.2 Вычисление порогового значения для метода субполосной
идентификации дикторов, где качестве признаков используется распределение энергии сигнала по частотным интервалам 52
3.3 Вычисление порогового значения для метода субполосной идентификации дикторов, где качестве признаков используется распределение долей энергии информационных частотных интервалов
3.4 Результаты и выводы главы 58
ЗАКЛЮЧЕНИЕ 60
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 62
ПРИЛОЖЕНИЕ А 70
ПРИЛОЖЕНИЕ Б 78
ГЛАВА 1 МЕТОДЫ ИДЕНТИФИКАЦИИ ДИКТОРОВ 7
1.1 Общая схема процедуры идентификации 7
1.2 Основные подходы к построению признакового пространства и их
адекватность 9
1.2.1 Спектральные признаки 9
1.2.2 Кепстральные признаки 18
1.2.3 Признаки, извлекаемые на основе субполосного анализа 25
1.3 Решающие правила 34
1.4 Результаты и выводы главы. Задачи исследования 36
ГЛАВА 2 РАЗРАБОТКА МЕТОДА СУБПОЛОСНОЙ ИДЕНТИФИКАЦИИ ДИКТОРОВ 38
2.1 Удаление пауз из речевого сигнала диктора 38
2.2 Сегментация речевых сигналов на однородные отрезки 41
2.3 Решающая функция для субполосной идентификации дикторов 46
2.4 Результаты и выводы главы 48
ГЛАВА 3 ИССЛЕДОВАНИЕ МЕТОДА СУБПОЛОСНОЙ ИДЕНТИФИКАЦИИ ДИКТОРОВ 50
3.1 Реализация этапа обучения 50
3.2 Вычисление порогового значения для метода субполосной
идентификации дикторов, где качестве признаков используется распределение энергии сигнала по частотным интервалам 52
3.3 Вычисление порогового значения для метода субполосной идентификации дикторов, где качестве признаков используется распределение долей энергии информационных частотных интервалов
3.4 Результаты и выводы главы 58
ЗАКЛЮЧЕНИЕ 60
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 62
ПРИЛОЖЕНИЕ А 70
ПРИЛОЖЕНИЕ Б 78
Актуальность диссертационного исследования. В связи с развитием автоматических систем человечество находится в поиске удобных средств взаимодействия между техническими средствами и человеком. Одним из актуальных направлений в этой области является разработка систем, предназначенных для идентификации диктора по голосу, которая заключается в определении по образцу голоса, кому из ранее зарегистрированных пользователей принадлежит данных образец. При этом обработке подвергаются речевые сигналы, которые представляют собой результаты регистрации электрических колебаний на выходе микрофона, возбуждаемого акустическими воздействиями.
Проблема идентификации диктора по голосу была поставлена более 40 лет тому назад, и рассматривается в большом количестве работ, среди которых можно отметить работы Л. Рабинера, В.Н. Сорокина, В.Г. Михайлова, А.В. Аграновского, Г.С. Рамишвили и других.
Частным случаем идентификации диктора является идентификация по прецеденту на закрытом множестве дикторов, когда образец голоса диктора, проходящего процедуру идентификации, сравнивается с образцами голосов дикторов, зарегистрированных в системе. При этом количество зарегистрированных дикторов ограничено, а образцом голоса является речевой сигнал, соответствующий произнесённому диктором заранее известному парольному слову.
Такая постановка задачи используется в системах управления роботами («Умный дом», идентификация людей в системах доступа).
Основной проблемой идентификации диктора, как и любой задачи классификации, является выбор признаков, характеризующих особенности речевых сигналов, и обоснование используемых решающих функций. Применимо к задачам идентификации дикторов, признаки, характеризующие особенности голоса говорящего и лежащие в основе этапа формирования признакового пространства, должны оставаться стабильными на одних и тех же образцах голоса, и при этом резко меняются от диктора к диктору, а также содержат всю необходимую информацию для решения поставленной задачи. Что касается выбранной решающей функции, то она должна сохранять своё значение на идентичных объектах, и быть максимально чувствительной к неидентичности объектов.
Поэтому методы обработки данных, используемые в задачах идентификации диктора для отбора стабильных информативных признаков и удовлетворения условий к решающей функции, должны адекватно отображать свойства анализируемых речевых сигналов, а именно:
• РС являются нестационарными сигналами, т.е. их параметры могут меняться с течением времени;
• порождаемые звуками речи отрезки РС обладают свойством концентрации энергии в достаточно «узких» полосах частотной оси.
Существующие методы идентификации дикторов базируются на спектральном и кепстральном подходах для поиска стабильных информативных признаков. Использование признаков, вычисляемых на основе подобных подходов, не всегда удовлетворяет предъявляемым требованиям или не является адекватным с точки зрения учёта свойств речевых сигналов. Поэтому поиск новых признаков, характеризующих особенности голоса говорящего, является актуальным.
В данной работе для поиска подобных признаков предлагается использование субполосного анализа, когда свойства речевых сигналов соотносятся с некоторым разбиением оси частот на интервалы конечной ширины.
Целью данной работы является совершенствование методов и алгоритмов идентификации дикторов на основе разработки субполосного метода идентификации дикторов по прецеденту.
Для достижения поставленной цели сформулированы и решены следующие задачи:
1. Анализ основных подходов, используемых в задачах идентификации дикторов;
2. Разработка решающей функции для идентификации диктора на основе субполосного подхода;
3. Разработка и исследование субполосного метода и алгоритма идентификации дикторов, где в качестве устойчивых информативных признаков используются распределение частей энергии по частотным интервалам;
4. Разработка и исследование субполосного метода и алгоритма идентификации дикторов, где в качестве устойчивых информативных признаков используются распределение долей энергии информационных частотных интервалов;
5. Проведение вычислительных экспериментов.
Объект исследований: речевые сигналы.
Предмет исследования: методы идентификации дикторов.
Методы исследований. В работе использованы методы субполосного анализа/синтеза, статистического анализа, цифровой обработки речевых данных, линейной алгебры и вычислительных экспериментов.
Объем и структура работы. Диссертация состоит из Введения, трёх глав, Заключения и Приложений. Работа изложена на 87 страницах машинописного текста, включая 69 рисунков, 2 таблицы и список литературных источников из 71 наименования.
Проблема идентификации диктора по голосу была поставлена более 40 лет тому назад, и рассматривается в большом количестве работ, среди которых можно отметить работы Л. Рабинера, В.Н. Сорокина, В.Г. Михайлова, А.В. Аграновского, Г.С. Рамишвили и других.
Частным случаем идентификации диктора является идентификация по прецеденту на закрытом множестве дикторов, когда образец голоса диктора, проходящего процедуру идентификации, сравнивается с образцами голосов дикторов, зарегистрированных в системе. При этом количество зарегистрированных дикторов ограничено, а образцом голоса является речевой сигнал, соответствующий произнесённому диктором заранее известному парольному слову.
Такая постановка задачи используется в системах управления роботами («Умный дом», идентификация людей в системах доступа).
Основной проблемой идентификации диктора, как и любой задачи классификации, является выбор признаков, характеризующих особенности речевых сигналов, и обоснование используемых решающих функций. Применимо к задачам идентификации дикторов, признаки, характеризующие особенности голоса говорящего и лежащие в основе этапа формирования признакового пространства, должны оставаться стабильными на одних и тех же образцах голоса, и при этом резко меняются от диктора к диктору, а также содержат всю необходимую информацию для решения поставленной задачи. Что касается выбранной решающей функции, то она должна сохранять своё значение на идентичных объектах, и быть максимально чувствительной к неидентичности объектов.
Поэтому методы обработки данных, используемые в задачах идентификации диктора для отбора стабильных информативных признаков и удовлетворения условий к решающей функции, должны адекватно отображать свойства анализируемых речевых сигналов, а именно:
• РС являются нестационарными сигналами, т.е. их параметры могут меняться с течением времени;
• порождаемые звуками речи отрезки РС обладают свойством концентрации энергии в достаточно «узких» полосах частотной оси.
Существующие методы идентификации дикторов базируются на спектральном и кепстральном подходах для поиска стабильных информативных признаков. Использование признаков, вычисляемых на основе подобных подходов, не всегда удовлетворяет предъявляемым требованиям или не является адекватным с точки зрения учёта свойств речевых сигналов. Поэтому поиск новых признаков, характеризующих особенности голоса говорящего, является актуальным.
В данной работе для поиска подобных признаков предлагается использование субполосного анализа, когда свойства речевых сигналов соотносятся с некоторым разбиением оси частот на интервалы конечной ширины.
Целью данной работы является совершенствование методов и алгоритмов идентификации дикторов на основе разработки субполосного метода идентификации дикторов по прецеденту.
Для достижения поставленной цели сформулированы и решены следующие задачи:
1. Анализ основных подходов, используемых в задачах идентификации дикторов;
2. Разработка решающей функции для идентификации диктора на основе субполосного подхода;
3. Разработка и исследование субполосного метода и алгоритма идентификации дикторов, где в качестве устойчивых информативных признаков используются распределение частей энергии по частотным интервалам;
4. Разработка и исследование субполосного метода и алгоритма идентификации дикторов, где в качестве устойчивых информативных признаков используются распределение долей энергии информационных частотных интервалов;
5. Проведение вычислительных экспериментов.
Объект исследований: речевые сигналы.
Предмет исследования: методы идентификации дикторов.
Методы исследований. В работе использованы методы субполосного анализа/синтеза, статистического анализа, цифровой обработки речевых данных, линейной алгебры и вычислительных экспериментов.
Объем и структура работы. Диссертация состоит из Введения, трёх глав, Заключения и Приложений. Работа изложена на 87 страницах машинописного текста, включая 69 рисунков, 2 таблицы и список литературных источников из 71 наименования.
1. Сформулированы требования к признакам, на основе которых формируется признаковое пространство для идентификации дикторов, и используемым в этих задачах решающим функциям. Проведён сравнительный анализ, насколько признаки, получаемые на основе спектрального, кепстрального и субполосного подходов, удовлетворяют сформулированным требованиям и адекватно отражают свойства обрабатываемых речевых сигналов. Отмечено, что использование распределения энергии сигнала по частотным интервалам (субполосный подход) в качестве стабильных информативных признаков является наиболее адекватным с точки зрения удовлетворения этим требованиям. Также предложена идея использовать в качестве стабильных информативных признаков распределение долей энергии информационных частотных интервалов, для повышения стабильности работы алгоритмов идентификации диктора.
2. Изложены и реализованы основные этапы, входящие в метод субполосной идентификации дикторов. В основе каждого из этапов лежит субполосный подход, который позволяет реализовывать адаптивные алгоритмы обработки речевых данных. Разработаны решающие функции для метода субполосной идентификации дикторов, где в качестве признаков, характеризующих особенности голоса диктора, могут выступать как распределение энергии сигнала по частотным интервалам, так и распределение долей энергии информационных частотных интервалов. Кроме того, задаётся понятие порога для ограничения критической области, на основе которого будет осуществляться решение об идентификации при заданной вероятности ошибки II рода.
3. Исследованная решающая функция построена таким образом, чтобы вероятность попадания значения решающей функции в критическую область была достаточно мала. Это было обосновано путём проведения ряда предварительных экспериментов, формируя обучающую выборку. Целью этих экспериментов было установление порогового значения решающей функции, относительно которого принимается решение об идентификации (отвергается первоначальная гипотеза Ho). При этом значение порога может варьироваться в зависимости от необходимой эффективности работы алгоритма, а именно, насколько мала должна быть вероятность ошибки II рода.
4. Было установлено, что пороговое значения разработанной решающей функции, когда в качестве стабильных информативных признаков используется распределение долей энергии информационных частотных интервалов, меньше, чем пороговое значение решающей функции, когда в качестве стабильных информативных признаков используется распределение энергии сигнала по частотным интервалам. Подобный вывод позволяет говорить о большей эффективности подобных признаков для решения задач идентификации дикторов.
5. Проведенные сравнительные эксперименты свидетельствуют о том, что предлагаемые стабильные информативные признаки и разработанные решающие функции могут найти своё применение в задачах идентификации диктора. Поэтому из полученных результатов исследования следует утверждать, что разработанные методы и алгоритмы позволяют усовершенствовать существующие методы и алгоритмов идентификации дикторов по голосу.
2. Изложены и реализованы основные этапы, входящие в метод субполосной идентификации дикторов. В основе каждого из этапов лежит субполосный подход, который позволяет реализовывать адаптивные алгоритмы обработки речевых данных. Разработаны решающие функции для метода субполосной идентификации дикторов, где в качестве признаков, характеризующих особенности голоса диктора, могут выступать как распределение энергии сигнала по частотным интервалам, так и распределение долей энергии информационных частотных интервалов. Кроме того, задаётся понятие порога для ограничения критической области, на основе которого будет осуществляться решение об идентификации при заданной вероятности ошибки II рода.
3. Исследованная решающая функция построена таким образом, чтобы вероятность попадания значения решающей функции в критическую область была достаточно мала. Это было обосновано путём проведения ряда предварительных экспериментов, формируя обучающую выборку. Целью этих экспериментов было установление порогового значения решающей функции, относительно которого принимается решение об идентификации (отвергается первоначальная гипотеза Ho). При этом значение порога может варьироваться в зависимости от необходимой эффективности работы алгоритма, а именно, насколько мала должна быть вероятность ошибки II рода.
4. Было установлено, что пороговое значения разработанной решающей функции, когда в качестве стабильных информативных признаков используется распределение долей энергии информационных частотных интервалов, меньше, чем пороговое значение решающей функции, когда в качестве стабильных информативных признаков используется распределение энергии сигнала по частотным интервалам. Подобный вывод позволяет говорить о большей эффективности подобных признаков для решения задач идентификации дикторов.
5. Проведенные сравнительные эксперименты свидетельствуют о том, что предлагаемые стабильные информативные признаки и разработанные решающие функции могут найти своё применение в задачах идентификации диктора. Поэтому из полученных результатов исследования следует утверждать, что разработанные методы и алгоритмы позволяют усовершенствовать существующие методы и алгоритмов идентификации дикторов по голосу.



