Введение 5
Глава 1. Обзор существующих моделей авто- распознавания голоса 7
1.1 Структура систем распознавания дикторов 7
1.2 Dynamic Time Warping 12
1.3 Hidden Markov Model 14
1.4 Vector Quantization 18
1.5 Support Vector Machine 20
1.6 Gaussian Mixture Model 23
1.7 Выводы 27
Глава 2. Компьютерное моделирование модели идентификации личности по
голосу 30
2.1 Предварительная обработка 30
2.2 Признаки речевого сигнала 35
2.3 Определение алгоритма инициализации и оценки параметров модели 46
2.4 Определение числа компонентов модели гауссовых смесей 50
2.5 Тестирование модели личности по голосу 50
2.6 Выводы 51
Глава 3. Результаты компьютерного моделирования модели идентификации личности по голосу 53
3.1 Схема работы модели идентификации личности по голосу 53
3.2 Листинг программы 57
3.3 Результат работы программы 57
3.4 Расчет затрат на программно - аппаратную часть 62
3.5 Выводы 66
Глава 4. Безопасность жизнедеятельности 67
4.1 Общие требования 67
4.2 Неблагоприятные факторы и средства защиты от них 67
4.3 Выводы 70
Заключение 71
Список используемой литературы 72
Приложение А 75
Речь - неотъемлемый элемент человеческой деятельности, который позволяет человеку познавать окружающий мир, передавать свои знания и опыт другим людям. Устная речь - это высказывания в звуковой форме, которые становятся возможными благодаря голосовому аппарату человека.
Любой человек имеет свои особенные голосовые характеристики, определяющиеся индивидуальным строением его голосовых органов. В процессе общения человек способен на подсознательном уровне различать голоса любых людей, но тем не менее, эта задача для вычислительной техники является нетривиальной.
Известно, что задача распознавания личности по голосу была поставлена более 40 лет назад, но до сих пор продолжаются исследования в данной области. За последние годы качество распознавания речевой информации значительно возросло, однако главная проблема автоматического распознавания диктора в любой среде до сих пор далека от идеального решения. Поэтому актуальны не только исследования уже существующих алгоритмов, но и поиск новых решений в данной области.
Задачей распознавания личности по голосу является выделение, классифицирование и реагирование на речь человека из входного звукового потока. При этом обычно выделяется две подзадачи: идентификация и верификация.
Кроме этого, система распознавания может быть разделена на текстозависимую и текстонезависимую. При текстозависимом распознавании используются как фиксированные фразы, так и фразы, которые были сгенерированы системой и были предложены пользователю. Текстонезависимые системы нужны для обработки произвольной речи.
В данной работе рассматривается задача автоматической идентификации диктора и реализуется алгоритм, который решает задачу текстонезависимой идентификации.
Распознавание личности по голосу может найти применение во многих сферах: криминалистика и судебная экспертиза, безопасность, банковские технологии, электронная коммерция.
Речь представляет собой сложный сигнал, который образуется в результате преобразований, происходящих на разных уровнях: семантическом, языковом, артикуляционном (уровень голосового аппарата человека) и акустическом (уровень физических свойств звука). Различия в этих преобразованиях приводят к различиям в свойствах речевого сигнала. При решении задачи распознавания диктора по голосу данные отличия могут использоваться с целью выделения индивидуальных характеристик голоса человека.
Целью данной работы является разработка программного средства идентификации личности по голосу. Для достижения указанной цели в работе решаются следующие задачи:
— Исследуются существующие методы решения задачи идентификации личности по голосу, способы оценки их качества, а также существующие проблемы и ограничения;
— Реализовывается один из лучших алгоритмов идентификации личности по голосу;
— Разрабатывается обучающая и тестовая выборки, позволяющие наиболее полно оценить все преимущества и недостатки реализованного алгоритма.
В рамках данной работы проводились исследования существующих методов решения задачи автоматической идентификации диктора по голосу.
В работе был проведен полный обзор предметной области. Реализовался один из лучших алгоритмов, который можно использовать для решения поставленной задачи, основанный на применении модели гауссовых смесей. Данная модель считается передовой в виду того, что компоненты гауссовых смесей могут моделировать особенности голоса, индивидуальные для каждого человека, это позволяет отличать голоса людей с высочайшей точностью.
Было установлено, что использование алгоритма K-means++ для инициализации начальных параметров модели приводит к существенному увеличению скорости обучения и повышению точности идентификации. Помимо проверки точности идентификации проводилась оценка времени обучения модели гауссовых смесей. На полной выборке, при использовании кластеризации K-means для инициализации начальных параметров модели при числе компонентов модели, равном 5, время обучения равнялось 7 минутам 35 секундам. При использовании K-means++ время обучения равнялось 5 минутам 3 секундам, это говорит о преимуществе использованного алгоритма. Для тестирования программы были составлены шаблоны пользователей, которые состояли из голосов 20 человек.
В результате тестирования было определено оптимальное число компонент модели гауссовых смесей для решения поставленной задачи, оно равняется 5. При данном числе компонент система идентификации показывает точность распознавания, равную 95%, что говорит о применимости модели гауссовых смесей для решения задачи автоматической идентификации диктора по голосу.