ВВЕДЕНИЕ 3
ЗАДАЧИ 5
1 Анализ системы 6
1.1 Анализ технического задания 6
1.2 Средства разработки 8
1.3 Методы выделения признаков речевого сигнала 11
1.3.1 Преобразование Фурье 11
1.3.2 Вейвлет-преобразование 14
1.3.3 Преобразование Гильберта-Хуанга 20
1.3.4 Выводы 27
2 Проектирование модуля голосовой идентификации диктора 28
2.1 Структурная схема 28
2.2 Алгоритм работы модуля 30
2.3 Методы классификации речевого сигнала 32
2.3.1 Dynamic Time Warping 33
2.3.2 Hidden Markov Model 35
2.3.3 Vector Quantization 36
2.3.4 Support Vector Machine 38
2.3.5 Gaussian Mixture Model 40
2.3.6 Нейронная сеть 43
3 Программная реализация 53
3.1 Описание работы программы 53
3.2 Создание речевой базы для тестирования 58
3.3 Оценка качества работы модуля идентификации 60
3.4 Вывод 62
ЗАКЛЮЧЕНИЕ 63
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 64
ПРИЛОЖЕНИЕ А 66
Системы голосовой идентификации диктора (СГИД) быстро развиваются в последнее время. Причиной развития СГИД это их востребованность в таких областях, как биометрический поиск, голосовая верификация пассажиров и водителя, разграничение прав доступа к информации с помощью голосовой биометрии и т. д. [1]. Важным достоинством СГИД по отношению к другим биометрическим системам идентификации является их дешевизна. Важно также, что современные СГИД по уровню надёжности идентификации не уступают, а иногда и превосходят, к примеру, системы идентификации человека по изображению [2].Эволюция систем распознавания речи привела к созданию интеллектуальных систем, позволяющих не только распознавать, но и автоматически синтезировать человеческую речь.
Несмотря на уникальность голоса человека, ни одна из СГИД, как и любая другая биометрическая система, не может гарантировать 100% надёжность идентификации. Основными источниками ошибок в СГИД являются: окружение (шум, реверберация и т.д.); особенности речи (длительность, тональность, уровень голосового усилия и т.д.); канал связи (искажения микрофона и канала передачи, погрешности кодирования аудио сигнала и т.д.) [2].
В общем случае идентификация личности по голосу требует решения большого числа разнородных задач, основными из которых являются следующие:
- выделение вокализованных участков аудио сигнала путём отбрасывания пауз и участков, содержащих различного рода помехи;
- разделение речи дикторов (задача диаризации);
- выделение характерных признаков голоса диктора.
Применение технологии идентификации и верификации диктора
позволяет:
• осуществить тексто- и языконезависимую идентификацию диктора;
• выделить из общего объёма данных звуковые файлы, содержащие речь интересующего диктора;
• подтвердить принадлежность звуковых данных тому или иному диктору;
• снизить риск пропуска файла с речью диктора из-за перегруженности операторов;
• обработать большое количество речевой информации и подготовить данные для дальнейшей обработки оператором
ЗАДАЧИ
• Разработать метод выделения признаков речевого сигнала,позволяющий проводить идентификацию дикторов;
• проанализировать существующие подходы и выбрать алгоритм классификации пользователей по их голосовым характеристикам;
• разработать модуль голосовой идентификации диктора на рабочей среде MATLAB, в дальнейшем подключаемого к системе распознавания речи, с целью повышения качества распознавания;
• внедрить дополнительный этапа классификации диктора в систему распознавания речи — повышение качества распознавания речи за счёт выбора оптимального классификатора, обученного на речевом материале, с схожими с диктором голосовыми характеристиками;
• определить качество распознавания модуля идентификации диктора.
Были проанализированы существующие подходы и выбран алгоритм классификации пользователей по их голосовым характеристикам. Разработан метод выделения признаков речевого сигнала, позволяющий проводить идентификацию дикторов. Была выполнена программная реализация модуля голосовой идентификации диктора с использованием среды Matlab R15b. Определено повышение качества распознавания речи за счёт выбора оптимального классификатора, обученного на речевом материале, с схожими с диктором голосовыми характеристиками. В результате экспериментальных исследований разработанного модуля, отмечено увеличение надёжности распознавания на 20-30%.