Тип работы:
Предмет:
Язык работы:


Модуль голосовой идентификации диктора

Работа №19629

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы82
Год сдачи2018
Стоимость4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
1073
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
ЗАДАЧИ 5
1 Анализ системы 6
1.1 Анализ технического задания 6
1.2 Средства разработки 8
1.3 Методы выделения признаков речевого сигнала 11
1.3.1 Преобразование Фурье 11
1.3.2 Вейвлет-преобразование 14
1.3.3 Преобразование Гильберта-Хуанга 20
1.3.4 Выводы 27
2 Проектирование модуля голосовой идентификации диктора 28
2.1 Структурная схема 28
2.2 Алгоритм работы модуля 30
2.3 Методы классификации речевого сигнала 32
2.3.1 Dynamic Time Warping 33
2.3.2 Hidden Markov Model 35
2.3.3 Vector Quantization 36
2.3.4 Support Vector Machine 38
2.3.5 Gaussian Mixture Model 40
2.3.6 Нейронная сеть 43
3 Программная реализация 53
3.1 Описание работы программы 53
3.2 Создание речевой базы для тестирования 58
3.3 Оценка качества работы модуля идентификации 60
3.4 Вывод 62
ЗАКЛЮЧЕНИЕ 63
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 64
ПРИЛОЖЕНИЕ А 66


Системы голосовой идентификации диктора (СГИД) быстро развиваются в последнее время. Причиной развития СГИД это их востребованность в таких областях, как биометрический поиск, голосовая верификация пассажиров и водителя, разграничение прав доступа к информации с помощью голосовой биометрии и т. д. [1]. Важным достоинством СГИД по отношению к другим биометрическим системам идентификации является их дешевизна. Важно также, что современные СГИД по уровню надёжности идентификации не уступают, а иногда и превосходят, к примеру, системы идентификации человека по изображению [2].Эволюция систем распознавания речи привела к созданию интеллектуальных систем, позволяющих не только распознавать, но и автоматически синтезировать человеческую речь.
Несмотря на уникальность голоса человека, ни одна из СГИД, как и любая другая биометрическая система, не может гарантировать 100% надёжность идентификации. Основными источниками ошибок в СГИД являются: окружение (шум, реверберация и т.д.); особенности речи (длительность, тональность, уровень голосового усилия и т.д.); канал связи (искажения микрофона и канала передачи, погрешности кодирования аудио сигнала и т.д.) [2].
В общем случае идентификация личности по голосу требует решения большого числа разнородных задач, основными из которых являются следующие:
- выделение вокализованных участков аудио сигнала путём отбрасывания пауз и участков, содержащих различного рода помехи;
- разделение речи дикторов (задача диаризации);
- выделение характерных признаков голоса диктора.
Применение технологии идентификации и верификации диктора
позволяет:
• осуществить тексто- и языконезависимую идентификацию диктора;
• выделить из общего объёма данных звуковые файлы, содержащие речь интересующего диктора;
• подтвердить принадлежность звуковых данных тому или иному диктору;
• снизить риск пропуска файла с речью диктора из-за перегруженности операторов;
• обработать большое количество речевой информации и подготовить данные для дальнейшей обработки оператором
ЗАДАЧИ
• Разработать метод выделения признаков речевого сигнала,позволяющий проводить идентификацию дикторов;
• проанализировать существующие подходы и выбрать алгоритм классификации пользователей по их голосовым характеристикам;
• разработать модуль голосовой идентификации диктора на рабочей среде MATLAB, в дальнейшем подключаемого к системе распознавания речи, с целью повышения качества распознавания;
• внедрить дополнительный этапа классификации диктора в систему распознавания речи — повышение качества распознавания речи за счёт выбора оптимального классификатора, обученного на речевом материале, с схожими с диктором голосовыми характеристиками;
• определить качество распознавания модуля идентификации диктора.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Были проанализированы существующие подходы и выбран алгоритм классификации пользователей по их голосовым характеристикам. Разработан метод выделения признаков речевого сигнала, позволяющий проводить идентификацию дикторов. Была выполнена программная реализация модуля голосовой идентификации диктора с использованием среды Matlab R15b. Определено повышение качества распознавания речи за счёт выбора оптимального классификатора, обученного на речевом материале, с схожими с диктором голосовыми характеристиками. В результате экспериментальных исследований разработанного модуля, отмечено увеличение надёжности распознавания на 20-30%.


1. Центр речевых технологий [Электронный ресурс] - режим доступа: http://www.speechpro.ru/.
2. Матвеев, Ю. Н. Технологии биометрической идентификации личности по голосу и другим модальностям // Вестник МГТУ им. Н. Э. Баумана. Электронное научно-техническое издание. 2012. № 3(3) [Электронный ресурс] - режим доступа: http://vestnik.bmstu.ru/catalog/it/biometric/91.html/
3. ОБЗОР ОСНОВНЫХ МЕТОДОВ РАСПОЗНАВАНИЯ ДИКТОРОВ Е. А. Первушин [Электронный ресурс] - режим доступа: http://cyberleninka.ru/article/nZobzor-osnovnyh-metodov-raspoznavaniya- diktorov.pdf.
4. Martin, A. Przybocki. The NIST 1999 Speaker Recognition Evaluation - An Overview // A. Martin. Digital Signal Processing. 2000. V. 10
5. Коваль, С. Л. Комплексная методика идентификации дикторов по голосу и речи // С. Л. Коваль. Информатизация и информационная безопасность правоохранительных органов: труды ХХ международной научной конференции. Москва.: Академия управления МВД России, 2011. С. 364-370.
6. Platt, J. C. Fast Training of Support Vector Machines using Sequential Minimal Optimization // J. C. Platt. Advances in Kernel Methods / Ed. by B. Scholkopf, C. C. Burges, A. J. Smola. MIT Press, 1999. P. 185-208.
7. Википедия [Электронный ресурс] - режим доступа: ru.wikipedia.
Aviki/l Іреобразование (Фурье
8. Дьяконов, В. MATLAB: Учебный курс // В. Дьяконов. Санкт-Петербург.: Питер, 2001. - 560 с.
9. Распознавание речи. Часть 1. Классификация систем распознавания речи [Электронный ресурс] - режим доступа:https://geektimes.ru/post/64572/
10. Идентификация-диктора-по-голосу-текст [Электронный ресурс] - режим доступа: http://seminar.at.ispras.ru/wp-content/uploads/2012/07/
11. Ing-Jr Ding, Developments of Machine Learning Schemes for Dynamic Time-Wrapping-Based Speech Recognition // Ing-Jr Ding, Chih-Ta Yen, Yen-Ming Hsu. Mathematical Problems in Engineering. 2013.
12. Ramage, D. Hidden Markov Models Fundamentals // Daniel Ramage. CS229 Section Notes. 2007.
13. Система исследования речевых компонентов В.С. Шерхонов [Электронный ресурс] - режим доступа: http://www.stelani.ru/services/uslugi- po-napravleniyu-rechevye-tekhnologii/350/
14. [Электронный ресурс] - режим доступа:http://www.stel.ru/services/uslugi-po-napravleniyu-rechevye-tekhnologii/460/
15. [Электронный курс] - режим доступа: http://seminar.at.ispras.ru/wp- content/uploads/2012/07/Идентификация-диктора-по-голосу-текст
16. Bilmes, A. A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models // A. Jeff. Berkley, C. A: International Computer Science Institute. 1998. P. 7-13.
17. [Электронный курс] - режим доступа: https://research-
journal.org/technical/ispolzovanie-preobrazovaniya-gilberta-xuanga-dlya-formirovaniya-modelej-fonem-russkogo-yazyka-v-zadache-raspoznavaniya-rechi/
18. Дашкевич, И. В. Использование Вейвлет-преобразования в задаче голосовой идентификации диктора. / И. В. Дашкевич, М. С. Медведев // Международная научно-практическая конференция «Новшества в области технических наук». - Тюмень; Секция №20.
19. [Электронный курс] - режим доступа: seminar.at.ispras.ru/wp- content/.. ./Идентификация-диктора-по-голосу-текст
20. [Электронный курс] - режим доступа:https://cloud.google.com/text-to-speech/docs
21. [Электронный курс] - режим доступа:https://tech.yandex.ru/speechkit/
mobilesdk/doc/ios/2.5/ref/group vocalizer globals group vc-docpage/


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ