Тип работы:
Предмет:
Язык работы:


Применение глубоких нейронных сетей к задаче текстонезависимой идентификации диктора по голосу

Работа №125116

Тип работы

Бакалаврская работа

Предмет

нейронные сети

Объем работы47
Год сдачи2017
Стоимость4800 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
82
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Подготовка данных 7
1.1 Описание используемых баз 7
1.2 Предварительная обработка сигнала 10
1.3 Извлечение признаков 13
1.4 Предварительная обработка признаков 18
Глава 2. Классическая базовая система 21
2.1 Универсальная фоновая модель 21
2.2 Извлечение i-векторов 21
2.3 Сравнение i-векторов 21
Глава 3. Система на основе глубоких нейронных сетей 24
3.1 Свёрточные нейронные сети 24
3.2 Residual отображения 28
3.3 Глубокая архитектура 31
3.4 Извлечение высокоуровневых признаков 33
3.5 Сравнение высокоуровневых признаков 35
Глава 4. Эксперименты и результаты 36
4.1 Проведение экспериментов 36
4.2 Результаты 38
4.3 Анализ результатов 41
Выводы 42
Заключение 43
Список литературы 44

Задача идентификации диктора по голосу, носящая в англоязычной ли­тературе название «speaker identification task», позволяет определить по записи голоса его принадлежность определённому диктору. Другими сло­вами, она отвечает на вопрос «Кто это говорит?». Умение отвечать на по­добный вопрос открывает дорогу к решению множества прикладных за­дач из различных областей человеческой деятельности. Среди таких задач можно выделить следующие.
1. Поиск определённого диктора в потоке голосовых данных.
Эта задача может возникнуть, например, в сфере поддержки, когда необходимо среди записей телефонных разговоров call-центра найти записи всех диалогов с недавно звонившим клиентом с целью анализа и улучшения качества работы центра. С применением средств иденти­фикации диктора по голосу такое возможно даже если клиент звонил с телефонов с разными номерами. Аналогичная задача возникает и в сфере безопасности, где поиск записей телефонных разговоров потен­циально опасных личностей может производиться среди всевозмож­ных записей определённой телефонной станции.
2. Биометрическая аутентификация по голосу
Путём сравнения текущего диктора со списком заранее заданных ав­томатическая система может принимать решение о разрешении или запрете авторизации. Такой способ аутентификации может быть ис­пользован как замена или дополнение к паролю при разблокировке смартфона или при попытке доступа к банковскому приложению. Бла­годаря средствам верификации диктора по голосу никогда не слы­шавший прежде своего собеседника пользователь сможет в автома­тическом режиме удостовериться, что собеседник не выдаёт себя за другую личность, а автоматическая система, распознающая и испол­няющая голосовые команды, сможет удостовериться, что выполняет команды авторизованного пользователя.
В современном мире потоки информации достигли объёмов, не под­властных ручному анализу. Именно поэтому внимание исследователей скон­центрировано в основном на автоматических подходах к решению задач. Исключением не является и данная работа.
Подходы, основанные на классических методах машинного обучения и статистики, долгое время оставались и остаются главенствующими при ре­шении задачи автоматической идентификации диктора по голосу. В то же время, активно развивающиеся в последнее десятилетие подходы, основан­ные на глубоких нейронных сетях, достигли непревзойдённых успехов во многих задачах классификации, распознавания образов, идентификации по лицу. Преимущества подобных подходов очевидны: они просты в разра­ботке и использовании, требуют минимального количества вносимой извне априорной информации и зачастую превосходят традиционные методы по качеству.
В данной работе рассматривается возможность применения глубоких нейронных сетей к задаче автоматической идентификации диктора по голо­су в текстозависимых и текстонезависимых условиях, исследуются преиму­щества и недостатки подобного подхода и проводится сравнение с класси­ческим методом, показывающим лучшие результаты на рассматриваемых базах.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках исследования были выполнены все поставленные задачи и под­тверждены выдвинутые гипотезы. Система распознавания диктора по го­лосу действительно может быть построена на основе глубоких свёрточных нейронных сетей и использовать спектрограммы в качестве входных низко­уровневых признаков. Не смотря на то, что такая модель проявляет себя ху­же базовой, их композиция позволяет улучшить результат базовой модели на 19% и 4% относительно в текстозависимой и текстонезависимой задачах соответственно. Также было замечено, что увеличение объёма обучающей выборки улучшает результат в текстозависимой задаче. Предполагается, что, имея базу с достаточно высокой дикторской и внутридикторской ва­риативностями, возможно построить систему на основе глубоких свёрточ­ных нейронных сетей, которая превзойдёт базовую систему по качеству. Проверка этого предположения может стать темой дальнейших исследова­ний. По результатам работы была написана и предложена к публикации на международной конференции SPECOM 2017 научная статья [39].


[1] Reynolds D. A., Quatieri T. F., Dunn R. B. Speaker verification using adapted Gaussian mixture models //Digital signal processing. - 2000. - Т. 10. - №. 1-3. - С. 19-41.
[2] Larcher A. et al. RSR2015: Database for Text-Dependent Speaker Verification using Multiple Pass-Phrases //INTERSPEECH. - 2012. - С. 1580-1583.
[3] Garofolo J. S. et al. DARPA TIMIT acoustic-phonetic continous speech corpus CD-ROM. NIST speech disc 1-1.1 //NASA STI/Recon technical report n. - 1993. - Т. 93.
[4] NIST Speaker Recognition Evaluation // National Institute of Standards and Technology URL: National Institute of Standards and Technology | NIST (дата обращения: 01.04.2017).
[5] Cieri C., Miller D., Walker K. The Fisher Corpus: a Resource for the Next Generations of Speech-to-Text //LREC. - 2004. - Т. 4. - С. 69-71.
[6] Welch P. The use of fast Fourier transform for the estimation of power spectra: a method based on time averaging over short, modified periodograms //IEEE Transactions on audio and electroacoustics. - 1967. - Т. 15. - №. 2. • С. 70-73.
[7] Freeman R. L. Telecommunication transmission handbook. - Wiley- Interscience, 1981. - Т. 100.
[8] LeCun Y. et al. Gradient-based learning applied to document recognition //Proceedings of the IEEE. - 1998. - Т. 86. - №. 11. - С. 2278-2324.
[9] He K. et al. Deep residual learning for image recognition //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. - 2016. • С. 770-778.
[10] He K. et al. Identity mappings in deep residual networks //European Conference on Computer Vision. - Springer International Publishing, 2016. • С. 630-645.
[11] Jones E., Oliphant T., Peterson P. SciPy: open source scientific tools for Python. - 2014.
[12] He K. et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification //Proceedings of the IEEE international conference on computer vision. - 2015. - С. 1026-1034.
[13] Nair V., Hinton G. E. Rectified linear units improve restricted boltzmann machines //Proceedings of the 27th international conference on machine learning (ICML-10). - 2010. - С. 807-814.
[14] Maas A. L., Hannun A. Y., Ng A. Y. Rectifier nonlinearities improve neural network acoustic models //Proc. ICML. - 2013. - Т. 30. - №. 1.
[15] Zeiler M. D. et al. On rectified linear units for speech processing //Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. - IEEE, 2013. - С. 3517-3521.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ