Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Подготовка данных 7
1.1 Описание используемых баз 7
1.2 Предварительная обработка сигнала 10
1.3 Извлечение признаков 13
1.4 Предварительная обработка признаков 18
Глава 2. Классическая базовая система 21
2.1 Универсальная фоновая модель 21
2.2 Извлечение i-векторов 21
2.3 Сравнение i-векторов 21
Глава 3. Система на основе глубоких нейронных сетей 24
3.1 Свёрточные нейронные сети 24
3.2 Residual отображения 28
3.3 Глубокая архитектура 31
3.4 Извлечение высокоуровневых признаков 33
3.5 Сравнение высокоуровневых признаков 35
Глава 4. Эксперименты и результаты 36
4.1 Проведение экспериментов 36
4.2 Результаты 38
4.3 Анализ результатов 41
Выводы 42
Заключение 43
Список литературы 44
Задача идентификации диктора по голосу, носящая в англоязычной литературе название «speaker identification task», позволяет определить по записи голоса его принадлежность определённому диктору. Другими словами, она отвечает на вопрос «Кто это говорит?». Умение отвечать на подобный вопрос открывает дорогу к решению множества прикладных задач из различных областей человеческой деятельности. Среди таких задач можно выделить следующие.
1. Поиск определённого диктора в потоке голосовых данных.
Эта задача может возникнуть, например, в сфере поддержки, когда необходимо среди записей телефонных разговоров call-центра найти записи всех диалогов с недавно звонившим клиентом с целью анализа и улучшения качества работы центра. С применением средств идентификации диктора по голосу такое возможно даже если клиент звонил с телефонов с разными номерами. Аналогичная задача возникает и в сфере безопасности, где поиск записей телефонных разговоров потенциально опасных личностей может производиться среди всевозможных записей определённой телефонной станции.
2. Биометрическая аутентификация по голосу
Путём сравнения текущего диктора со списком заранее заданных автоматическая система может принимать решение о разрешении или запрете авторизации. Такой способ аутентификации может быть использован как замена или дополнение к паролю при разблокировке смартфона или при попытке доступа к банковскому приложению. Благодаря средствам верификации диктора по голосу никогда не слышавший прежде своего собеседника пользователь сможет в автоматическом режиме удостовериться, что собеседник не выдаёт себя за другую личность, а автоматическая система, распознающая и исполняющая голосовые команды, сможет удостовериться, что выполняет команды авторизованного пользователя.
В современном мире потоки информации достигли объёмов, не подвластных ручному анализу. Именно поэтому внимание исследователей сконцентрировано в основном на автоматических подходах к решению задач. Исключением не является и данная работа.
Подходы, основанные на классических методах машинного обучения и статистики, долгое время оставались и остаются главенствующими при решении задачи автоматической идентификации диктора по голосу. В то же время, активно развивающиеся в последнее десятилетие подходы, основанные на глубоких нейронных сетях, достигли непревзойдённых успехов во многих задачах классификации, распознавания образов, идентификации по лицу. Преимущества подобных подходов очевидны: они просты в разработке и использовании, требуют минимального количества вносимой извне априорной информации и зачастую превосходят традиционные методы по качеству.
В данной работе рассматривается возможность применения глубоких нейронных сетей к задаче автоматической идентификации диктора по голосу в текстозависимых и текстонезависимых условиях, исследуются преимущества и недостатки подобного подхода и проводится сравнение с классическим методом, показывающим лучшие результаты на рассматриваемых базах.
В рамках исследования были выполнены все поставленные задачи и подтверждены выдвинутые гипотезы. Система распознавания диктора по голосу действительно может быть построена на основе глубоких свёрточных нейронных сетей и использовать спектрограммы в качестве входных низкоуровневых признаков. Не смотря на то, что такая модель проявляет себя хуже базовой, их композиция позволяет улучшить результат базовой модели на 19% и 4% относительно в текстозависимой и текстонезависимой задачах соответственно. Также было замечено, что увеличение объёма обучающей выборки улучшает результат в текстозависимой задаче. Предполагается, что, имея базу с достаточно высокой дикторской и внутридикторской вариативностями, возможно построить систему на основе глубоких свёрточных нейронных сетей, которая превзойдёт базовую систему по качеству. Проверка этого предположения может стать темой дальнейших исследований. По результатам работы была написана и предложена к публикации на международной конференции SPECOM 2017 научная статья [39].
[1] Reynolds D. A., Quatieri T. F., Dunn R. B. Speaker verification using adapted Gaussian mixture models //Digital signal processing. - 2000. - Т. 10. - №. 1-3. - С. 19-41.
[2] Larcher A. et al. RSR2015: Database for Text-Dependent Speaker Verification using Multiple Pass-Phrases //INTERSPEECH. - 2012. - С. 1580-1583.
[3] Garofolo J. S. et al. DARPA TIMIT acoustic-phonetic continous speech corpus CD-ROM. NIST speech disc 1-1.1 //NASA STI/Recon technical report n. - 1993. - Т. 93.
[4] NIST Speaker Recognition Evaluation // National Institute of Standards and Technology URL: National Institute of Standards and Technology | NIST (дата обращения: 01.04.2017).
[5] Cieri C., Miller D., Walker K. The Fisher Corpus: a Resource for the Next Generations of Speech-to-Text //LREC. - 2004. - Т. 4. - С. 69-71.
[6] Welch P. The use of fast Fourier transform for the estimation of power spectra: a method based on time averaging over short, modified periodograms //IEEE Transactions on audio and electroacoustics. - 1967. - Т. 15. - №. 2. • С. 70-73.
[7] Freeman R. L. Telecommunication transmission handbook. - Wiley- Interscience, 1981. - Т. 100.
[8] LeCun Y. et al. Gradient-based learning applied to document recognition //Proceedings of the IEEE. - 1998. - Т. 86. - №. 11. - С. 2278-2324.
[9] He K. et al. Deep residual learning for image recognition //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. - 2016. • С. 770-778.
[10] He K. et al. Identity mappings in deep residual networks //European Conference on Computer Vision. - Springer International Publishing, 2016. • С. 630-645.
[11] Jones E., Oliphant T., Peterson P. SciPy: open source scientific tools for Python. - 2014.
[12] He K. et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification //Proceedings of the IEEE international conference on computer vision. - 2015. - С. 1026-1034.
[13] Nair V., Hinton G. E. Rectified linear units improve restricted boltzmann machines //Proceedings of the 27th international conference on machine learning (ICML-10). - 2010. - С. 807-814.
[14] Maas A. L., Hannun A. Y., Ng A. Y. Rectifier nonlinearities improve neural network acoustic models //Proc. ICML. - 2013. - Т. 30. - №. 1.
[15] Zeiler M. D. et al. On rectified linear units for speech processing //Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. - IEEE, 2013. - С. 3517-3521.
...