Введение
Постановка задачи.
Обзор литературы
Глава 1. Обзор существующих методов идентификации диктора….............. 9
1.1 Предварительная обработка данных
1.2 Извлечение голосовых характеристик
1.3 Алгоритмы построения голосовой модели
Глава 2. Теоретический обзор используемых методов
2.1 Предварительная обработка данных
2.2 Вычисление коэффициентов MFCC
2.3 Построение голосовой модели с помощью GMM
Глава 3.Программная реализация метода идентификации
3.1 Исходные данные
3.2 Описание работы программы
3.3 Определение числа компонент гауссовой смеси 28
3.4 Определение незарегистрированных дикторов 29
3.5 Результаты работы программы
Выводы
Заключение
Список литературы .
Задача распознавания человека по голосу сформулирована более 40 лет назад, однако исследования этой задачи продолжаются в настоящее время. За последние годы качество распознавания речевой информации значительно повысилось, однако проблема все еще далека от решения. Поэтому исследования существующих алгоритмов и поиск новых решений этой задачи очень актуальны.
Задача идентификации по голосу – процесс определения диктора по записанному образцу его голоса через сравнение с шаблонами из базы данных. То есть имеет место соответствие один к Nи необходимо определить, кому именно принадлежит голос.
Задача идентификации диктора разделяется на текстозависимую и текстонезависимую.
Как понятно из названий, текстонезависимая идентификация осуществляет определение диктора по произвольной речи. При такой системе словесное содержание записи не важно, а идентификация происходит только на основе голосовых характеристик говорящего. Такой подход более универсален и лучше применим на практике. Например, в некоторых банках такие системы используются в call-центрах для идентификации клиентов. Это позволяет не тратить время на произнесение кодовых слов и позволяет сохранить естественный ход разговора. Также проверку личности клиента можно запускать в любой момент разговора.
Текстозависимые алгоритмы используются из-за их высокой точности, но они не всегда удобны.
Идентификация диктора по голосу может применяться во многих сферах, требующих подтверждения личности говорящего. Например, как уже говорилось ранее, банки могут использовать эту технологию для идентификации клиентов. В определенный момент стало ясно, что использовать персональные данный, ответы на контрольные вопросы по телефону сильно замедляют обслуживание клиентов и доставляет им неудобства. Для любого человека гораздо проще, чтобы его автоматически идентифицировали, чем вспоминать ответы на вопросы.
Первым банком, внедрившим такую технологию, стал Barclays в 2012 году. Их разработчиком была компания NuanceCommunications. Их алгоритм производил идентификацию в течение 30 секунд разговора. С тех пор речевые технологии компании используются в таких организациях, как RoyalBankofCanada, BancoSantander, TangerineBank.
Среди банков России и СНГ голосовую биометрию первым начал использовать Тиньков Банк в 2014 году.
Также идентификация по голосу может использоваться в судебной практике, наряду с другими биометрическими данными, такими как ДНК, отпечатки пальцев и т.д.
Анализ звуковых данных в криминалистике имеет много возможностей в применении. Например, можно идентифицировать подозреваемых по записи разговора.
Так же речь может быть собрана и передана более простыми и быстрыми способами, чем, например, ДНК.
Современные методы классификации часто требуют значительного количества образцов в обучающей выборке. Особенностью же задачи идентификации диктора часто является относительно небольшой размер обучающей выборки, что связано с объективными трудностями получения большого объема аудиоинформации, от одного человека. Упомянутое обстоятельство делает невозможным применение средств машинного обучения, чувствительных к малому объему обучающей выборки, например, таких, как нейронные сети. В данной работе делается акцент на разработку методики идентификации, учитывающей эту особенность.
Постановка задачи
Цель выпускной квалификационной работы состоит в исследовании имеющихся методов и технологий, позволяющих выполнять идентификацию человека по голосу, реализации и тестировании собственного метода идентификации.
Для достижения цели требуется решить следующие задачи:
1. Исследовать существующие методы решения задачи идентификации человека по голосу, а также выявить их проблемы и ограничения.
2. Разработать эффективный алгоритм идентификации человека по голосу, применимый в ситуации с небольшим объемом обучающей выборки. Выполнить программную реализацию разработанного алгоритма.
3. Провести экспериментальное исследование разработанного алгоритма
Задача идентификации диктора по голосу является актуальной в настоящее время, так как имеет широкое применение в различных областях. В данной работе изучены основные методы решения этой задачи. Реализована система идентификации диктора на основе мел-частотных кепстральных коэффициентов и моделей гауссовых смесей.
Реализованный метод имеет высокий, но недостаточный уровень точности и она совершенно не гибка к добавлению новых дикторов, так как необходимо заново переобучать всю систему.
В дальнейшем планируется рассмотрение других методов как в извлечении голосовых коэффициентов, например, метод i-векторов, так и алгоритмов идентификации, например, использование совместной GMM-SVM моделей и нейронных сетей.
1. F. Z. Chelali, K. Sadeddine, A. Djeradi Speaker identification system using LPC - Application on Berber language // HDSKD international journal. 2015. Vol. 01, №. 02. С. 29 - 46.
2. S. Davis, P. Mermelstein Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. // IEEE transactions on acoustics, speech, and signal processing. 1980. №28, 4. С. 357 - 366.
3. S. Furui Cepstral analysis technique for automatic speaker verification // IEEE Transactions on Acoustics, Speech, and Signal Processing. 1981. №29, 2. С. 254–272.
4. D. Ramage Hidden Markov Models Fundamentals // CS229 Section Notes. 2007.
5. A. Solomonoff, C. Quillen, W. Campbell Channel compensation for svm speaker recognition // ODYSSEY04 -- The Speaker and Language Recognition Workshop Toledo. 2004.
6. Иванов И. И. Анализ метода мел-частотных кепстральных коэффициентов применительно к процедуре голосовой аутентификации // Актуальные проблемы гуманитарных и естественных наук. 2015. №10-1. С. 106-114.
7. G. Saha, S. Chakroborty, S. Senapati A New Silence Removal and Endpoint Detection Algorithm for Speech and Speaker Recognition Applications. 2005.
8. Jeff A. Bilmes A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models // International Computer Science Institute Berkeley CA. 1998. С. 7 - 13.
9. D. A. Reynolds, T. F. Quatieri, R. B. Dunn Speaker Verification using adapted Gaussian mixture models // Digital Signal Processing. 2000. Vol. 10. С. 19 - 41.