В настоящее время можно заметить рост интереса к речевым технологиям: синтез речи, распознавание речи, управление голосом и распознавание личности по голосу- наиболее популярные из них. Это можно объяснить развитием производительности вычислительных систем, необходимостью более тщательной защиты данных от несанкционированного доступа, а также невысокими требованиями в плане оборудования [8]. Одной из таких технологий- определение диктора по голосу- посвящена данная исследовательская работа.
Распознавание личности объединяет два класса задач: идентификацию и верификацию дикторов по голосу [5].
1. Целью идентификации является определение принадлежности исследуемого голосового сигнала к одному из дикторов, заранее предъявленных системе. Если процедуру распознавания проходят только пользователи, речевые образцы которых имеются в базе, говорят об идентификации на замкнутом множестве. Если же возникают ситуации, когда пользователь неизвестен системе, встает задача идентификации на открытом множестве [5]. Данная задача может быть сведена к предыдущей путем выбора порога принятия решения в соответствии с требованиями к системе.
2. В процессе верификации подтверждается либо опровергается принадлежность исследуемого голосового сигнала его предъявителю [5]. Данную задачу можно считать частным случаем идентификации на открытом множестве, предполагая, что система обучена только на речевых образцах рассматриваемого диктора.
В соответствии с категорией, системы распознавания делятся на текстозависимые и текстонезависимые [11]. При текстозависимом анализе 3
речи производится сравнение предложенной системой фразы с произнесенной. При текстонезависимом- распознавание по произвольной речи.
Эта технология уже нашла свое применение в таких задачах, как [8]:
• Предоставление доступа. Так как определение диктора по голосу- один из наименее ресурсоемких и простых в использовании методов идентификации, когда нет необходимости запоминать какие-либо комбинации и использовать дорогостоящие устройства. В настоящее время такая система защиты используется лишь как дополнение к имеющейся, либо, когда безопасность системы не критична:
■ Доступ к информации по телефону (информация о состоянии банковского счета, информация из баз данных и т.п.).
■ Доступ сотрудников в служебные помещения.
• Анализ диалогов, записей переговоров во время аварийных ситуаций, телефонных разговоров и др., используемых в криминалистике и судебной экспертизе.
Однако вопрос получения систем с высокоточным распознаванием дикторов до сих пор остается открытым. Продолжается поиск таких моделей, которые способны повысить качество распознавания с сохранением или увеличением скорости идентификации. Аналогичные цели ставятся в данной исследовательской работе. Проводится анализ существующих методов и предлагается новый для данной задачи подход, заключающийся в выделении речевых признаков, полученных с помощью ограниченной машины Больцмана. Также проводится сравнение зависимости качества распознавания и скорости обучения в указанных условиях от поступающих на вход ограниченной машины Больцмана векторов-признаков, уровня шума, количества идентифицируемых дикторов, классификаторов и их параметров обучения. В результате работы ожидается получение алгоритма распознавания дикторов на основе ограниченной машины Больцмана (GBRBM), составление рекомендаций по его использованию по результатам экспериментов.
Задача идентификации дикторов по голосу окружена широким кругом исследований и экспериментов, которые при положительных результатах позволяют улучшить существующие системы распознавания и даже открыть новые сферы применения. Данная работа и работа [1] показывают возможность увеличения качества распознавания дикторов по голосу с применением ограниченной машины Больцмана для получения новых векторов-признаков. Проведенные опыты позволяют подобрать параметры в зависимости от требований к скорости обучения, скорости распознавания, качеству классификации, классификации при наличии шумовых составляющих, ограниченной длине обучающих файлов, а также к количеству распознаваемых дикторов. Таким образом, использование ограниченной машины Больцмана позволит улучшить результаты работы систем идентификации, с правильно подобранными в зависимости от требований параметрами.
При необходимости, в продолжении работы могут быть рассмотрены и другие векторы-признаков. Возможно усложнение классификаторов, а также рассмотрение поведения системы при использовании глубоких нейронных сетей и ограниченный машины Больцмана, как их основы.
1. Васильева, Р.Л. Идентификация дикторов с помощью машин Больцмана / Р.Л. Васильева - Казань 2015.
2. Вишнякова О. А. Подходы к задаче идентификации диктора / О. А. Вишнякова, Д. Н. Лавров - МСиМ. 2011. №1 (22) С.48-54.
3. Заковряшин, А. С. Применение распределений мел-частотных кепстральных коэффициентов для голосовой идентификации личности / А. С. Заковряшин, П. В. Малинин, А. А. Лепендин - Известия АлтГУ. 2014. №1 (81) С.156-160.
4. Кудашев, О.Ю. Система разделения дикторов на основе вероятностного линейного дискриминантного анализа / О.Ю. Кудашев - СПб. 2014 С.14-24.
5. Первушин, Е. А. Обзор основных методов распознавания дикторов / Е. А. Первушин - МСиМ. 2011. №3 (24) С.41-54.
6. Разинков, Е.В. лекции по курсу: «Машинное обучение» / Е.В. Разинков - Казань 2015.
7. Hinton G. A Practical Guide to Training Restricted Boltzmann Machines / Department of Computer Science, University of Toronto 2010.
8. Агапиев А.Н., Милашенко В.И. Идентификация пользователей по голосу.http://speech-soft.ru/user-identification-by-voice
9. Баженов Д. Оценка классификатора (точность, полнота, F- мера) 2012. http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html
10. Борисов Е.С. Ассоциативная память на основе ограниченной машины Больцмана (RBM) 2014.http://mechanoid.kiev.ua/neural-net-boltzman-restr.html
11. Галунов В.И. Верификация и идентификация говорящего.http://speech- soft.ru/info/verifikaciya-i-identifikaciya-govoryashchego
12. Ерофеев А. Voice Activity Detection 2013.https://habrahabr.ru/post/192954/
13. Нестеров П. Ограниченная машина Больцмана как основа глубоких нейронных сетей 2015.http://synthesis.ipi.ac.ru/sigmod/seminar/s20150129
14. Нестеров П. Реализация Restricted Boltzmann machine на с# 2012. https://habrahabr.ru/post/159909/
15. Vanderplas J. Understanding the FFT Algorithm 2013. https://jakevdp.github.io/blog/2013/08/28/understanding-the-fft/
16. Wikipedia, Signal-to-noise ratio. https://en.wikipedia.org/wiki/Signal-to-
noise ratio
17. Wikipedia, Support vector machine.
https://en. wikipedia. org/wiki/Support vector machine
18. Voicebox: a speech processing toolbox for MATLAB.
http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html