Тип работы:
Предмет:
Язык работы:


ПОСТРОЕНИЕ И ИССЛЕДОВАНИЕ АЛГОРИТМА РАСПОЗНАВАНИЯ ДИКТОРОВ НА ОСНОВЕ ОГРАНИЧЕННОЙ МАШИНЫ БОЛЬЦМАНА

Работа №77728

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы76
Год сдачи2016
Стоимость4370 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
130
Не подходит работа?

Узнай цену на написание


Введение 3
1 Постановка задачи 6
2 Извлечение признаков 7
2.1 Коэффициенты Фурье 8
2.2 Мел-частотные кепстральные коэффициенты 9
2.3 Коэффициенты линейного предсказания 11
2.4 Перцептивные коэффициенты линейного предсказания 12
2.5 Дополнительная обработка 13
2.6 Ограниченная машина Больцмана 13
3 Дискриминативная модель 19
3.1 Метод опорных векторов 19
3.2 Random Forest 22
3.3 AdaBoost 24
3.4 Улучшение качества классификации 27
4 Эксперименты 28
4.1 Сравнение векторов-признаков 31
4.2 Сравнение алгоритмов классификации 36
4.3 Влияние шума на качество идентификации 41
4.4 Сравнение алгоритмов классификации при небольшой длине
обучающих файлов 43
4.5 Сравнение качества распознавания от длительности обучающего
файла 47
4.6 Сравнение качества распознавания от количества дикторов 51
5 Выводы 53
Заключение 54
Список литературы 55
Приложение 57

В настоящее время можно заметить рост интереса к речевым технологиям: синтез речи, распознавание речи, управление голосом и распознавание личности по голосу- наиболее популярные из них. Это можно объяснить развитием производительности вычислительных систем, необходимостью более тщательной защиты данных от несанкционированного доступа, а также невысокими требованиями в плане оборудования [8]. Одной из таких технологий- определение диктора по голосу- посвящена данная исследовательская работа.
Распознавание личности объединяет два класса задач: идентификацию и верификацию дикторов по голосу [5].
1. Целью идентификации является определение принадлежности исследуемого голосового сигнала к одному из дикторов, заранее предъявленных системе. Если процедуру распознавания проходят только пользователи, речевые образцы которых имеются в базе, говорят об идентификации на замкнутом множестве. Если же возникают ситуации, когда пользователь неизвестен системе, встает задача идентификации на открытом множестве [5]. Данная задача может быть сведена к предыдущей путем выбора порога принятия решения в соответствии с требованиями к системе.
2. В процессе верификации подтверждается либо опровергается принадлежность исследуемого голосового сигнала его предъявителю [5]. Данную задачу можно считать частным случаем идентификации на открытом множестве, предполагая, что система обучена только на речевых образцах рассматриваемого диктора.
В соответствии с категорией, системы распознавания делятся на текстозависимые и текстонезависимые [11]. При текстозависимом анализе 3
речи производится сравнение предложенной системой фразы с произнесенной. При текстонезависимом- распознавание по произвольной речи.
Эта технология уже нашла свое применение в таких задачах, как [8]:
• Предоставление доступа. Так как определение диктора по голосу- один из наименее ресурсоемких и простых в использовании методов идентификации, когда нет необходимости запоминать какие-либо комбинации и использовать дорогостоящие устройства. В настоящее время такая система защиты используется лишь как дополнение к имеющейся, либо, когда безопасность системы не критична:
■ Доступ к информации по телефону (информация о состоянии банковского счета, информация из баз данных и т.п.).
■ Доступ сотрудников в служебные помещения.
• Анализ диалогов, записей переговоров во время аварийных ситуаций, телефонных разговоров и др., используемых в криминалистике и судебной экспертизе.
Однако вопрос получения систем с высокоточным распознаванием дикторов до сих пор остается открытым. Продолжается поиск таких моделей, которые способны повысить качество распознавания с сохранением или увеличением скорости идентификации. Аналогичные цели ставятся в данной исследовательской работе. Проводится анализ существующих методов и предлагается новый для данной задачи подход, заключающийся в выделении речевых признаков, полученных с помощью ограниченной машины Больцмана. Также проводится сравнение зависимости качества распознавания и скорости обучения в указанных условиях от поступающих на вход ограниченной машины Больцмана векторов-признаков, уровня шума, количества идентифицируемых дикторов, классификаторов и их параметров обучения. В результате работы ожидается получение алгоритма распознавания дикторов на основе ограниченной машины Больцмана (GBRBM), составление рекомендаций по его использованию по результатам экспериментов.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Задача идентификации дикторов по голосу окружена широким кругом исследований и экспериментов, которые при положительных результатах позволяют улучшить существующие системы распознавания и даже открыть новые сферы применения. Данная работа и работа [1] показывают возможность увеличения качества распознавания дикторов по голосу с применением ограниченной машины Больцмана для получения новых векторов-признаков. Проведенные опыты позволяют подобрать параметры в зависимости от требований к скорости обучения, скорости распознавания, качеству классификации, классификации при наличии шумовых составляющих, ограниченной длине обучающих файлов, а также к количеству распознаваемых дикторов. Таким образом, использование ограниченной машины Больцмана позволит улучшить результаты работы систем идентификации, с правильно подобранными в зависимости от требований параметрами.
При необходимости, в продолжении работы могут быть рассмотрены и другие векторы-признаков. Возможно усложнение классификаторов, а также рассмотрение поведения системы при использовании глубоких нейронных сетей и ограниченный машины Больцмана, как их основы.


1. Васильева, Р.Л. Идентификация дикторов с помощью машин Больцмана / Р.Л. Васильева - Казань 2015.
2. Вишнякова О. А. Подходы к задаче идентификации диктора / О. А. Вишнякова, Д. Н. Лавров - МСиМ. 2011. №1 (22) С.48-54.
3. Заковряшин, А. С. Применение распределений мел-частотных кепстральных коэффициентов для голосовой идентификации личности / А. С. Заковряшин, П. В. Малинин, А. А. Лепендин - Известия АлтГУ. 2014. №1 (81) С.156-160.
4. Кудашев, О.Ю. Система разделения дикторов на основе вероятностного линейного дискриминантного анализа / О.Ю. Кудашев - СПб. 2014 С.14-24.
5. Первушин, Е. А. Обзор основных методов распознавания дикторов / Е. А. Первушин - МСиМ. 2011. №3 (24) С.41-54.
6. Разинков, Е.В. лекции по курсу: «Машинное обучение» / Е.В. Разинков - Казань 2015.
7. Hinton G. A Practical Guide to Training Restricted Boltzmann Machines / Department of Computer Science, University of Toronto 2010.
8. Агапиев А.Н., Милашенко В.И. Идентификация пользователей по голосу.http://speech-soft.ru/user-identification-by-voice
9. Баженов Д. Оценка классификатора (точность, полнота, F- мера) 2012. http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html
10. Борисов Е.С. Ассоциативная память на основе ограниченной машины Больцмана (RBM) 2014.http://mechanoid.kiev.ua/neural-net-boltzman-restr.html
11. Галунов В.И. Верификация и идентификация говорящего.http://speech- soft.ru/info/verifikaciya-i-identifikaciya-govoryashchego
12. Ерофеев А. Voice Activity Detection 2013.https://habrahabr.ru/post/192954/
13. Нестеров П. Ограниченная машина Больцмана как основа глубоких нейронных сетей 2015.http://synthesis.ipi.ac.ru/sigmod/seminar/s20150129
14. Нестеров П. Реализация Restricted Boltzmann machine на с# 2012. https://habrahabr.ru/post/159909/
15. Vanderplas J. Understanding the FFT Algorithm 2013. https://jakevdp.github.io/blog/2013/08/28/understanding-the-fft/
16. Wikipedia, Signal-to-noise ratio. https://en.wikipedia.org/wiki/Signal-to-
noise ratio
17. Wikipedia, Support vector machine.
https://en. wikipedia. org/wiki/Support vector machine
18. Voicebox: a speech processing toolbox for MATLAB.
http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox/voicebox.html


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ