Тип работы:
Предмет:
Язык работы:


Сравнение методов распознавания дикторов при наличии помех в речевом сигнале

Работа №30510

Тип работы

Дипломные работы, ВКР

Предмет

информационные системы

Объем работы42
Год сдачи2018
Стоимость6300 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
344
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 5
1.1 Описание преобразований сигналов 6
1.1.1 ^-преобразование 6
1.1.2 Преобразование Фурье 6
1.1.3 Дискретное преобразование Фурье 6
1.1.4 Окно Ханна (Хеннинга) 7
1.1.5 Мел-частотные кепстральные коэффициенты 8
1.2 Описание используемых классификаторов 9
1.2.1 K ближайших соседей 9
1.2.2 Случайный лес 10
1.2.3 Искусственные нейронные сети 11
1.2.4 Сверточные нейронные сети 12
1.2.5 Обучение нейронной сети 13
2 ЭКСПЕРИМЕНТЫ 15
2.1 Описание набора данных 15
2.2 Метрика качества 15
2.3 Программная реализация 15
2.4 Стандартизация 16
2.5 Выбор преобразования сигнала для получения оптимальных векторов
характеристик 16
2.6 Исследования параметров для классификатора k ближайших соседей .. 20
2.7 Исследования параметров для классификатора Random Forest 2 1
2.8 Исследование параметров для классификатора многослойный
персептрон 22
2.9 Исследование параметров классификатора на основе сверточных
нейронных сетей 24
2.10 Исследование качества классификации в зависимости от длины речевого
сигнала 25
2.11 Исследование достоверности в зависимости от уровня шума 27
2.12 Исследование достоверности и времени классификации в зависимости
от количества дикторов 29
ЗАКЛЮЧЕНИЕ 3 1
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 32
ПРИЛОЖЕНИЕ

Развитие цифровой вычислительной техники повлекло за собой развитие такой сферы, как цифровая обработка сигнала. Цифровая обработка сигнала - это область, в которой исследуются способы обработки сигналов на основе численных методов с использованием вычислительной техники. Обработка сигналов широко используется в обработке звука и изображений.
В настоящий момент, можно выделить перспективные области, в которых используется обработка звука: управление по голосу, распознавание речи, распознавание диктора по голосу.
Задача распознавания диктора по голосу была поставлена более 40 лет тому назад, и исследования в этой области все еще продолжаются[1]. Эту задачу делят на две задачи: верификацию и идентификацию. В верификации требуется подтвердить, что данный голос принадлежит данному диктору. В идентификации же, по голосу нужно определить диктора, которому принадлежит этот голос. Решение задачи распознавания речи может найти применение:
• В криминалистике и судебной экспертизе - определение того, принадлежит данная запись голоса (например, телефонного звонка), подозреваемому;
• В радио-разведке, контр-разведке, антитерростическом мониторинге - как пример, идентификация человека при сообщении о бомбе;
• В сегментации дикторов - необходима при разметке звуковых стенограмм, телеконференций, интервью;
• А также во многих других областях.
Целью работы является построение различных классификаторов способных определить принадлежность короткого речевого сигнала (длиной 10-30 мс) к одному из дикторов, записи голоса которых уже имеются. Помимо этого, требуется определить наиболее оптимальные параметры классификаторов, а также сравнить качество классификации при различном уровне шума в сигнале, различном количестве дикторов и различной длине речевого сигнала.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Были построены и обучены четыре различных классификатора (k ближайших соседей, случайный лес, многослойный персептрон, сверточная нейронная сеть) для решения задачи идентификации дикторов. По результатам экспериментов можно сказать, сверточные нейронные сети лучше других алгоритмов справляются с задачей идентификации при большом числе дикторов (9 и более), при этом этот классификатор имеет примерно те же временные затраты (если учитывать время получения коэффициентов FFT, MFCC из сигнала) что и многослойный персептрон. В эксперименте с добавлением шума в сигнал лучшие показатели достоверности имеет многослойный персептрон, при этом имея временные затраты (не учитывая получения коэффициентов FFT, MFCC) равные 9.6 * 10-6 секунд, использование видеокарты может заметно уменьшить временные затраты (в экспериментах удалось получить 5.8 * 10-7 секунд на классификацию одного примера). Что касается kNN и Random Forest, то они справляются с этой задачей хуже, чем два вышеописанных, при этом kNN требует огромного времени на классификацию примеров, а Random Forest требует большого количества оперативной памяти.


1. Сорокин, В.Н., Вьюгин, В.В., Тананыкин, А.А. Распознование личности по голосу: аналитический обзор // Информационные процессы, Том 12, №1, стр. 1-30. 2012.
2. Рабинер, Л.Р. , Шафер, Р.В. Цифровая обработка речевых сигналов- Москва: Радио и связь, 1981. - 496 с.
3. Заковряшин, А.С., Малинин, П.В., Лепендин, А.А. Применение распределений мел-частотных кепстральных коэффициентов для голосовой идентификации личности // Управление, вычислительная техника и информатика, стр. 156-160. 2014.
4. Huang X., Acero A., Hon H-W.. Spoken language processing: A guide to theory, algorithm, and system development. New York: Prentice Hall, 2001.- 980 c.
5. Benesty J., Sondhi M. M., Huang Y. Springer Handbook of Speech Processing. New York : Springer, 2007.- 1176 c.
6. He K., Zhang X., Ren S., Sun J. Delving Deep into Rectifiers Surpassing Human-Level Performance on ImageNet Classification //arXiv preprint arXiv:1512.03385. - 2015.
7. Kingma D., Ba J. Adam: A method for stochastic optimization //arXiv preprint arXiv: 1412.6980. - 2014.
8. Флах П., Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - Москва: ДМК Пресс 2015.- 400 с.
9. Хайкин С. Нейронные сети: полный курс - Москва: Вильямс, 2006.¬1104 с.
10. Goodfellow I., Bengio Y., Courville A. Deep Learning. MIT Press, 2016.-787 c.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ