📄Работа №30510

Тема: Сравнение методов распознавания дикторов при наличии помех в речевом сигнале

📝

Тип работы Дипломные работы, ВКР

📚

Предмет информационные системы

📄

Объем: 42 листов

📅

Год: 2018

👁️

6300 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

ВВЕДЕНИЕ 4
1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 5
1.1 Описание преобразований сигналов 6
1.1.1 ^-преобразование 6
1.1.2 Преобразование Фурье 6
1.1.3 Дискретное преобразование Фурье 6
1.1.4 Окно Ханна (Хеннинга) 7
1.1.5 Мел-частотные кепстральные коэффициенты 8
1.2 Описание используемых классификаторов 9
1.2.1 K ближайших соседей 9
1.2.2 Случайный лес 10
1.2.3 Искусственные нейронные сети 11
1.2.4 Сверточные нейронные сети 12
1.2.5 Обучение нейронной сети 13
2 ЭКСПЕРИМЕНТЫ 15
2.1 Описание набора данных 15
2.2 Метрика качества 15
2.3 Программная реализация 15
2.4 Стандартизация 16
2.5 Выбор преобразования сигнала для получения оптимальных векторов
характеристик 16
2.6 Исследования параметров для классификатора k ближайших соседей .. 20
2.7 Исследования параметров для классификатора Random Forest 2 1
2.8 Исследование параметров для классификатора многослойный
персептрон 22
2.9 Исследование параметров классификатора на основе сверточных
нейронных сетей 24
2.10 Исследование качества классификации в зависимости от длины речевого
сигнала 25
2.11 Исследование достоверности в зависимости от уровня шума 27
2.12 Исследование достоверности и времени классификации в зависимости
от количества дикторов 29
ЗАКЛЮЧЕНИЕ 3 1
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 32
ПРИЛОЖЕНИЕ

📖 Введение

Развитие цифровой вычислительной техники повлекло за собой развитие такой сферы, как цифровая обработка сигнала. Цифровая обработка сигнала - это область, в которой исследуются способы обработки сигналов на основе численных методов с использованием вычислительной техники. Обработка сигналов широко используется в обработке звука и изображений.
В настоящий момент, можно выделить перспективные области, в которых используется обработка звука: управление по голосу, распознавание речи, распознавание диктора по голосу.
Задача распознавания диктора по голосу была поставлена более 40 лет тому назад, и исследования в этой области все еще продолжаются[1]. Эту задачу делят на две задачи: верификацию и идентификацию. В верификации требуется подтвердить, что данный голос принадлежит данному диктору. В идентификации же, по голосу нужно определить диктора, которому принадлежит этот голос. Решение задачи распознавания речи может найти применение:
• В криминалистике и судебной экспертизе - определение того, принадлежит данная запись голоса (например, телефонного звонка), подозреваемому;
• В радио-разведке, контр-разведке, антитерростическом мониторинге - как пример, идентификация человека при сообщении о бомбе;
• В сегментации дикторов - необходима при разметке звуковых стенограмм, телеконференций, интервью;
• А также во многих других областях.
Целью работы является построение различных классификаторов способных определить принадлежность короткого речевого сигнала (длиной 10-30 мс) к одному из дикторов, записи голоса которых уже имеются. Помимо этого, требуется определить наиболее оптимальные параметры классификаторов, а также сравнить качество классификации при различном уровне шума в сигнале, различном количестве дикторов и различной длине речевого сигнала.

✅ Заключение

Были построены и обучены четыре различных классификатора (k ближайших соседей, случайный лес, многослойный персептрон, сверточная нейронная сеть) для решения задачи идентификации дикторов. По результатам экспериментов можно сказать, сверточные нейронные сети лучше других алгоритмов справляются с задачей идентификации при большом числе дикторов (9 и более), при этом этот классификатор имеет примерно те же временные затраты (если учитывать время получения коэффициентов FFT, MFCC из сигнала) что и многослойный персептрон. В эксперименте с добавлением шума в сигнал лучшие показатели достоверности имеет многослойный персептрон, при этом имея временные затраты (не учитывая получения коэффициентов FFT, MFCC) равные 9.6 * 10-6 секунд, использование видеокарты может заметно уменьшить временные затраты (в экспериментах удалось получить 5.8 * 10-7 секунд на классификацию одного примера). Что касается kNN и Random Forest, то они справляются с этой задачей хуже, чем два вышеописанных, при этом kNN требует огромного времени на классификацию примеров, а Random Forest требует большого количества оперативной памяти.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Сорокин, В.Н., Вьюгин, В.В., Тананыкин, А.А. Распознование личности по голосу: аналитический обзор // Информационные процессы, Том 12, №1, стр. 1-30. 2012.
2. Рабинер, Л.Р. , Шафер, Р.В. Цифровая обработка речевых сигналов- Москва: Радио и связь, 1981. - 496 с.
3. Заковряшин, А.С., Малинин, П.В., Лепендин, А.А. Применение распределений мел-частотных кепстральных коэффициентов для голосовой идентификации личности // Управление, вычислительная техника и информатика, стр. 156-160. 2014.
4. Huang X., Acero A., Hon H-W.. Spoken language processing: A guide to theory, algorithm, and system development. New York: Prentice Hall, 2001.- 980 c.
5. Benesty J., Sondhi M. M., Huang Y. Springer Handbook of Speech Processing. New York : Springer, 2007.- 1176 c.
6. He K., Zhang X., Ren S., Sun J. Delving Deep into Rectifiers Surpassing Human-Level Performance on ImageNet Classification //arXiv preprint arXiv:1512.03385. - 2015.
7. Kingma D., Ba J. Adam: A method for stochastic optimization //arXiv preprint arXiv: 1412.6980. - 2014.
8. Флах П., Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных - Москва: ДМК Пресс 2015.- 400 с.
9. Хайкин С. Нейронные сети: полный курс - Москва: Вильямс, 2006.¬1104 с.
10. Goodfellow I., Bengio Y., Courville A. Deep Learning. MIT Press, 2016.-787 c.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (208326)

Статьи

»» Все статьи

Вход в личный кабинет