Тема: Сравнение методов распознавания дикторов при наличии помех в речевом сигнале
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 5
1.1 Описание преобразований сигналов 6
1.1.1 ^-преобразование 6
1.1.2 Преобразование Фурье 6
1.1.3 Дискретное преобразование Фурье 6
1.1.4 Окно Ханна (Хеннинга) 7
1.1.5 Мел-частотные кепстральные коэффициенты 8
1.2 Описание используемых классификаторов 9
1.2.1 K ближайших соседей 9
1.2.2 Случайный лес 10
1.2.3 Искусственные нейронные сети 11
1.2.4 Сверточные нейронные сети 12
1.2.5 Обучение нейронной сети 13
2 ЭКСПЕРИМЕНТЫ 15
2.1 Описание набора данных 15
2.2 Метрика качества 15
2.3 Программная реализация 15
2.4 Стандартизация 16
2.5 Выбор преобразования сигнала для получения оптимальных векторов
характеристик 16
2.6 Исследования параметров для классификатора k ближайших соседей .. 20
2.7 Исследования параметров для классификатора Random Forest 2 1
2.8 Исследование параметров для классификатора многослойный
персептрон 22
2.9 Исследование параметров классификатора на основе сверточных
нейронных сетей 24
2.10 Исследование качества классификации в зависимости от длины речевого
сигнала 25
2.11 Исследование достоверности в зависимости от уровня шума 27
2.12 Исследование достоверности и времени классификации в зависимости
от количества дикторов 29
ЗАКЛЮЧЕНИЕ 3 1
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 32
ПРИЛОЖЕНИЕ
📖 Введение
В настоящий момент, можно выделить перспективные области, в которых используется обработка звука: управление по голосу, распознавание речи, распознавание диктора по голосу.
Задача распознавания диктора по голосу была поставлена более 40 лет тому назад, и исследования в этой области все еще продолжаются[1]. Эту задачу делят на две задачи: верификацию и идентификацию. В верификации требуется подтвердить, что данный голос принадлежит данному диктору. В идентификации же, по голосу нужно определить диктора, которому принадлежит этот голос. Решение задачи распознавания речи может найти применение:
• В криминалистике и судебной экспертизе - определение того, принадлежит данная запись голоса (например, телефонного звонка), подозреваемому;
• В радио-разведке, контр-разведке, антитерростическом мониторинге - как пример, идентификация человека при сообщении о бомбе;
• В сегментации дикторов - необходима при разметке звуковых стенограмм, телеконференций, интервью;
• А также во многих других областях.
Целью работы является построение различных классификаторов способных определить принадлежность короткого речевого сигнала (длиной 10-30 мс) к одному из дикторов, записи голоса которых уже имеются. Помимо этого, требуется определить наиболее оптимальные параметры классификаторов, а также сравнить качество классификации при различном уровне шума в сигнале, различном количестве дикторов и различной длине речевого сигнала.



