Тема: Разработка системы подавления акустического эха в активной аудиосистеме
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. ПОСТАНОВКА ЗАДАЧИ 8
2. ОБЗОР АНАЛОГОВ 10
2.1. Обзор связанных работ 10
2.2. Известные подходы 11
3. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 14
3.1. Анализ акустического эхо 14
3.2. Рекуррентная LSTM нейросеть 16
3.3. Алгоритм кластеризации K-Means 18
3.4. Кратковременное преобразование Фурье 21
3.5. Метрики качества модели 22
4. РЕАЛИЗАЦИЯ 24
4.1. Входные данные для модели 24
4.2. Выход модели 24
4.3. Описание модели BLSTM+clustering 25
4.4. Моделирование эхо-сигнала в помещении 26
4.4.1. Моделирование помещения shoebox с помощью метода ISM . 26
4.4.2. Добавление источников и микрофонов 28
4.4.3. Создание импульсной характеристики помещения 29
4.4.4. Формирование эхо-сигнала 30
4.5. Технологии для реализации модели 31
5. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ 32
5.1. Набор данных 32
5.2. Оценка эффективностей моделей с двумя разговорами 32
5.2.1. Оценка эффективности модели BLSTM 32
5.2.2. Оценка эффективности модели BLSTM+K-Means 35
5.2.3. Оценка эффективности модели BLSTM+EM 37
5.2.4. Оценка эффективности модели BLSTM+Mean-Shift 38
5.2.5. Сравнение эффективностей моделей 40
5.3. Оценка эффективностей моделей с одним разговором 41
5.3.1. Оценка эффективности модели BLSTM 41
5.3.2. Оценка эффективности модели BLSTM+K-Means 42
5.3.3. Сравнение эффективностей моделей 44
ЗАКЛЮЧЕНИЕ 45
ЛИТЕРАТУРА 46
ПРИЛОЖЕНИЯ 50
Приложение А. Извлечение входных и выходных данных 50
Приложение Б. Исходный код для обучения BLSTM
📖 Введение
В настоящей работе разработан алгоритм на основе двунаправленной рекуррентной сети (Bidirectional Long Short-Term Memory, BLSTM) выходом которой является маска IBM. Ключевой особенностью нашего алгоритма является использование кластеризации на выходе нейронной сети. В работе рассмотрены три метода кластеризации (EM, Mean-Shift, k- Means) и проведено сравнение алгоритмов на сигналах базы данных TIMIT на основе общепринятых метрик в обработке речи: ERLE, STOI, PESQ. Показано, что дополнительное использование кластеризации k-Means улучшает работу модели BLSTM.
Цель и задачи работы
Целью выпускной квалификационной работы является разработка системы подавления акустического эха в активной аудиосистеме.
Для достижения поставленной цели необходимо решить следующие задачи:
1) провести анализ существующих методов и алгоритмов подавления
акустического эха;
2) смоделировать систему и подготовить исходные данные;
3) разработать технологии для реализации модели;
4) обучить рекуррентную нейронную сеть BLSTM с использованием среды Python в облаке Google Colab;
5) оценить эффективность модели;
6) сравнить эффективность предложенной модели при использовании алгоритмов кластеризации (K-Means, Mean-Shift, EM), которые применяются к сетевым выходным выборкам.
Структура и объем работы
Работа состоит из введения, пять головы, заключения и списка литературы. Объем работы составляет 54 страниц, объем библиографии – 32 источника.
В первой главе была поставлена и описана задача. Bо второй главе были проведены обзорные работы, связанные с нашим исследованием. Третья глава содержит теоретическую часть, в которой изучались и анализировались алгоритмы и методы, использованные в нашей работе. В четвертой главе была описана и реализована предложенная модель BLSTM+clustering. В пятой и последней главе приведены результаты экспериментов и сравнение эффективности моделей.
✅ Заключение
Использование метода K-Means привело к существенному улучшению все показателей, в отличие от методов Mean-Shift, EM. В сценариях с двойным разговором, при соотношении сигнал/эхо 10 дБ метрика STOI, характеризующая разборчивость речи, улучшилась на 7%, а метрика PESQ, характеризующая качество восстановления речи, на 18.8%.
В дальнейшем предложенная модель BLSTM+k-Means будет использована для задачи подавления акустического эха при наличии шума и нелинейных искажений.



