📄Работа №215145

Тема: Разработка системы подавления акустического эха в активной аудиосистеме

📝

Тип работы Магистерская диссертация

📚

Предмет информатика

📄

Объем: 54 листов

📅

Год: 2022

👁️

4810 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

ВВЕДЕНИЕ 6
1. ПОСТАНОВКА ЗАДАЧИ 8
2. ОБЗОР АНАЛОГОВ 10
2.1. Обзор связанных работ 10
2.2. Известные подходы 11
3. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 14
3.1. Анализ акустического эхо 14
3.2. Рекуррентная LSTM нейросеть 16
3.3. Алгоритм кластеризации K-Means 18
3.4. Кратковременное преобразование Фурье 21
3.5. Метрики качества модели 22
4. РЕАЛИЗАЦИЯ 24
4.1. Входные данные для модели 24
4.2. Выход модели 24
4.3. Описание модели BLSTM+clustering 25
4.4. Моделирование эхо-сигнала в помещении 26
4.4.1. Моделирование помещения shoebox с помощью метода ISM . 26
4.4.2. Добавление источников и микрофонов 28
4.4.3. Создание импульсной характеристики помещения 29
4.4.4. Формирование эхо-сигнала 30
4.5. Технологии для реализации модели 31
5. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ 32
5.1. Набор данных 32
5.2. Оценка эффективностей моделей с двумя разговорами 32
5.2.1. Оценка эффективности модели BLSTM 32
5.2.2. Оценка эффективности модели BLSTM+K-Means 35
5.2.3. Оценка эффективности модели BLSTM+EM 37
5.2.4. Оценка эффективности модели BLSTM+Mean-Shift 38
5.2.5. Сравнение эффективностей моделей 40
5.3. Оценка эффективностей моделей с одним разговором 41
5.3.1. Оценка эффективности модели BLSTM 41
5.3.2. Оценка эффективности модели BLSTM+K-Means 42
5.3.3. Сравнение эффективностей моделей 44
ЗАКЛЮЧЕНИЕ 45
ЛИТЕРАТУРА 46
ПРИЛОЖЕНИЯ 50
Приложение А. Извлечение входных и выходных данных 50
Приложение Б. Исходный код для обучения BLSTM

📖 Введение

Алгоритмы восстановления речевого сигнала, искаженного аддитивным некоррелированным шумом, в случае, когда доступен только зашумленный сигнал, широко применяются в различных областях цифровой обработки речевых сигналов, таких как распознавание речи, распознавание говорящего, детектирование речевой активности, улучшение качества и разборчивости речевых сигналов и др.[1].С развитием эффективных методов машинного обучения широкое распространение стали получать алгоритмы подавления шума на основе глубоких нейронных сетей [2-4]. Одними из наиболее используемых методов шумоподавления являются методы, основанные на оценке частотно-временных масок[5].Например, в работах [6, 7]в роли целевого выхода нейросетевой модели выступает идеальная двоичная маска (ideal binary mask, IBM).
В настоящей работе разработан алгоритм на основе двунаправленной рекуррентной сети (Bidirectional Long Short-Term Memory, BLSTM) выходом которой является маска IBM. Ключевой особенностью нашего алгоритма является использование кластеризации на выходе нейронной сети. В работе рассмотрены три метода кластеризации (EM, Mean-Shift, k- Means) и проведено сравнение алгоритмов на сигналах базы данных TIMIT на основе общепринятых метрик в обработке речи: ERLE, STOI, PESQ. Показано, что дополнительное использование кластеризации k-Means улучшает работу модели BLSTM.
Цель и задачи работы
Целью выпускной квалификационной работы является разработка системы подавления акустического эха в активной аудиосистеме.
Для достижения поставленной цели необходимо решить следующие задачи:
1) провести анализ существующих методов и алгоритмов подавления
акустического эха;
2) смоделировать систему и подготовить исходные данные;
3) разработать технологии для реализации модели;
4) обучить рекуррентную нейронную сеть BLSTM с использованием среды Python в облаке Google Colab;
5) оценить эффективность модели;
6) сравнить эффективность предложенной модели при использовании алгоритмов кластеризации (K-Means, Mean-Shift, EM), которые применяются к сетевым выходным выборкам.
Структура и объем работы
Работа состоит из введения, пять головы, заключения и списка литературы. Объем работы составляет 54 страниц, объем библиографии – 32 источника.
В первой главе была поставлена и описана задача. Bо второй главе были проведены обзорные работы, связанные с нашим исследованием. Третья глава содержит теоретическую часть, в которой изучались и анализировались алгоритмы и методы, использованные в нашей работе. В четвертой главе была описана и реализована предложенная модель BLSTM+clustering. В пятой и последней главе приведены результаты экспериментов и сравнение эффективности моделей.

✅ Заключение

В работе предложена модель восстановления зашумленного сигнала на основе двунаправленной рекуррентной нейронной сети BLSTM с IBM маской на выходе. Сеть обучалась и тестировалась на наборе данных TIMIT и показала недостаточную эффективность. Далее модель была модифицирована добавлением дополнительного этапа кластеризации данных. Были рассмотрены три метода кластеризации: K-Means, Mean-Shift, EM. Для каждой модели были вычислены метрики ERLE, PESQ, STOI, характеризующие ее качество. Использование алгоритмов кластеризации EM, Mean-Shift оказалось неэффективным по сравнению с методом BLSTM при соотношении сигнал/эхо 10 дБ. При соотношении сигнал/эхо 6 дБ BLSTM+Mean-Shift привел к незначительному улучшению метрики PESQ по сравнению с методом BLSTM.
Использование метода K-Means привело к существенному улучшению все показателей, в отличие от методов Mean-Shift, EM. В сценариях с двойным разговором, при соотношении сигнал/эхо 10 дБ метрика STOI, характеризующая разборчивость речи, улучшилась на 7%, а метрика PESQ, характеризующая качество восстановления речи, на 18.8%.
В дальнейшем предложенная модель BLSTM+k-Means будет использована для задачи подавления акустического эха при наличии шума и нелинейных искажений.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Benesty J., Jensen J., Christensen M., Chen J. Speech Enhancement: A Signal Subspace Perspective. Elsevier Academic Press, 2014. 129 p.
2. Lee C.M., Shin J.W., Kim N.S. DNN-based residual echo suppression // Interspeech 2015, Dresden, Germany, September6–10, 2015. ISCA, 2015. P. 1775 –1779.
3. Zhang H., Wang D. Deep learning for acoustic echo cancellation in noisy and double-talk scenarios // Interspeech 2018, Hyderabad, India, September 2–6, 2018. ISCA, 2018. P. 3239–3243.
4. Zhang H., Tan K., Wang D. Deep learning for joint acoustic echo and noise cancellation with nonlinear distortions // Interspeech 2019, Graz, Austria, September 15–19, 2019. ISCA, 2019. P. 4255–4259.
5. Wang D. On Ideal Binary Mask as the Computational Goal of Auditory Scene Analysis // Speech Separation by Humans and Machines / ed. by P. Divenyi. Springer, Boston, MA, 2005. P. 181–197.
6. Li N., Loizou P.C. Factors influencing intelligibility of ideal binary- masked speech: Implications for noise reduction // J. Acoust. Soc. Am. 2008. Vol. 123, no. 3. P. 1673–1682.
7. Brungart D.S., Chang P.S., Simpson B.D., Wang D. Isolating the energetic component of speech-on-speech masking with ideal time-frequency segregation // J. Acoust. Soc. Am. 2006. Vol. 120, no. 6. P. 4007–4018.
8. Benesty J., G"ansler T., Morgan D.R., et al. Advances in network and acoustic echo cancellation. Springer, Berlin, Heidelberg, 2001. 222 p.
9. Enzner G., Buchner H., Favrot A., Kuech F. Chapter 30 - Acoustic Echo Control // Academic Press Library in Signal Processing: Volume 4 / ed. by J. Trussell, A. Srivastava, A.K. Roy-Chowdhury, et al. ELSEVIER, 2014. P. 807–877.
10. Hamidia M., Amrouche A. A new robust double-talk detector based on the Stockwell transform for acoustic echo cancellation // Digital Signal Processing. 2017. Vol. 60. P. 99–112.
11. Ykhlef F., Ykhlef H. A post-filter for acoustic echo cancellation in frequency domain // 2014 Second World Conference on Complex Systems (WCCS), Agadir, Morocco, Nov 10–12, 2014. IEEE, 2014. P. 446–450.
12. Kuech F., Kellermann W. Nonlinear residual echo suppression using a power filter model of the acoustic echo path //2007 International Conference on Acoustics, Speech and Signal Processing - ICASSP '07, Honolulu, HI, USA, and April 15–20, 2007. IEEE, 2007. P. I –73 –I –76.
13. Malek J., Koldovsk'y Z. Hammerstein model-based nonlinear echo cancelation using a cascade of neural network and adaptive linear filter // 2016 IEEE International Workshop on Acoustic Signal Enhancement (IWAENC), Xi'an, China, Sept 13–16, 2016. IEEE, 2016. P. 1–5.
14. Yang F., Wu M., Yang J. Stereophonic acoustic echo suppression based on wiener filter in the short-time fourier transform domain // IEEE Signal Processing Letters. 2012. Vol. 19, no. 4. P. 227–230.
15. Wang D., Chen J. Supervised speech separation based on deep learning: an overview // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2018. Vol. 26, no. 10. P. 1702–1726.
16. Wang Y., Narayanan A., Wang D. On training targets for supervised speech separation // IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2014. Vol. 22, no. 12. P. 1849–1858.
17. Hochreiter S., Schmidhuber J. Long Short-Term Memory // Neural Computation. 1997. Vol. 9, no. 8. P. 1735–1780.
18. Erdogan H., Hershey J.R., Watanabe S., Roux J.L. Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks //2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), South Brisbane, QLD, Australia, April 19–24, 2015. IEEE, 2015. P. 708–712.
19. Weninger F., Erdogan H., Watanabe S., et al. Speech Enhancement with LSTM Recurrent Neural Networks and its Application to Noise-Robust ASR // Latent Variable Analysis and Signal Separation. Vol. 9237 / ed. by E.
Vincent, A. Yeredor, Z. Koldovsk'y, P. Tichavsk'y. Cham: Springer International Publishing, 2015. P. 91–99. Lecture Notes in Computer Science.
20. Chen J., Wang D. Long short-term memory for speaker generalization in supervised speech separation // The Journal of the Acoustical Society of America. 2017. Vol. 141, no. 6. P. 4705–4714.
21. Голодов В.А., Разработка нейронной сети для задач классификации изображений с малой обучающей выборкой: PhD thesis / Голодов В.А. South Ural State University, Chelyabinsk , 2017.
22. Shumaila M.N. A Comparison of K-Means and Mean Shift Algorithms // International Journal of Theoretical and Applied Mathematics. 2021. Vol. 7, no. 5. P. 76–84.
23. Palmqvist M. Methods and algorithms for quality and performance evaluation of audio conferencing systems: PhD thesis / Palmqvist Maria. Umer a University, Faculty of Science, Technology, Department of Physics, Sweden, 2013.
24. ITU-T. Recommendation P.862, Perceptual Evaluation of Speech Quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs. 2001.
25. Fu S.-W., Liao C.-F., Tsao Y. Learning with Learned Loss Function: Speech Enhancement with Quality-Net to Improve Perceptual Evaluation of Speech Quality // EEE Signal Processing Letters. 2020. Vol. 27. P. 26–30.
26. Zermini A. Deep Learning for Speech Separation: PhD thesis / Zermini Alfredo. University of Surrey, faculty of engineering, physical sciences, Centre for Vision, Speech, Signal Processing (CVSSP), South East of England, UK, 2020.
27. Xia S., Li H., Zhang X. Using Optimal Ratio Mask as Training Target for Supervised Speech Separation // 2017 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Kuala Lumpur, Malaysia, Dec 12–15, 2017. IEEE, 2017. P. 163–166.
28. Allen J.B., Berkley D.A. Image method for efficiently simulating small-room acoustics // The Journal of the Acoustical Society of America. 1998. Vol. 65, no. 4. P. 943–950.
29. Vorlaender M. Auralization: fundamentals of acoustics, modelling, simulation, algorithms and acoustic virtual reality. Berlin: Springer-Verlag, 2008. 340 P.
30. Schroeder D. Physically based real-time auralization of interactive virtual environments: PhD thesis / Schroeder Dirk. RWTH Aachen University, 2011.
31. Reverberation. [Электронный ресурс] URL: https://en.wikipedia.org/wiki/Reverberation(дата обращения: 05.02.2022 г.).
32. Tensorflow. [Электронный ресурс] URL: Https://www.tensorflow.org/.(датаобращения: 05.02.2022 г.).

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (208540)

Статьи

»» Все статьи

Вход в личный кабинет