Тип работы:
Предмет:
Язык работы:


Методы машинного обучения в задаче распознавания аудиосигнала

Работа №127778

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы41
Год сдачи2022
Стоимость4210 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
15
Не подходит работа?

Узнай цену на написание


1. Введение 2
1.1. Постановка задачи 3
2. Обзор существующих методов 4
2.1. Предобработка звука 4
Подготовка звука 4
Создание спектограммы 4
2.2. Сверточная нейронная сеть (CNN) 6
2.3. Рекуррентная нейронная сеть (RNN) 6
2.4. Сети с долгой кратковременной памятью (LSTM) 7
2.5. Закрытый рекуррентный блок GRU 9
2.6. DeepSpeech 10
2.7. DeepSpeech 2 11
2.8. QuartzNet 14
3. Эксперименты по обучению моделей 17
3.1. Данные для распознавания речи LJ Speech Dataset 17
3.2. Функция ошибки 17
3.3. Тестирование и сравнение моделей 18
3.4. Возможные улучшения полученных результатов 19
4. Результаты 20
5. Список литературы 21
6. Приложение 23


Автоматическое распознавание речи (Automatic speech recognition - ASR) - сфера, которая активно исследуется последние пять десятилетий, эта тема считается важным пунктом улучшения взаимодействия в сценариях человек - человек и человек-машина. Однако, в недалёком прошлом речь не являлась ключевым инструментом во взаимодействии человека и машины. Отчасти это связано с тем, что инструменты распознавания речи в то время были недостаточно хороши, чтобы преодолеть необходимый уровень точности и использоваться в реальных условиях. В то же время, альтернативные способы взаимодействия, например клавиатура и мышь, значительно превосходили речь по эффективности, ограничениям и точности.
В последние несколько лет наблюдается новый всплеск интереса к ASR. Это может быть связано с повышением требований к задаче автоматического распознавания речи в мобильных устройствах и успех новых виртуальных речевых помощников (например, Apple’s Siri, Google Now и Microsoft’s Cortana). Не менее важным пунктом является развитие методов глубокого обучения и увеличение вычислительных возможностей. Комбинированное использование методов глубокого обучения позволило уменьшить коэффициент ошибок в распознавании речи больше чем на треть относительно известных раннее классических методов GMM-HMM. Например, на данный момент точность рас-познавания слова для Английского языка достигает 95% и более.
Таким образом, объектом данного исследования является: задача ASR, предметом исследования является: использование актуальных архитектур нейронных сетей для задачи автоматического распознавания речи и сравнение их между собой.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Проведённый обзор современных подходов позволяет оценить подходы к решению задачи автоматического распознавания речи с помощью использования нейросетевых акустических моделей. Анализ архитектур рассмотренных моделей (GRU, LSTM, DeepSpeech, DeepSpeech 2 и QuartzNet) и результаты, полученные при их тестировании, позволяют сделать вывод: модель QuartzNet является наиболее подходящей архитектурой для решения задачи автоматического распознавания речи ввиду меньшего числа параметров и при этом высоких показателей при распознавании (WER).
В ходе выполнения работы были исследованы современные подходы к решению задачи автоматического распознавания речи, рассмотрены детали реализации этих моделей, обучены несколько вариаций нейронных сетей с последующим сравнением между собой.
Полученные модели могут быть использованы для распознавания речи в реальной среде и доработаны для решения реальных задач в сфере автоматического распознавания речи.



1. Levenshtein V. I. Binary codes capable of correcting deletions, insertions and reversals // Sov. Phys. Dokl. 1966. Vol. 6. P. 707—710.
2. Wang, Y.; Acero, A.; Chelba, C. (2003). Is Word Error Rate a Good Indicator for Spoken Language Understanding Accuracy. IEEE Workshop on Automatic Speech Recognition and Understanding. St. Thomas, US Virgin Islands. CiteSeerX 10.1.1.89.424.
3. ImageNet Classification with Deep Convolutional Neural Networks / Alex Krizhevsky [et al.]. -November 2013, 9 S.
4. Juang, B. H., Rabiner, L. R. (1991). Hidden Markov models for speech recognition. Technometrics, 33(3), 251-272.
5. Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., ... Ng, A. Y. (2014). Deep speech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567.
6. Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg, E., Case, C., ... Zhu, Z. (2016, June). Deep speech 2: End-to-end speech recognition in english and mandarin. In International conference on machine learning (pp. 173-182). PMLR.
7. Kriman, S., Beliaev, S., Ginsburg, B., Huang, J., Kuchaiev, O., Lavrukhin, V., ... Zhang, Y. (2020, May). Quartznet: Deep automatic speech recognition with 1d time¬channel separable convolutions. In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6124-6128). IEEE.
8. M. Schuster and K. K. Paliwal. Bidirectional recurrent neural networks. IEEE Transactions on Signal Processing, 45(11):2673-2681, 1997
9. Graves, A., Fernandez, S., Gomez, F., and Schmidhuber, J. Connectionist 36 temporal classification: Labelling unsegmented sequence data with recurrent neural networks. In ICML, pp. 369-376. ACM, 2006.
10. Hochreiter, Sepp and Schmidhuber, Jurgen. Long short-term memory. Neural Computation, 9(8):1735—1780, 1997.
11. A. Graves, S. Fernandez, F. Gomez, and J. Schmidhuber, ' “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,” in
ICML, 2006.
12. J. Li, V. Lavrukhin, B. Ginsburg, R. Leary, O. Kuchaiev, J.M. Cohen, H. Nguyen, and R.T. Gadde, “Jasper: An end-to-end convolutional neural acoustic model,” arXiv:1904.03288, 2019
13. Kuchaiev, O., Li, J., Nguyen, H., Hrinchuk, O., Leary, R., Ginsburg, B., ... Cohen, J. M. (2019). Nemo: a toolkit for building ai applications using neural modules. arXiv preprint arXiv:1909.09577.
14. NVIDIA, QuartzNet15x5Base-En, - https://ngc.nvidia.com/catalog/models/
15. Martin Abadi, Ashish Agarwal, Paul Barham, Eugene Brevdo, Zhifeng Chen, Craig Citro, Greg S. Corrado, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Ian Goodfellow, Andrew Harp, Geoffrey Irving, Michael Isard, Rafal Jozefowicz, Yangqing Jia, Lukasz Kaiser, Manjunath Kudlur, Josh Levenberg, Dan Mane, Mike Schuster, Rajat Monga, Sherry Moore, Derek Murray, Chris Olah, Jonathon Shlens, Benoit Steiner, Ilya Sutskever, Kunal Talwar, Paul Tucker, Vincent Vanhoucke, Vijay Vasudevan, Fernanda Viegas, Oriol Vinyals, Pete Warden, Martin Wattenberg, Martin Wicke, Yuan Yu, and Xiaoqiang Zheng. TensorFlow: Large-scale machine learning on heterogeneous systems, 2015. Software available from tensorflow.org.
16. Bracewell, R. N., Bracewell, R. N. (1986). The Fourier transform and its applications(Vol. 31999, pp. 267-272). New York: McGraw-Hill.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ