1. Введение 2
1.1. Постановка задачи 3
2. Обзор существующих методов 4
2.1. Предобработка звука 4
Подготовка звука 4
Создание спектограммы 4
2.2. Сверточная нейронная сеть (CNN) 6
2.3. Рекуррентная нейронная сеть (RNN) 6
2.4. Сети с долгой кратковременной памятью (LSTM) 7
2.5. Закрытый рекуррентный блок GRU 9
2.6. DeepSpeech 10
2.7. DeepSpeech 2 11
2.8. QuartzNet 14
3. Эксперименты по обучению моделей 17
3.1. Данные для распознавания речи LJ Speech Dataset 17
3.2. Функция ошибки 17
3.3. Тестирование и сравнение моделей 18
3.4. Возможные улучшения полученных результатов 19
4. Результаты 20
5. Список литературы 21
6. Приложение 23
Автоматическое распознавание речи (Automatic speech recognition - ASR) - сфера, которая активно исследуется последние пять десятилетий, эта тема считается важным пунктом улучшения взаимодействия в сценариях человек - человек и человек-машина. Однако, в недалёком прошлом речь не являлась ключевым инструментом во взаимодействии человека и машины. Отчасти это связано с тем, что инструменты распознавания речи в то время были недостаточно хороши, чтобы преодолеть необходимый уровень точности и использоваться в реальных условиях. В то же время, альтернативные способы взаимодействия, например клавиатура и мышь, значительно превосходили речь по эффективности, ограничениям и точности.
В последние несколько лет наблюдается новый всплеск интереса к ASR. Это может быть связано с повышением требований к задаче автоматического распознавания речи в мобильных устройствах и успех новых виртуальных речевых помощников (например, Apple’s Siri, Google Now и Microsoft’s Cortana). Не менее важным пунктом является развитие методов глубокого обучения и увеличение вычислительных возможностей. Комбинированное использование методов глубокого обучения позволило уменьшить коэффициент ошибок в распознавании речи больше чем на треть относительно известных раннее классических методов GMM-HMM. Например, на данный момент точность рас-познавания слова для Английского языка достигает 95% и более.
Таким образом, объектом данного исследования является: задача ASR, предметом исследования является: использование актуальных архитектур нейронных сетей для задачи автоматического распознавания речи и сравнение их между собой.
Проведённый обзор современных подходов позволяет оценить подходы к решению задачи автоматического распознавания речи с помощью использования нейросетевых акустических моделей. Анализ архитектур рассмотренных моделей (GRU, LSTM, DeepSpeech, DeepSpeech 2 и QuartzNet) и результаты, полученные при их тестировании, позволяют сделать вывод: модель QuartzNet является наиболее подходящей архитектурой для решения задачи автоматического распознавания речи ввиду меньшего числа параметров и при этом высоких показателей при распознавании (WER).
В ходе выполнения работы были исследованы современные подходы к решению задачи автоматического распознавания речи, рассмотрены детали реализации этих моделей, обучены несколько вариаций нейронных сетей с последующим сравнением между собой.
Полученные модели могут быть использованы для распознавания речи в реальной среде и доработаны для решения реальных задач в сфере автоматического распознавания речи.