Тип работы:
Предмет:
Язык работы:


Исследование методов распознавания многоголосой речи

Работа №142506

Тип работы

Бакалаврская работа

Предмет

прикладная информатика

Объем работы43
Год сдачи2022
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
26
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
1. Обзорный раздел по предметной области 6
1.1. Метрики 6
1.2. Существующие решения 7
1.3. Представленное решение 11
1.4. Расширение на случай распознавания в режиме реального
времени 12
1.5. Определение временных границ слов 14
2. Распознавание многоголосой речи 16
2.1. Модель: многоканальный трансформер 16
2.2. Данные 17
2.3. Референсные решения 20
2.4. Результаты 21
2.5. Анализ результатов 23
2.6. Итоги 23
3. Распознавание многоголосой речи в режиме реального времени 28
3.1. Модель 28
3.2. Определение временных границ слов 33
3.3. Данные 37
3.4. Результаты 37
Заключение 40
Благодарность 40
Список литературы 41

Распознавание речи — это задача определения текста, произнесенного на аудиосигнале. Эта задача кажется сложной для решения компьютером, од­нако современные методы машинного обучения уже неплохо справляются с ней. Голосовые компьютерные технологии, решающие задачу распознавания речи, находят применение во многих аспектах человеческой жизни: в исполь­зовании голосовых помощников, в управлении смартфонами для незрячих людей, при транскрибации голосовых сообщений.
Периодически в речевых технологиях возникает ситуация многоголос­ной речи, то есть когда в аудиозаписи содержится речь нескольких человек. Решения задачи распознавания речи в таких ситуациях обычно выдают всю речь одним текстом, никак не определяя конкретных говорящих у распознан­ных слов. Если же требуется определить произнесенные тексты для каждого говорящего отдельно, возникает задача распознавания многоголосной речи.
Системы для автоматического распознавания многоголосой речи могут оказаться чрезвычайно важными в плане улучшения качества человеческой жизни, т.к. имеют множество точек приложения. Так, они могут быть ис­пользованы для разметки и дальнейшего анализа различных аудиоданных, например, разметки диалогов на конференциях или персональных встречах для дальнейшего использования распознанных диалогов. Другое применение таких технологий — разметка большого количества диалоговых аудиозапи­сей для получения данных, по которым будущие технологии искусственного интеллекта смогут обучаться, чтобы имитировать диалоговую речь, т.е. раз­говаривать с человеком. Еще одной точкой приложения данной технологии является ее использование в субтитрах для последующего перевода на дру­гой язык, либо для людей с пониженным слухом при просмотре фильмов или видеотрансляций.
В общем случае в задаче распознавания многоголосной речи заранее не известно количество человек, участвующих в разговоре, как и неизвестна какая-либо дополнительная информация о говорящих. Еще одной сложно­стью задачи является периодически возникающая ситуация пересекающейся речи (когда люди друг друга перебивают).
Распознавание многоголосой речи тесно связано с диаризацией — зада­чей, в которой необходимо по входной аудиозаписи разбить ее на несколько сегментов и обозначить каждому из них уникальный номер говорящего, голос которого звучит на всем этом сегменте. В ситуациях пересекающейся речи эти сегменты должны пересекаться. Решение задачи распознавания многого­лосой речи фактически является комбинацией решения задачи диаризации и задачи обычного распознавания речи для случаев непересекающейся речи.
Важной постановкой задачи является случай распознавания многоголо­сой речи в реальном времени. Системы, решающие такую постановку задачи, должны дополнять гипотезу распознавания в соответствии с дополняющей­ся в реальном времени аудиозаписью. Потенциальные способы применения таких систем включают в себя, например, автоматическое проставление суб­титров к новостным репортажам. Также такие системы могут помочь в авто­матическом решении задачи синхронного перевода.
В текущем прогрессе в направлении автоматического распознавания многоголосой речи присутствуют методы, недостаточно качественно распо­знающие многоголосую речь, либо качественные методы, распознающие речь слишком долго, что может послужить проблемой в случае распознавания в ре­жиме реального времени (например, система может не успевать распознавать речь вовремя, то есть выдавать распознавания части аудио сильно позже, чем это аудио было получено), либо тратить больше вычислительных ресурсов.
В данной работе рассматривается способ автоматического распознава­ния многоголосной речи, а также его расширение для случая распознавания в реальном времени. Способ выдает результаты, сравнимые по качеству с результатами текущих передовых методов решения этой проблемы, однако требует меньше вычислительных ресурсов и времени для исполнения. Постав­ленная задача является слишком обширной, поэтому в работе рассмотрена лишь ситуация, когда в разговоре на входной аудиозаписи участвует не бо­лее двух человек. Однако потенциально архитектуру представленной модели можно обобщить до ситуации любого ограниченного числа говорящих. Экс­перименты над такими моделями не проводились и являются перспективой развития данной работы.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


По итогам исследования была построена модель, решающая задачу рас­познавания многоголосной речи не более чем двух говорящих. В отличии от других возможных решений задачи распознавания многоголосой речи, по­строенное решение требует меньшее число запусков модели для его исполь­зования, поэтому оно может быть полезно в ситуациях, когда время работы модели является критическим местом (например, в задаче распознавания ре­чи в режиме реального времени).
Модель была обучена и протестирована на синтетических данных из LibriSpeech и показала качество сравнимое с текущими лучшими state-of- the-art-решениями и лучше, чем у референсного решения, использующего отдельную модель для разделения исходного сигнала на каналы. Кроме того, эта модель показала малое отличие результатов от модели, распознающей одного говорящего, в случае таких данных.
Другим результатом данной работы является представленное расши­рение этой модели (либо любой другой авторегрессионной модели, распо­знающей нескольких говорящих) на случай распознавания аудиозаписей в режиме реального времени. Это решение было протестировано на синтети­чески смешанных длинных аудиозаписях, составленных из записей датасета LibriSpeech.
Дополнительным результатом является представленное решение для определения временных границ распознанных слов, обобщающее стандарт­ный метод на случай нескольких говорящих. Такое решение было успешно использовано для распознавания аудиозаписей в режиме реального времени.


[1] Adelbert Bronkhorst. “The Cocktail Party Phenomenon: A Review of Research on Speech Intelligibility in Multiple-Talker Conditions”. В: Acta Acustica united with Acustica 86 (янв. 2000), с. 117—128.
[2] Yusuke Fujita и др. “End-To-End Neural Speaker Diarization With Self-Attention”. В: (2019). arXiv: 1909.06247 [quant-ph].
[3] Awni Hannun. “Sequence modeling with ctc”. В: Distill 2.11 (2017), e8.
[4] Naoyuki Kanda и др. “End-to-End Speaker-Attributed ASR with Transformer”. В: (2021). arXiv: 2104.02128 [quant-ph].
[5] Naoyuki Kanda и др. “Joint Speaker Counting, Speech Recognition, and Speaker Identification for Overlapped Speech of Any Number of Speakers”. В: (2020). arXiv: 2006.10930 [quant-ph].
[6] Naoyuki Kanda и др. “Simultaneous Speech Recognition and Speaker Diarization for Monaural Dialogue Recordings with Target-Speaker Acoustic Models”. В: (2019). arXiv: 1909.08103 [quant-ph].
[7] Jaehyeon Kim, Jungil Kong и Juhee Son. “Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to- Speech”. В: (2021). arXiv: 2106.06103 [quant-ph].
[8] Oleksii Kuchaiev и др. “Nemo: a toolkit for building ai applications using neural modules”. В: arXiv preprint arXiv:1909.09577 (2019).
[9] Taku Kudo и John Richardson. “SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing”. В: (2018). arXiv: 1808.06226 [quant-ph].
[10] Jason Li и др. “Jasper: An End-to-End Convolutional Neural Acoustic Model”. В: (2019). arXiv: 1904.03288 [quant-ph].
[11] Naihan Li и др. “Neural Speech Synthesis with Transformer Network”. В: (2018). arXiv: 1809.08895 [quant-ph].
[12] Ilya Loshchilov и Frank Hutter. “Decoupled Weight Decay Regularization”. В: (2018). arXiv: 1711.05101 [quant-ph].
[13] Vitaliy Lyudvichenko и Dmitriy Vatolin. “Predicting video saliency using crowdsourced mouse-tracking data”. В: (2019). arXiv: 1907 . 00480 [quant-ph].
[14] Abdelrahman Mohamed, Dmytro Okhonko и Luke Zettlemoyer. “Transformers with convolutional context for ASR”. В: (2020). arXiv: 1904.11660 [quant-ph].
[15] Vassil Panayotov и др. “Librispeech: An ASR corpus based on public domain audio books”. В: 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015, с. 5206— 5210. DOI: 10.1109/ICASSP.2015.7178964....25


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ