Введение 3
Постановка задачи 5
1. Обзорный раздел по предметной области 6
1.1. Метрики 6
1.2. Существующие решения 7
1.3. Представленное решение 11
1.4. Расширение на случай распознавания в режиме реального
времени 12
1.5. Определение временных границ слов 14
2. Распознавание многоголосой речи 16
2.1. Модель: многоканальный трансформер 16
2.2. Данные 17
2.3. Референсные решения 20
2.4. Результаты 21
2.5. Анализ результатов 23
2.6. Итоги 23
3. Распознавание многоголосой речи в режиме реального времени 28
3.1. Модель 28
3.2. Определение временных границ слов 33
3.3. Данные 37
3.4. Результаты 37
Заключение 40
Благодарность 40
Список литературы
Распознавание речи — это задача определения текста, произнесенного на аудиосигнале. Эта задача кажется сложной для решения компьютером, однако современные методы машинного обучения уже неплохо справляются с ней. Голосовые компьютерные технологии, решающие задачу распознавания речи, находят применение во многих аспектах человеческой жизни: в использовании голосовых помощников, в управлении смартфонами для незрячих людей, при транскрибации голосовых сообщений.
Периодически в речевых технологиях возникает ситуация многоголосной речи, то есть когда в аудиозаписи содержится речь нескольких человек. Решения задачи распознавания речи в таких ситуациях обычно выдают всю речь одним текстом, никак не определяя конкретных говорящих у распознанных слов. Если же требуется определить произнесенные тексты для каждого говорящего отдельно, возникает задача распознавания многоголосной речи.
Системы для автоматического распознавания многоголосой речи могут оказаться чрезвычайно важными в плане улучшения качества человеческой жизни, т.к. имеют множество точек приложения. Так, они могут быть использованы для разметки и дальнейшего анализа различных аудиоданных, например, разметки диалогов на конференциях или персональных встречах для дальнейшего использования распознанных диалогов. Другое применение таких технологий — разметка большого количества диалоговых аудиозаписей для получения данных, по которым будущие технологии искусственного интеллекта смогут обучаться, чтобы имитировать диалоговую речь, т.е. разговаривать с человеком. Еще одной точкой приложения данной технологии является ее использование в субтитрах для последующего перевода на другой язык, либо для людей с пониженным слухом при просмотре фильмов или видеотрансляций.
В общем случае в задаче распознавания многоголосной речи заранее не известно количество человек, участвующих в разговоре, как и неизвестна какая-либо дополнительная информация о говорящих. Еще одной сложностью задачи является периодически возникающая ситуация пересекающейся речи (когда люди друг друга перебивают).
Распознавание многоголосой речи тесно связано с диаризацией — задачей, в которой необходимо по входной аудиозаписи разбить ее на несколько сегментов и обозначить каждому из них уникальный номер говорящего, голос которого звучит на всем этом сегменте. В ситуациях пересекающейся речи эти сегменты должны пересекаться. Решение задачи распознавания многоголосой речи фактически является комбинацией решения задачи диаризации и задачи обычного распознавания речи для случаев непересекающейся речи.
Важной постановкой задачи является случай распознавания многоголосой речи в реальном времени. Системы, решающие такую постановку задачи, должны дополнять гипотезу распознавания в соответствии с дополняющейся в реальном времени аудиозаписью. Потенциальные способы применения таких систем включают в себя, например, автоматическое проставление субтитров к новостным репортажам. Также такие системы могут помочь в автоматическом решении задачи синхронного перевода.
В текущем прогрессе в направлении автоматического распознавания многоголосой речи присутствуют методы, недостаточно качественно распознающие многоголосую речь, либо качественные методы, распознающие речь слишком долго, что может послужить проблемой в случае распознавания в ре-жиме реального времени (например, система может не успевать распознавать речь вовремя, то есть выдавать распознавания части аудио сильно позже, чем это аудио было получено), либо тратить больше вычислительных ресурсов.
В данной работе рассматривается способ автоматического распознавания многоголосной речи, а также его расширение для случая распознавания в реальном времени. Способ выдает результаты, сравнимые по качеству с результатами текущих передовых методов решения этой проблемы, однако требует меньше вычислительных ресурсов и времени для исполнения. Поставленная задача является слишком обширной, поэтому в работе рассмотрена лишь ситуация, когда в разговоре на входной аудиозаписи участвует не более двух человек. Однако потенциально архитектуру представленной модели можно обобщить до ситуации любого ограниченного числа говорящих. Эксперименты над такими моделями не проводились и являются перспективой развития данной работы.
Постановка задачи
В данной работе рассматривается подход к решению задачи автоматического распознавания многоголосой речи не более двух человек с возможными пересечениями. Такой подход показывает результаты, сравнимые по качеству с текущими передовыми решениями, однако требует меньшего времени и ресурсов для исполнения.
В рамках работы приведены следующие две модели:
1. Модель для распознавания многоголосой речи. Такой модели на вход приходит аудиосигнал, на котором звучит речь нескольких человек (одного или двух), а на выходе она должна выдать несколько текстов-распознаваний речи каждого из участников разговора.
2. Расширение первой модели (или других возможных моделей для распознавания многоголосой речи) для случая распознавания в режиме реального времени. Такой модели на вход в реальном времени поступают части аудиозаписи разговора не более двух человек, после каждой новой части аудиозаписи на выходе модель выдает общее распознавание всей прозвучавшей на текущий момент речи. Такое расширение также помогает с проблемами первого решения, возникающими при распознавании длинных аудиозаписей.
По итогам исследования была построена модель, решающая задачу рас-познавания многоголосной речи не более чем двух говорящих. В отличии от других возможных решений задачи распознавания многоголосой речи, построенное решение требует меньшее число запусков модели для его использования, поэтому оно может быть полезно в ситуациях, когда время работы модели является критическим местом (например, в задаче распознавания речи в режиме реального времени).
Модель была обучена и протестирована на синтетических данных из LibriSpeech и показала качество сравнимое с текущими лучшими state-of- the-art-решениями и лучше, чем у референсного решения, использующего отдельную модель для разделения исходного сигнала на каналы. Кроме того, эта модель показала малое отличие результатов от модели, распознающей одного говорящего, в случае таких данных.
Другим результатом данной работы является представленное расширение этой модели (либо любой другой авторегрессионной модели, распознающей нескольких говорящих) на случай распознавания аудиозаписей в режиме реального времени. Это решение было протестировано на синтетически смешанных длинных аудиозаписях, составленных из записей датасета LibriSpeech.
Дополнительным результатом является представленное решение для определения временных границ распознанных слов, обобщающее стандартный метод на случай нескольких говорящих. Такое решение было успешно использовано для распознавания аудиозаписей в режиме реального времени.
[1] Adelbert Bronkhorst. “The Cocktail Party Phenomenon: A Review of Research on Speech Intelligibility in Multiple-Talker Conditions”. В: Acta Acustica united with Acustica 86 (янв. 2000), с. 117—128.
[2] Yusuke Fujita и др. “End-To-End Neural Speaker Diarization With Self-Attention”. В: (2019). arXiv:1909.06247 [quant-ph].
[3] Awni Hannun. “Sequence modeling with ctc”. В: Distill 2.11 (2017), e8.
[4] Naoyuki Kanda и др. “End-to-End Speaker-Attributed ASR with Transformer”. В: (2021). arXiv:2104.02128 [quant-ph].
[5] Naoyuki Kanda и др. “Joint Speaker Counting, Speech Recognition, and Speaker Identification for Overlapped Speech of Any Number of Speakers”. В: (2020). arXiv:2006.10930 [quant-ph].
[6] Naoyuki Kanda и др. “Simultaneous Speech Recognition and Speaker Diarization for Monaural Dialogue Recordings with Target-Speaker Acoustic Models”. В: (2019). arXiv:1909.08103 [quant-ph].
[7] Jaehyeon Kim, Jungil Kong и Juhee Son. “Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to- Speech”. В: (2021). arXiv:2106.06103 [quant-ph].
[8] Oleksii Kuchaiev и др. “Nemo: a toolkit for building ai applications using neural modules”. В: arXiv preprint arXiv:1909.09577 (2019).
[9] Taku Kudo и John Richardson. “SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing”. В: (2018). arXiv:1808.06226 [quant-ph].
[10] Jason Li и др. “Jasper: An End-to-End Convolutional Neural Acoustic Model”. В: (2019). arXiv:1904.03288 [quant-ph].
[11] Naihan Li и др. “Neural Speech Synthesis with Transformer Network”. В: (2018). arXiv:1809.08895 [quant-ph].
[12] Ilya Loshchilov и Frank Hutter. “Decoupled Weight Decay Regularization”. В: (2018). arXiv:1711.05101 [quant-ph].
[13] Vitaliy Lyudvichenko и Dmitriy Vatolin. “Predicting video saliency using crowdsourced mouse-tracking data”. В: (2019). arXiv:1907 .00480 [quant-ph].
[14] Abdelrahman Mohamed, Dmytro Okhonko и Luke Zettlemoyer. “Transformers with convolutional context for ASR”. В: (2020). arXiv: 1904.11660 [quant-ph].
[15] Vassil Panayotov и др. “Librispeech: An ASR corpus based on public domain audio books”. В: 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2015, с. 5206— 5210. DOI:10.1109/ICASSP.2015.7178964.
[16] Daniel S. Park и др. “SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition”. В: (2019). arXiv:1904.08779 [quant-ph].
[17] Tae Jin Park и др. “A Review of Speaker Diarization: Recent Advances with Deep Learning”. В: (2021). arXiv:2101.09624 [quant-ph].
[18] Nikita Pavlichenko и Ivan Stelmakh abd Dmitry Ustalov. “CrowdSpeech and VoxDIY: Benchmark Datasets for Crowdsourced Audio Transcription”. В: (2021). arXiv:2107.01091 [quant-ph].
[19] Desh Raj и др. “Integration of Speech Separation, Diarization, and Recognition for multi-speaker meetings: system description, comparsion, and analysis”. В: (2020). arXiv:2011.02014 [quant-ph].
[20] Mirco Ravanelli и др. SpeechBrain: A General-Purpose Speech Toolkit. 2021. arXiv:2106.04624 [eess.AS].
[21] Laurent El Shafey, Hagen Soltau и Izhak Shafran. “Joint Speech Recognition and Speaker Diarization via Sequence Transduction”. В: (2019). arXiv:1907.05337 [quant-ph].
[22] Ilya Sklyar, Anna Piunova и Yulan Liu. “Streaming Multi-speaker ASR with RNN-T”. В: (2021). arXiv:2011.11671 [quant-ph].
[23] Cem Subakan и др. “Attention Is All You Need in Speech Separation”. В: (2021). arXiv:2010.13154 [quant-ph].
[24] Ashish Vaswani и др. “Attention Is All You Need”. В: (2017). arXiv: 1706.03762 [quant-ph].
[25] Shinji Watanabe и др. “CHiME-6 Challenge: Tackling Multispeaker Speech Recognition for Unsegmented Recordings”. В: (2020). arXiv: 2004.09249 [quant-ph].