В последние годы синтез речи (TTS, Text-to-Speech) на основе глубоких нейронных сетей добился впечатляющих результатов в имитации человеческого голоса, позволяя генерировать реалистичную и естественную речь. Однако, обучение таких сетей для голосов новых дикторов — ресурсоёмкая задача, требующая значительного объема данных и мощных вычислительных систем. Например, для обучения высококачественной TTS модели для одного диктора может потребоваться от 10 до 20 часов записей речи. Это создает существенные трудности для масштабирования TTS систем и делает непрактичным создание персонализированных голосовых интерфейсов для большого количества пользователей.
Задача добавления новых дикторов на небольшом объеме обучающих данных стоит в области давно. Так в статье [7] предложено добавлять дикторов с обучения эмбеддингов для новых голосов и обучения. Идея обучать только параметры, напрямую зависящие от диктора, также встречается в AdaSpeech [2]: для эффективного дообучения модели с минимальными затратами ресурсов используется условная нормализация слоя (CLN). Этот метод позволяет управлять параметрами нормализации слоя, такими как масштаб и смещение, с помощью эмбединга диктора - вектора, представляющего целевой голос. Таким образом, вместо дообучения весовых коэффициентов всего декодера адаптация к новому голосу происходит путем настройки только параметров CLN и эмбединга диктора. Кроме добавления параметров в саму модель, были исследования по добавлению отдельной модели на выход первоначальной модели: Voice Filter [3] использует конвертацию голоса (т.е. заменяет голос на нужный) как пост-обработку к существующей высококачественной TTS системе.
Для решения проблемы коррекции модели под новые данные разрабатываются методы эффективного по параметрам дообучения (PEFT, Parameter-Efficient Fine-Tuning), которые позволяют адаптировать модели к новым данным с минимальными затратами ресурсов. PEFT методы добавляют к исходной модели небольшое количество параметров и обучают лишь их, не изменяя основные веса модели, что делает процесс дообучения более эффективным и быстрым.
Так как PEFT методы показали себя хорошо в обработке естественного языка и больших языковых моделях [4], [6], [11], то их пробуют применить и в других областях машинного обучения, в том числе и в задаче синтеза речи. Так в [13] и [5] предложили метод адаптации TTS модели к новым голосам с помощью остаточных адаптеров (vanila adapter). Этот подход обеспечил высокое качество синтезированной речи при небольшом количестве дополнительных параметров и позволяет масштабировать адаптированные голоса TTS до сотен дикторов. Несмотря на то, что PEFT методы успешно применяются в других областях глубокого обучения, их применение в TTS все еще недостаточно изучено.
Пусть дана предобученная многоголосная акустическая модель синтеза речи (TTS) FastPitch [9], описываемая функцией f (x, s;), где: x - входной текст, s - представление диктора, 0 - параметры модели. Задача заключается в разработке и исследовании эффективного по параметрам метода дообучения данной модели на голос нового диктора s', используя ограниченный набор речевых данных. Формально требуется найти метод M, преобразующий исходную модель f (x, s; 0) в новую модель g(x, s'; 0,ф), где ф - небольшой набор дополнительных параметров, обучаемых на данных нового диктора s', при этом параметры 0 исходной модели остаются неизменными.
Метод M должен обеспечивать:
• Высокое качество синтезированной речи: распределение акустических характеристик речи, генерируемой моделью g(x, s'; 0, ф), должно быть близко к распределению акустических характеристик реальной речи диктора s'
• Минимальное увеличение числа параметров: размер ф должен быть значительно меньше размера 0
• Сохранение качества синтеза для ранее обученных голосов: качество синтеза речи для дикторов, представленных в исходной модели f (x, s; 0), не должно ухудшаться после применения метода M
В рамках исследования будут рассмотрены и сравнены различные подходы, такие как:
• адаптеры (vanila adapter) [4] : метод позволяет дополнять работу модулей с помощью остаточного соединения (residual connection)
• LoRA (Low-Rank Adaptation) [6]: метод позволяет изменять веса линейных слоев с помощью низкорангового разложения
• (IA)3 [11]: метод позволяет масштабировать ключевые параметры в Transformer модулях
Результаты данной работы подтверждают перспективность PEFT методов для эффективного дообучения TTS моделей и создания более доступных и персонализированных систем синтеза речи.
В рамках данной работы была исследована задача эффективного по параметрам дообучения акустической модели синтеза речи FastPitch на новые голоса. Для решения этой задачи были рассмотрены три метода PEFT: Adapters, LoRA и (IA)3. Результаты экспериментов показали, что Vanilla Adapters демонстрируют наилучшее сочетание качества и эффективности в задаче добавления новых дикторов. Они обеспечивают качество синтезированной речи, близкое к полному дообучению модели, при этом используя значительно меньше обучаемых параметров. LoRA и (IA)3 оказались менее эффективны, не достигнув качества, сопоставимого с полным дообучением и Vanilla Adapters, что может быть обусловлено архитектурными особенностями FastPitch и распределением данных. Изменение архитектуры модулей предсказателей длительности и тона не оказало существенного влияния на эффективность LoRA и (IA)3.
Проведенное исследование подтверждает перспективность PEFT методов для решения задачи малоресурсного TTS и масштабирования TTS систем. Они позволяют адаптировать модели к новым голосам с минимальными затратами ресурсов, что особенно важно для персонализации голосовых интерфейсов и работы с редкими языками. Дальнейшие исследования могут быть направлены на изучение большего количества PEFT методов, применение их к разным TTS моделям, использование разнообразных наборов данных, а также анализ влияния PEFT на различные аспекты качества синтезированной речи. Разработка новых PEFT методов, специально ориентированных на задачи TTS, также является перспективным направлением.
[1] Rohan Badlani и др. «One TTS alignment to rule them all». В: in ICASSP. 2022.
[2] Mingjian Chen и др. «AdaSpeech: Adaptive Text to Speech for Custom Voice». В: ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2021.
[3] Adam Gabrys и др. «Voice Filter: Few-Shot Text-to-Speech Speaker Adaptation Using Voice Conversion as a Post-Processing Module». В: 2022.
[4] Neil Houlsby и др. «Parameter-efficient transfer learning for NLP». В: Proceedings of the 36th International Conference on Machine Learning. PMLR. 2019.
[5] Cheng-Ping Hsieh, Subhankar Ghosh и Boris Ginsburg. «Adapter-based extension of multi-speaker text-to-speech model for new speakers». В: ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2022.
[6] Edward Hu и др. «LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS». В: Proceedings of the International Conference on Learning Representations. 2022.
[7] Ye Jia и др. «Transfer learning from speaker verification to multispeaker text-to-speech synthesis». В: 2018.
[8] Jungil Kong, Jaehyeon Kim и Jaekyoung Bae. HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.
2020. arXiv: 2010.05646 [cs.SD].
[9] Adrian Lancucki. FastPitch: Parallel Text-to-speech with Pitch Prediction.
2021. arXiv: 2006.06873 [eess.AS].
[10] Vladislav Lialin, Vijeta Deshpande и Anna Rumshisky. «Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning». В: 2023. arXiv: 2303.15647 [cs.CL].
[11] Haokun Liu и др. «Few-Shot Parameter-Efficient Fine-Tuning is Better
and Cheaper than In-Context Learning». В: arXiv preprint arXiv:2205.05638 (2022).
[12] Matthias Mauch и Simon Dixon. «pyin: A fundamental frequency estimator using probabilistic threshold distributions». В: Proceedings of the 36th International Conference on Machine Learning. in ICASSP. 2014.
[13] Nobuyuki Morioka и др. «Residual adapters for few-shot text-to-speech speaker adaptation». В: ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. 2022.
[14] NVIDIA Corporation. NeMo: Neural Modules. https://github.com/ NVIDIA/NeMo. 2023.
[15] NVIDIA Corporation. NVIDIA NeMo Framework User Guide: Text- to-Speech Checkpoints. https://docs.nvidia.com/nemo-framework/ user-guide/latest/nemotoolkit/tts/checkpoints.html. 2023.
[16] Jonas Pfeiffer и др. «Modular Deep Learning». В: arXiv preprint arXiv:2302.01061 (2023).
[17] Yi Ren и др. FastSpeech 2: Fast and High-Quality End-to-End Text to Speech. 2022. arXiv: 2006.04558 [eess.AS].
[18] Resemble AI. Resemblyzer. https : / / github . com/ resemble - ai / Resemblyzer. 2023.
[19] Александр Комнацкий. Реализация эффективного по параметрам дообучения модели FastPitch. https : / / github . com/ st085318 / PEFT_TTS. 2024.