Синтез речи — это задача, целью которой является получение понятной и естественно звучащей речи по тексту. Для её решения используются методы из таких направлений как машинное обучение, обработка естественных языков и обработка сигналов.
Исторически для решения этой задачи используются промежуточные представления текста и аудио - фонемы и (мел-) спектрограммы, соответственно. Поэтому сначала мы определим важное для нас понятие спектрограмм, а затем рассмотрим существующие решения задачи синтеза речи и связанные с ними проблемы.
Для решения задачи синтеза уже давно используются каскадные модели [18]. Такой подход разделяет задачу синтеза на несколько небольших подзадач, которые значительно проще решать (см. рис. 2):
1. Генерация фонем по тексту.
2. Генерация спектрограмм по фонемам.
3. Генерация звукового сигнала по (мел-) спектрограмме.
У разбиения на такие подзадачи есть несколько причин:
• фонемы и спектрограммы - это те понятия, которые используются лингвистами для исследования связи текста с речью [4]
• в то время, когда они только появлялись, просто не было технической возможности сделать более большие модели.
Эти модели в качестве цели используют звуковую волну, у которой существуют различные инварианты, которые не меняют звучание:
• очевидно, что если мы сдвинем волну на некоторый промежуток времени, то звучать они будут одинаково. Однако если сравнить их графики, то выглядеть они будут абсолютно по-разному.
• более того, мы экспериментально показали, что если мы сделаем оконное преобразование Фурье, а затем к его результату применим случайный фазовый сдвиг, то получатся аудио, которые звучат точно так же как и оригиналы, но выглядят опять же по-разному (см. рис. 3). Более подробный результат эксперимента с фазовыми сдвигами находится в главе 3.
Стоит отметить, что существующие End2End решения, такие как EATS [1] и VITS [5], хоть и не используют (мел-) спектрограммы в качестве промежуточных представлений, но всё равно возвращаются к ним для подсчёта одного из слагаемых в функции ошибки.
В этой работе мы исследовали задачу синтеза речи. Для решения этой задачи нами была получена новая параметризация звукового сигнала. Экспериментально было доказано, что используя спектрограммы вместе с этим представлением можно получить аудио, которое звучит более естественно, чем с алгоритмом Гриффина-Лима. Этот результат позволит избавиться от нейросетевых вокодеров, которые сами по себе вычислительно дороги.
Была обучена модель синтеза речи, которая состоит из модифицированной модели FastPitch, генерирующей спектрограммы, и оптимизации параметров нашего представления сигнала, из которого мы получаем итоговое аудио.
Также экспериментально было показано, что используя разные способы предсказания фазовой информации вместе со спектрограммой, не получается генерировать аудио, сопоставимые по качеству с человеческой речью.
В дальнейшем планируется обучить более качественную модель, которая будет предсказывать спектрограммы, а также оптимизировать алгоритм нахождения параметров нашего представления аудио.
Результаты, полученные в данной работе, открывают путь, который позволит отказаться от одного из наиболее сложных этапов синтеза речи, заменив его детерминированной математической моделью.
[1] J. Donahue, S. Dieleman, M. Binkowski, E. Elsen, K. Simonyan, End-to-End Adversarial Text-to-Speech, arXiv:2006.03575.
[2] D. Griffin, J. S. Lim, Signal estimation from modified short-time Fourier transform, ICASSP, April 1983.
[3] K. Ito, L. Johnson,The LJ Speech Dataset, https://keithito.com/LJ-Speech-Dataset, 2017.
[4] M. Joos, Acoustic phonetics, Language Monograph 23, Baltimore: Linguistic Society of America, 1948.
[5] J. Kim, J. Kong, J. Son, Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech, Proceedings of the 38th International Conference on Machine Learning, PMLR 139:5530-5540, 2021.
[6] J. Kong, J. Kim, J. Bae, HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, Advances in Neural Information Processing Systems 33 (NeurIPS 2020).
[7] K. Kumar, R. Kumar, T. de Boissiere, L. Gestin, W. Zhen Teoh, J. Sotelo, A. de Brebisson, Y. Bengio, A. Courville, MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis, Advances in Neural Information Processing Systems 32 (NeurIPS 2019).
[8] A. Eancucki, FastPitch: Parallel Text-to-speech with Pitch Prediction, 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
[9] R. J. McAulay, T. F. Quateri, Speech analysis/synthesis based on a sinusoidal representation, IEEE Trans. on ASSP.1986.vol. 34, no. 4.
[10] P. Mowlaee, R. Saeidi, Y. Stylianou, Phase Importance in Speech Processing Applications, INTERSPEECH 2014 Special Session.
[11] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, K. Kavukcuoglu, WaveNet: A Generative Model for Raw Audio, arXiv:1609.03499.
[12] R. Prenger, R. Valle, B. Catanzaro, WaveGlow: A Flow-based Generative Network for Speech Synthesis, 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
[13] Y. Ren, Y. Ruan, X. Tan, T. Qin, S. Zhao, Z. Zhao, T.-Y. Liu, FastSpeech: Fast, Robust and Controllable Text to Speech, Advances in Neural Information Processing Systems 32 (NeurIPS 2019).
[14] Y. Ren, C. Hu, X. Tan, T. Qin, S. Zhao, Z. Zhao, T.-Y. Liu, FastSpeech 2: Fast and High-Quality End-to-End Text to Speech, arXiv:2006.04558.
[15] A. Rosenberg, B. Ramabhadran, Bias and Statistical Significance in Evaluating Speech Synthesis with Mean Opinion Scores, INTERSPEECH 2017.....20