Тип работы:
Предмет:
Язык работы:


End2End моделирование голоса

Работа №142557

Тип работы

Бакалаврская работа

Предмет

математика

Объем работы21
Год сдачи2022
Стоимость4750 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
27
Не подходит работа?

Узнай цену на написание


1 Введение 3
1.1 Спектрограммы 3
1.2 Существующие решения 5
1.3 Проблемы End2End подхода 6
2 Метод 7
2.1 FastPitch 7
2.2 Модификация FastPitch 8
2.3 Проблема обратимости STFT 8
2.3.1 Алгоритм Гриффина-Лима 9
2.3.2 Предсказание фаз вместе со спектрограммами 10
2.3.3 Существующие параметризации сигнала 10
2.4 Новая параметризация звуковой волны 11
3 Эксперименты 12
3.1 Фазовый сдвиг 12
3.2 Изменение полносвязного слоя FastPitch 13
3.2.1 План экспериментов 13
3.2.2 Оценки MOS 15
3.2.3 Вывод 15
3.3 Поиск новой параметризации сигнала 16
3.3.1 План экспериментов 16
3.3.2 Результаты экспериментов 17
3.4 Обучение модели 18
4 Выводы 19
5 Список литературы 20

Синтез речи — это задача, целью которой является получение понятной и есте­ственно звучащей речи по тексту. Для её решения используются методы из таких направлений как машинное обучение, обработка естественных языков и обработ­ка сигналов.
Исторически для решения этой задачи используются промежуточные пред­ставления текста и аудио - фонемы и (мел-) спектрограммы, соответственно. Поэтому сначала мы определим важное для нас понятие спектрограмм, а затем рассмотрим существующие решения задачи синтеза речи и связанные с ними проблемы.
Для решения задачи синтеза уже давно используются каскадные модели [18]. Та­кой подход разделяет задачу синтеза на несколько небольших подзадач, которые значительно проще решать (см. рис. 2):
1. Генерация фонем по тексту.
2. Генерация спектрограмм по фонемам.
3. Генерация звукового сигнала по (мел-) спектрограмме.
У разбиения на такие подзадачи есть несколько причин:
• фонемы и спектрограммы - это те понятия, которые используются лингви­стами для исследования связи текста с речью [4]
• в то время, когда они только появлялись, просто не было технической воз­можности сделать более большие модели.
Эти модели в качестве цели используют звуковую волну, у которой существуют различные инварианты, которые не меняют звучание:
• очевидно, что если мы сдвинем волну на некоторый промежуток времени, то звучать они будут одинаково. Однако если сравнить их графики, то вы­глядеть они будут абсолютно по-разному.
• более того, мы экспериментально показали, что если мы сделаем оконное преобразование Фурье, а затем к его результату применим случайный фазо­вый сдвиг, то получатся аудио, которые звучат точно так же как и оригиналы, но выглядят опять же по-разному (см. рис. 3). Более подробный результат эксперимента с фазовыми сдвигами находится в главе 3.
Стоит отметить, что существующие End2End решения, такие как EATS [1] и VITS [5], хоть и не используют (мел-) спектрограммы в качестве промежуточных представлений, но всё равно возвращаются к ним для подсчёта одного из слага­емых в функции ошибки.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В этой работе мы исследовали задачу синтеза речи. Для решения этой задачи нами была получена новая параметризация звукового сигнала. Эксперименталь­но было доказано, что используя спектрограммы вместе с этим представлени­ем можно получить аудио, которое звучит более естественно, чем с алгоритмом Гриффина-Лима. Этот результат позволит избавиться от нейросетевых вокоде­ров, которые сами по себе вычислительно дороги.
Была обучена модель синтеза речи, которая состоит из модифицированной модели FastPitch, генерирующей спектрограммы, и оптимизации параметров на­шего представления сигнала, из которого мы получаем итоговое аудио.
Также экспериментально было показано, что используя разные способы пред­сказания фазовой информации вместе со спектрограммой, не получается гене­рировать аудио, сопоставимые по качеству с человеческой речью.
В дальнейшем планируется обучить более качественную модель, которая бу­дет предсказывать спектрограммы, а также оптимизировать алгоритм нахожде­ния параметров нашего представления аудио.
Результаты, полученные в данной работе, открывают путь, который позволит отказаться от одного из наиболее сложных этапов синтеза речи, заменив его де­терминированной математической моделью.


[1] J. Donahue, S. Dieleman, M. Binkowski, E. Elsen, K. Simonyan, End-to-End Adversarial Text-to-Speech, arXiv:2006.03575.
[2] D. Griffin, J. S. Lim, Signal estimation from modified short-time Fourier transform, ICASSP, April 1983.
[3] K. Ito, L. Johnson,The LJ Speech Dataset, https://keithito.com/LJ-Speech-Dataset, 2017.
[4] M. Joos, Acoustic phonetics, Language Monograph 23, Baltimore: Linguistic Society of America, 1948.
[5] J. Kim, J. Kong, J. Son, Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech, Proceedings of the 38th International Conference on Machine Learning, PMLR 139:5530-5540, 2021.
[6] J. Kong, J. Kim, J. Bae, HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis, Advances in Neural Information Processing Systems 33 (NeurIPS 2020).
[7] K. Kumar, R. Kumar, T. de Boissiere, L. Gestin, W. Zhen Teoh, J. Sotelo, A. de Brebisson, Y. Bengio, A. Courville, MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis, Advances in Neural Information Processing Systems 32 (NeurIPS 2019).
[8] A. Eancucki, FastPitch: Parallel Text-to-speech with Pitch Prediction, 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
[9] R. J. McAulay, T. F. Quateri, Speech analysis/synthesis based on a sinusoidal representation, IEEE Trans. on ASSP.1986.vol. 34, no. 4.
[10] P. Mowlaee, R. Saeidi, Y. Stylianou, Phase Importance in Speech Processing Applications, INTERSPEECH 2014 Special Session.
[11] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, K. Kavukcuoglu, WaveNet: A Generative Model for Raw Audio, arXiv:1609.03499.
[12] R. Prenger, R. Valle, B. Catanzaro, WaveGlow: A Flow-based Generative Network for Speech Synthesis, 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
[13] Y. Ren, Y. Ruan, X. Tan, T. Qin, S. Zhao, Z. Zhao, T.-Y. Liu, FastSpeech: Fast, Robust and Controllable Text to Speech, Advances in Neural Information Processing Systems 32 (NeurIPS 2019).
[14] Y. Ren, C. Hu, X. Tan, T. Qin, S. Zhao, Z. Zhao, T.-Y. Liu, FastSpeech 2: Fast and High-Quality End-to-End Text to Speech, arXiv:2006.04558.
[15] A. Rosenberg, B. Ramabhadran, Bias and Statistical Significance in Evaluating Speech Synthesis with Mean Opinion Scores, INTERSPEECH 2017.....20


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ