ВВЕДЕНИЕ 4
1 Методы синтеза речи 6
1.1 Конкатенативный подход 6
1.2 Параметрический подход 6
1.3 Генеративный подход 7
1.4 Подход “последовательность к последовательности” 8
1.4.1 Сквозная модель генерации речи Tacotron 8
1.4.2 Сквозная модель генерации речи Tacotron 2 с модулем
WaveNet в качестве вокодера 12
2 Модификация нейронной сети Tacotron 2 18
2.1 Акустическая модель 18
2.2 Генеративно-состязательная сеть для оценки реалистичности
генерируемых спектрограмм 20
2.2.1 Генеративно-состязательная сеть 20
2.2.2 Генеративно-состязательная сеть Васерштейна 23
2.2.3 Генеративно-состязательная сеть Васерштейна с градиентным штрафом 25
2.2.4 Рекуррентная генеративно-состязательная сеть 26
2.2.5 Критик для генерируемых спектрограмм Tacotron 2 . . . 27
3 Реализация нейронных сетей для синтеза речи 29
3.1 Реализация и обучение нейронной сети Tacotron 2 29
3.1.1 Предобработка данных 29
3.1.2 Входные данные 29
3.1.3 Реализация кодировщика 30
3.1.4 Блок механизма внимания 31
3.1.5 Реализация декодировщика 31
3.1.6 Блок предсказания спектрограммы 31
3.2 Реализация и обучение нейронной сети SpecRGAN 33
3.3 Реализация и обучение нейронной сети TacoGAN 34
4 Экспериментальное исследование 35
4.1 Язык программирования и используемые библиотеки 35
4.2 Данные для обучения. Речевой корпус 35
4.3 Результаты обучения Tacotron 2 37
4.4 Результаты обучения SpecRGAN 42
4.5 Результаты обучения TacoGAN 43
4.6 Эксперименты с уменьшенным корпусом 47
5 Оценка качества синтезируемой речи 49
ЗАКЛЮЧЕНИЕ 52
СПИСОК ЛИТЕРАТУРЫ 53
ПРИЛОЖЕНИЯ
На данный момент происходит активное развитие компьютерных технологий, при этом особенно стремительно развивается область машинного обучения. Одной из важнейших прикладных задач является задача обработки естественного языка, поскольку естественный язык — это основа коммуникации для большинства людей. Механизм синтеза речи уже давно является очень важным инструментом для людей с ограниченными возможностями, у которых встречается нарушение зрительной функции, нарушение способности к овладению навыком чтения, нарушение речевого аппарата. Кроме того, механизмы синтеза речи в сочетании с распознаванием речи позволяют взаимодействовать с различными устройствами через интерфейсы обработки естественного языка.
Целью данной работы является разработка метода синтеза речи на основе нейронной сети Tacotron 2 с использованием генеративно-состязательного подхода. Для достижения этой цели обозначим основные задачи данной работы:
1) Исследование основных существующих подходов к синтезу речи: конкатенативный, параметрический, генеративный (WaveNet), “последовательность к последовательности” (Tacotron, Tacotron 2).
2) Реализация нейронной сети Tacotron 2 на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow.
3) Обучение реализованной нейронной сети на русскоязычном корпусе RUSLAN.
4) Разработка новой архитектуры на основе Tacotron 2 с использованием генеративно-состязательного подхода.
5) Реализация модификации на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow.
6) Обучение модификации на русскоязычном корпусе RUSLAN.
7) Исследование влияния гиперпараметров и архитектуры на качество синтезируемой речи.
8) Оценка качества синтезируемой речи для различных архитектур с помощью опроса Mean Opinion Score (MOS).
В ходе выполнения данной работы был реализован алгоритм синтеза речи Tacotron 2 на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow. Реализованный алгоритм был обучен на русскоязычном корпусе RUSLAN.
Была разработана и реализована модификация TacoGAN на основе Tacotron 2 с использованием генеративно-состязательного подхода. Обучение данной модификации также проходило на русскоязычном корпусе RUSLAN. Для обучения TacoGAN сначала была обучена нейронная сеть SpecRGAN на неаннотированных данных, состоящих из спектрограмм речевых сигналов. Неаннотированные данные являются серьезным преимуществом нашего подхода, поскольку сбор таких данных не требует больших временных затрат. Именно поэтому объем неаннотированных данных может в разы превосходить объем любого речевого корпуса для задач синтеза речи.
Помимо этого, были проведены эксперименты на уменьшенном корпусе для более точной оценки влияния критика SpecRGAN на обучение TacoGAN. В процессе обучения были проведены исследования влияния гиперпараметров на обучение нейронных сетей и подобраны наиболее оптимальные значения.
Для оценки точности экспериментов был проведен социальный опрос MOS среди обычных людей. Полученные результаты демонстрируют, что генеративно-состязательная сеть положительно влияет на обучение TacoGAN, что подтверждается как с точки зрения информации в ходе обучения, так и с точки зрения синтезируемой речи. Исходя из этого, можно говорить о том, что все поставленные задачи и цель данной работы были выполнены. Речь, полученная с помощью TacoGAN, хорошо передает интонацию и в ней меньше акцентов на отдельных словах, что часто можно наблюдать в случае Tacotron 2. При этом общей проблемой Tacotron 2 и TacoGAN остаются ошибки в ударениях слов и искажения, связанные с использованием алгоритма Гриффина-Лима.
1. Hunt A. J., Black A. W. Unit selection in a concatenative speech synthesis system using a large speech database [Текст] //1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. - IEEE, 1996. - Т. 1. - С. 373-376.
2. Donovan R. E., Woodland P. C. Improvements in an HMM-based speech synthesiser [Текст] //Fourth European Conference on Speech Communication and Technology. - 1995.
3. Black A. W., Taylor P. A. Automatically clustering similar units for unit selection in speech synthesis. [Текст] - 1997.
4. Tokuda K. et al. An algorithm for speech parameter generation from continuous mixture HMMs with dynamic features [Текст] //Fourth European Conference on Speech Communication and Technology. - 1995.
5. Zen H. et al. Fast, compact, and high quality LSTM-RNN based statistical parametric speech synthesizers for mobile devices [Электронный ресурс] //arXiv preprint arXiv:1606.06061. - 2016 (дата обращения 17.10.2017).
6. Van Den Oord A. et al. WaveNet: A generative model for raw audio [Текст] //SSW. - 2016. - Т. 125.
7. Wang Y. et al. Tacotron: Towards end-to-end speech synthesis [Электронный ресурс] //arXiv preprint arXiv:1703.10135. - 2017 (дата обращения
26.10.2017) .
8. Lee J., Cho K., Hofmann T. Fully character-level neural machine translation without explicit segmentation [Текст] //Transactions of the Association for Computational Linguistics. - 2017. - Т. 5. - С. 365-378.
9. Srivastava R. K., Greff K., Schmidhuber J. Highway networks [Электронный ресурс] //arXiv preprint arXiv:1505.00387. - 2015 (дата обращения
28.10.2017) .
10. Schuster M., Paliwal K. K. Bidirectional recurrent neural networks [Текст] //IEEE Transactions on Signal Processing. - 1997. - Т. 45. - №. 11. - С. 2673-2681.
11. Chung J. et al. Empirical evaluation of gated recurrent neural networks on sequence modeling [Электронный ресурс] //arXiv preprint arXiv:1412.3555. - 2014 (дата обращения 05.11.2017).
12. Схематичное представление ячейки GRU [Электронный ресурс]. URL: https://feature.engineering/content/images/2016/03/gru.png (дата обращения: 15.10.2018).
13. Griffin D., Lim J. Signal estimation from modified short-time Fourier transform [Текст] //IEEE Transactions on Acoustics, Speech, and Signal Processing. - 1984. - Т. 32. - №. 2. - С. 236-243.
14. Shen J. et al. Natural tts synthesis by conditioning wavenet on mel spectrogram predictions [Текст] //2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - IEEE, 2018. - С. 47794783.
15. Hochreiter S., Schmidhuber J. Long short-term memory [Текст] //Neural computation. - 1997. - Т. 9. - №. 8. - С. 1735-1780.
16. Схематичное представление ячейки LSTM
[Электронный ресурс]. URL: https://cdn-images-
1.medium.com/max/1200/1*ZX2mVCwMIOhftEaf4FTOYQ.png (дата
обращения: 15.10.2018).
17. Krueger D. et al. Zoneout: Regularizing rnns by randomly preserving hidden activations [Электронный ресурс] //arXiv preprint arXiv:1606.01305. - 2016 (дата обращения 21.05.2018).
18. Chorowski J. K. et al. Attention-based models for speech recognition [Текст] //Advances in neural information processing systems. - 2015. - С. 577-585.
19. Salimans T. et al. Pixelcnn++: Improving the pixelcnn with discretized logistic mixture likelihood and other modifications [Электронный ресурс] //arXiv preprint arXiv:1701.05517. - 2017 (дата обращения 04.06.2018).
20. Oord A. et al. Parallel wavenet: Fast high-fidelity speech synthesis [Электронный ресурс] //arXiv preprint arXiv:1711.10433. - 2017 (дата обращения 06.06.2018).
21. Venugopalan S. et al. Improving lstm-based video description with linguistic knowledge mined from text [Электронный ресурс] //arXiv preprint arXiv:1604.01729. - 2016 (дата обращения 25.07.2018).
22. Venugopalan S. et al. Sequence to sequence-video to text [Текст] //Proceedings of the IEEE international conference on computer vision. -
2015. - С. 4534-4542.
23. Goodfellow I. et al. Generative adversarial nets [Текст] //Advances in neural information processing systems. - 2014. - С. 2672-2680.
24. Long J., Shelhamer E., Darrell T. Fully convolutional networks for semantic segmentation [Текст] //Proceedings of the IEEE conference on computer vision and pattern recognition. - 2015. - С. 3431-3440.
25. Arjovsky M., Bottou L. Towards principled methods for training generative adversarial networks (2017) [Электронный ресурс] //arXiv preprint arXiv:1701.04862 (дата обращения 04.12.2018).
26. Mirza M., Osindero S. Conditional generative adversarial nets [Электронный ресурс] //arXiv preprint arXiv:1411.1784. - 2014 (дата обращения
07.12.2018) .
27. Villani C. Optimal transport: old and new. [Текст] - Springer Science Business Media, 2008. - Т. 338.xcolor
29. Lei Ba J., Kiros J. R., Hinton G. E. Layer normalization [Электронный ресурс] //arXiv preprint arXiv:1607.06450. - 2016 (дата обращения
12.02.2019) .
30. Radford A., Metz L., Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks [Электронный ресурс] //arXiv preprint arXiv:1511.06434. - 2015 (дата обращения 14.02.2019).
31. Esteban C., Hyland S. L., Ratsch G. Real-valued (medical) time series generation with recurrent conditional gans [Электронный ресурс] //arXiv preprint arXiv:1706.02633. - 2017 (дата обращения 15.02.2019).
32. Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift [Электронный ресурс] //arXiv preprint arXiv:1502.03167. - 2015 (дата обращения 20.02.2018).
33. Krizhevsky A., Sutskever I., Hinton G. E. Imagenet classification with deep convolutional neural networks [Текст] //Advances in neural information processing systems. - 2012. - С. 1097-1105.
34. Srivastava N. et al. Dropout: a simple way to prevent neural networks from overfitting [Текст] //The Journal of Machine Learning Research. - 2014. - Т. 15. - №. 1. - С. 1929-1958.
35. Kingma D. P., Ba J. Adam: A method for stochastic optimization [Электронный ресурс] //arXiv preprint arXiv:1412.6980. - 2014 (дата обращения 17.04.2018).
36. Tieleman T., Hinton G. Lecture 6.5-rmsprop: Divide the gradient by a running average of its recent magnitude [Текст] //COURSERA: Neural networks for machine learning. - 2012. - Т. 4. - №. 2. - С. 26-31.
37. Ito K. et al. The lj speech dataset. - 2017.
38. RUSLAN: Russian Spoken Language Corpus For Speech Synthesis [Электронный ресурс]. URL: https://ruslan-corpus.github.io (дата обращения:
18.06.2019) .