Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА МЕТОДОВ ПОВЫШЕНИЯ ТОЧНОСТИ АЛГОРИТМА СИНТЕЗА РЕЧИ С ПОМОЩЬЮ НЕЙРОННЫХ СЕТЕЙ

Работа №40613

Тип работы

Диссертация

Предмет

информатика

Объем работы127
Год сдачи2019
Стоимость4950 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
322
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
1 Методы синтеза речи 6
1.1 Конкатенативный подход 6
1.2 Параметрический подход 6
1.3 Генеративный подход 7
1.4 Подход “последовательность к последовательности” 8
1.4.1 Сквозная модель генерации речи Tacotron 8
1.4.2 Сквозная модель генерации речи Tacotron 2 с модулем
WaveNet в качестве вокодера 12
2 Модификация нейронной сети Tacotron 2 18
2.1 Акустическая модель 18
2.2 Генеративно-состязательная сеть для оценки реалистичности
генерируемых спектрограмм 20
2.2.1 Генеративно-состязательная сеть 20
2.2.2 Генеративно-состязательная сеть Васерштейна 23
2.2.3 Генеративно-состязательная сеть Васерштейна с градиентным штрафом 25
2.2.4 Рекуррентная генеративно-состязательная сеть 26
2.2.5 Критик для генерируемых спектрограмм Tacotron 2 . . . 27
3 Реализация нейронных сетей для синтеза речи 29
3.1 Реализация и обучение нейронной сети Tacotron 2 29
3.1.1 Предобработка данных 29
3.1.2 Входные данные 29
3.1.3 Реализация кодировщика 30
3.1.4 Блок механизма внимания 31
3.1.5 Реализация декодировщика 31
3.1.6 Блок предсказания спектрограммы 31
3.2 Реализация и обучение нейронной сети SpecRGAN 33
3.3 Реализация и обучение нейронной сети TacoGAN 34
4 Экспериментальное исследование 35
4.1 Язык программирования и используемые библиотеки 35
4.2 Данные для обучения. Речевой корпус 35
4.3 Результаты обучения Tacotron 2 37
4.4 Результаты обучения SpecRGAN 42
4.5 Результаты обучения TacoGAN 43
4.6 Эксперименты с уменьшенным корпусом 47
5 Оценка качества синтезируемой речи 49
ЗАКЛЮЧЕНИЕ 52
СПИСОК ЛИТЕРАТУРЫ 53
ПРИЛОЖЕНИЯ 57



На данный момент происходит активное развитие компьютерных технологий, при этом особенно стремительно развивается область машинного обучения. Одной из важнейших прикладных задач является задача обработки естественного языка, поскольку естественный язык — это основа коммуникации для большинства людей. Механизм синтеза речи уже давно является очень важным инструментом для людей с ограниченными возможностями, у которых встречается нарушение зрительной функции, нарушение способности к овладению навыком чтения, нарушение речевого аппарата. Кроме того, механизмы синтеза речи в сочетании с распознаванием речи позволяют взаимодействовать с различными устройствами через интерфейсы обработки естественного языка.
Целью данной работы является разработка метода синтеза речи на основе нейронной сети Tacotron 2 с использованием генеративносостязательного подхода. Для достижения этой цели обозначим основные задачи данной работы:
1) Исследование основных существующих подходов к синтезу речи: конкатенативный, параметрический, генератив
ный (WaveNet), “последовательность к последовательности” (Tacotron, Tacotron 2).
2) Реализация нейронной сети Tacotron 2 на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow.
3) Обучение реализованной нейронной сети на русскоязычном корпусе RUSLAN.
4) Разработка новой архитектуры на основе Tacotron 2 с использованием генеративно-состязательного подхода.
5) Реализация модификации на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow.
6) Обучение модификации на русскоязычном корпусе RUSLAN.
7) Исследование влияния гиперпараметров и архитектуры на качество синтезируемой речи.
8) Оценка качества синтезируемой речи для различных архитектур с помощью опроса Mean Opinion Score (MOS).
1. Методы синтеза речи
Задача синтеза речи предполагает преобразование входного набора текстовых символов в речевой сигнал. Существует множество различных алгоритмов синтеза речи, и их выбор зависит от конкретной задачи. Рассмотрим основные существующие подходы синтеза речи.
1.1. Конкатенативный подход
Основная идея данного подхода заключается в том, чтобы генерировать речь из заранее размеченных минимальных единиц естественного языка. В качестве таких единиц обычно служат отдельные слова, слоги, но чаще всего фонемы, дифоны и трифоны — сегменты речи между отдельными морфемами. Задача выбора минимальной единицы крайне важна, поскольку от этого зависит объем хранимых данных. Если ставится задача синтеза речи из заранее неизвестной текстовой последовательности, то объем хранимых данных становится достаточно большим, что является одной из основных проблем данного подхода. К минусам метода можно отнести общую трудоемкость и разметку данных. На этапе генерации речи выбираются нужные речевые единицы и конкатенируются между собой. При таком подходе часто возникают искажения в области конкатенации, которые обычно устраняются с помощью различных методов сглаживания. При этом количество искажений также зависит от объема размеченных данных — чем больше различных вариаций произношения минимальной единицы речи (аллофонов), тем меньше искажений будет присутствовать при синтезе. Существует несколько алгоритмов конкатенативного синтеза речи, основные представлены в работах [1] - [3].


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В ходе выполнения данной работы был реализован алгоритм синтеза речи Tacotron 2 на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow. Реализованный алгоритм был обучен на русскоязычном корпусе RUSLAN.
Была разработана и реализована модификация TacoGAN на основе Tacotron 2 с использованием генеративно-состязательного подхода. Обучение данной модификации также проходило на русскоязычном корпусе RUSLAN. Для обучения TacoGAN сначала была обучена нейронная сеть SpecRGAN на неаннотированных данных, состоящих из спектрограмм речевых сигналов. Неаннотированные данные являются серьезным преимуществом нашего подхода, поскольку сбор таких данных не требует больших временных затрат. Именно поэтому объем неаннотированных данных может в разы превосходить объем любого речевого корпуса для задач синтеза речи.
Помимо этого, были проведены эксперименты на уменьшенном корпусе для более точной оценки влияния критика SpecRGAN на обучение TacoGAN. В процессе обучения были проведены исследования влияния гиперпараметров на обучение нейронных сетей и подобраны наиболее оптимальные значения.
Для оценки точности экспериментов был проведен социальный опрос MOS среди обычных людей. Полученные результаты демонстрируют, что генеративно-состязательная сеть положительно влияет на обучение TacoGAN, что подтверждается как с точки зрения информации в ходе обучения, так и с точки зрения синтезируемой речи. Исходя из этого, можно говорить о том, что все поставленные задачи и цель данной работы были выполнены. Речь, полученная с помощью TacoGAN, хорошо передает интонацию и в ней меньше акцентов на отдельных словах, что часто можно наблюдать в случае Tacotron 2. При этом общей проблемой Tacotron 2 и TacoGAN остаются ошибки в ударениях слов и искажения, связанные с использованием алгоритма Гриффина-Лима.



1. Hunt A. J., Black A. W. Unit selection in a concatenative speech synthesis system using a large speech database [Текст] //1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings. - IEEE, 1996. - Т. 1. - С. 373-376.
2. Donovan R. E., Woodland P. C. Improvements in an HMM-based speech synthesiser [Текст] //Fourth European Conference on Speech Communication and Technology. - 1995.
3. Black A. W., Taylor P. A. Automatically clustering similar units for unit selection in speech synthesis. [Текст] - 1997.
4. Tokuda K. et al. An algorithm for speech parameter generation from continuous mixture HMMs with dynamic features [Текст] //Fourth European Conference on Speech Communication and Technology. - 1995.
5. Zen H. et al. Fast, compact, and high quality LSTM-RNN based statistical parametric speech synthesizers for mobile devices [Электронный ресурс] //arXiv preprint arXiv:1606.06061. - 2016 (дата обращения 17.10.2017).
6. Van Den Oord A. et al. WaveNet: A generative model for raw audio [Текст] //SSW. - 2016. - Т. 125.
7. Wang Y. et al. Tacotron: Towards end-to-end speech synthesis [Электронный ресурс] //arXiv preprint arXiv:1703.10135. - 2017 (дата обращения
26.10.2017) .
8. Lee J., Cho K., Hofmann T. Fully character-level neural machine translation without explicit segmentation [Текст] //Transactions of the Association for Computational Linguistics. - 2017. - Т. 5. - С. 365-378.
9. Srivastava R. K., Greff K., Schmidhuber J. Highway networks [Электронный ресурс] //arXiv preprint arXiv:1505.00387. - 2015 (дата обращения
28.10.2017) .
10. Schuster M., Paliwal K. K. Bidirectional recurrent neural networks [Текст] //IEEE Transactions on Signal Processing. - 1997. - Т. 45. - №. 11. - С. 2673-2681.
11. Chung J. et al. Empirical evaluation of gated recurrent neural networks on sequence modeling [Электронный ресурс] //arXiv preprint arXiv:1412.3555. - 2014 (дата обращения 05.11.2017).
12. Схематичное представление ячейки GRU [Электронный ресурс]. URL: https://feature.engineering/content/images/2016/03/gru.png (дата обращения: 15.10.2018).
13. Griffin D., Lim J. Signal estimation from modified short-time Fourier transform [Текст] //IEEE Transactions on Acoustics, Speech, and Signal Processing. - 1984. - Т. 32. - №. 2. - С. 236-243.
14. Shen J. et al. Natural tts synthesis by conditioning wavenet on mel spectrogram predictions [Текст] //2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). - IEEE, 2018. - С. 47794783.
15. Hochreiter S., Schmidhuber J. Long short-term memory [Текст] //Neural computation. - 1997. - Т. 9. - №. 8. - С. 1735-1780.
16. Схематичное представление ячейки LSTM
[Электронный ресурс]. URL: https://cdn-images-
1.medium.com/max/1200/1*ZX2mVCwMIOhftEaf4FTOYQ.png (дата
обращения: 15.10.2018).
17. Krueger D. et al. Zoneout: Regularizing rnns by randomly preserving hidden activations [Электронный ресурс] //arXiv preprint arXiv:1606.01305. - 2016 (дата обращения 21.05.2018).
18. Chorowski J. K. et al. Attention-based models for speech recognition [Текст] //Advances in neural information processing systems. - 2015. - С. 577-585.
19. Salimans T. et al. Pixelcnn++: Improving the pixelcnn with discretized logistic mixture likelihood and other modifications [Электронный ресурс] //arXiv preprint arXiv:1701.05517. - 2017 (дата обращения 04.06.2018).
20. Oord A. et al. Parallel wavenet: Fast high-fidelity speech synthesis [Электронный ресурс] //arXiv preprint arXiv:1711.10433. - 2017 (дата обращения 06.06.2018).
21. Venugopalan S. et al. Improving lstm-based video description with linguistic knowledge mined from text [Электронный ресурс] //arXiv preprint arXiv:1604.01729. - 2016 (дата обращения 25.07.2018).
22. Venugopalan S. et al. Sequence to sequence-video to text [Текст] //Proceedings of the IEEE international conference on computer vision. -
2015. - С. 4534-4542.
23. Goodfellow I. et al. Generative adversarial nets [Текст] //Advances in neural information processing systems. - 2014. - С. 2672-2680.
24. Long J., Shelhamer E., Darrell T. Fully convolutional networks for semantic segmentation [Текст] //Proceedings of the IEEE conference on computer vision and pattern recognition. - 2015. - С. 3431-3440.
25. Arjovsky M., Bottou L. Towards principled methods for training generative adversarial networks (2017) [Электронный ресурс] //arXiv preprint arXiv:1701.04862 (дата обращения 04.12.2018).
26. Mirza M., Osindero S. Conditional generative adversarial nets [Электронный ресурс] //arXiv preprint arXiv:1411.1784. - 2014 (дата обращения
07.12.2018) .
27. Villani C. Optimal transport: old and new. [Текст] - Springer Science Business Media, 2008. - Т. 338.xcolor
29. Lei Ba J., Kiros J. R., Hinton G. E. Layer normalization [Электронный ресурс] //arXiv preprint arXiv:1607.06450. - 2016 (дата обращения
12.02.2019) .
30. Radford A., Metz L., Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks [Электронный ресурс] //arXiv preprint arXiv:1511.06434. - 2015 (дата обращения 14.02.2019).
31. Esteban C., Hyland S. L., Ratsch G. Real-valued (medical) time series generation with recurrent conditional gans [Электронный ресурс] //arXiv

Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ