Введение 3
1. Генерация речи на основе текста 6
1.1. Существующие подходы к синтезу речи 6
1.1.1. Конкатенативный подход 6
1.1.2. Параметрический подход 12
1.1.3. Генеративный подход 14
1.1.4. Подход на основе преобразования последовательности к последовательности 16
1.2. Архитектура сквозной модели генерации речи Tacotron . 18
2. Реализация алгоритма генерации речи 25
2.1. Речевой корпус 25
2.2. Обучение нейронной сети 26
2.2.1. Предобработка данных 26
2.2.2. Входные данные нейронной сети 27
2.2.3. Реализация кодера 28
2.2.4. Реализация декодера 29
2.2.5. Быстрый алгоритм Гриффина-Лима 30
2.2.6. Реализация сети постобработки и синтеза речи . . 30
3. Экспериментальное исследование алгоритма 32
3.1. Язык программирования и используемые библиотеки . . 32
3.2. Характеристики оборудования 32
3.3. Результаты генерации речи 33
3.4. Оценка качества синтезируемой речи 38
Заключение 41
Список использованной литературы 42
В связи с развитием компьютерных технологий, распространением областей использования систем обработки информации, появлением большого числа прикладных задач большое внимание уделяется вопросам обработки естественного языка. Приложения обработки естественного языка используются повсеместно, поскольку язык является основой коммуникации большинства людей: книги, поиск в интернете, реклама, радио, автоответчики, обслуживание клиентов, транспорт, навигация, переводчики. Значимый вклад вносится в помощь людям с ограниченными возможностями, например, незрячим, глухонемым, людям с физическими патологиями, не позволяющими самостоятельно разговаривать или видеть.
Существует большое количество задач обработки естественного языка, одна из значимых в последние годы является обработка устной человеческой речи. Обработка устной речи человека разделяется на две области - распознавание речи и генерация речи. Если распознавание речи - это процесс преобразования цифрового аудиосигнала, содержащего человеческую речь, в текст, то генерация речи - обратная задача. Таким образом, генерация речи - автоматическое формирование аудиосигнала, содержащего человеческую речь, на основе входной информации. Наиболее значимые исследования проводятся в области посимвольного преобразования напечатанного текста в речь. Такой подход наиболее гибкий, универсальный, но в тоже время наиболее сложный, если сравнивать, например, с обычным соединением отдельных слов в предложения. Генерация речи получила большое распространение: от носимой электроники до военных структур.
В последнее время, благодаря подходам глубокого обучения, достигнуты очень высокие результаты в генерации речи. Однако, эти результаты распространяются на очень малое количество языков, в основном, английский и китайский. Связано это в первую очередь с тем, что эти языки наиболее распространены в мире, и, соответственно, существует достаточное количество данных (текста, аудио), которые можно использовать в работе алгоритмов, основанных на глубоком обучении. Открытых же источников с достаточным объемом данных на русском языке просто нет, поэтому и исследований, связанных с генерацией русской речи, проводится мало. Поэтому синтез естественной, выразительной русской речи на основе напечатанного текста, а также создание открытой базы аудиозаписей и сопоставленных им текстов на русском языке являются актуальными и перспективными задачами.
Данная выпускная квалификационная работа была выполнена совместно со студентом ИВМиИТ группы 09-635 Гараевым Р.М. [46]. Обязанности были разделены, в каждой из работ подробно описываются только те проблемы, которые решал каждый из студентов отдельно. Общими же целями являются разработка и реализация метода генерации русской речи с использованием глубокой нейронной сети, которая принимает на вход текст на русском языке, создание объемного речевого корпуса на русском языке, обучение на нем алгоритма и проведение экспериментов.
Целями данной работы являются:
1. Изучение литературы по машинному обучению, глубокому обучению, обработке сигналов и генерации речи.
2. Программная реализация нейронной сети Tacotronдля генерации речи на языке Python с использованием библиотеки TensorFlow.
3. Валидация гиперпараметров и обучение реализованной нейронной сети.
4. Разработка новой нейронной сети на основе сети T acotronс использованием архитектуры GRU (GatedRecurrentUnit)и нормализации весов.
5. Реализация разработанной архитектуры на языке Python с использованием библиотеки TensorFlow.
6. Обучение реализованной сети и валидация ее гиперпараметров.
7. Анализ полученных результатов.
В рамках данной выпускной квалификационной работы был реализован end-to-endалгоритм генерации речи на основе текста Tacotron, основу которого составляет модель преобразования последовательности в последовательность (sequence-to-sequence)с использованием механизма внимания (attention),многие идеи для архитектуры которого были взяты из работ по машинному переводу. Нами, совместно с Гараевым Р.М. [46], были введены модификации данного алгоритма, которые положительно повлияли на качество генерируемой речи: стало меньше роботизированности, улучшилась дикция, в конце аудиозаписей пропало эхо последних слогов сказанного текста. Также улучшилась оценка MOS: значение естественности увеличилось с 2,16 до 3,77, разборчивости - с 3,2 до 4,09. Нами был собран, обработан и записан Гараевым Р.М. русскоязычный корпус, состоящий из пар <текст, аудио>, итоговая продолжительность записей составила почти 23 часа, что делает этот датасет наибольшим из открытых русскоязычных корпусов.
Цели и задачи, поставленные в данной работе были выполнены. Результаты, полученные в работе:
1. программная реализация нейронной сети Tacotronна языке Python с использованием библиотеки TensorFlow;
2. модифицированная архитектура нейронной сети для генерации речи с использованием нормализации весов;
3. программная реализация предложенной архитектуры на языке Python с использованием библиотеки TensorFlow;
4. обученная модель для генерации русской речи;
5. экспериментально полученные данные о влиянии гиперпараметров и архитектуры нейронной сети на качество генерируемой ре¬чи.
[1] Abadjieva Elissaveta, Murray Iain R, Arnott John L. Applying analysis of human emotional speech to enhance synthetic speech // Third European Conference on Speech Communication and Technology. — 1993.
[2] Agiomyrgiannakis Yannis. Vocaine the vocoder and applications in speech synthesis // Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on / IEEE.— 2015.— P. 4230¬4234.
[3] Ba Jimmy Lei, Kiros Jamie Ryan, Hinton Geoffrey E. Layer normalization // arXiv preprint arXiv:1607.06450.— 2016.
[4] Bahdanau Dzmitry, Cho Kyunghyun, Bengio Yoshua. Neural machine translation by jointly learning to align and translate // arXiv preprint arXiv:1409.0473. — 2014.
[5] Black Alan W, Taylor Paul A. Automatically clustering similar units for unit selection in speech synthesis. — 1997.
[6] Char2Wav: End-to-end speech synthesis / Jose Sotelo, Soroush Mehri, Kundan Kumar et al. — 2017.
[7] Crowdmos: An approach for crowdsourcing mean opinion score studies / Flavio Ribeiro, Dinei Florencio, Cha Zhang, Michael Seltzer // Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on / IEEE.— 2011.— P. 2416¬2419.
[8] Deep residual learning for image recognition / Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun // Proceedings of the IEEE conference on computer vision and pattern recognition.— 2016.— P. 770-778.
[9] Donovan Robert E, Eide Ellen. The IBM trainable speech synthesis system. // ICSLP. — 1998.
[10] Donovan Robert E, Woodland Philip C. Improvements in an HMM- based speech synthesiser // Eurospeech Proceedings: 4th European Conference on Speech Communication and Technology.— Vol. 1.— 1995. — P. 573-576.
[11] Empirical evaluation of gated recurrent neural networks on sequence modeling / Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, Yoshua Bengio // arXiv preprint arXiv:1412.3555. — 2014.
[12] Exploring the limits of language modeling / Rafal Jozefowicz, Oriol Vinyals, Mike Schuster et al. // arXiv preprint arXiv:1602.02410. — 2016.
[13] Fast, Compact, and High Quality LSTM-RNN Based Statistical Parametric Speech Synthesizers for Mobile Devices / Heiga Zen, Yannis Agiomyrgiannakis, Niels Egberts et al. // Proc. Interspeech. — San Francisco, CA, USA, 2016.
[14] From text to speech: The MITalk system / Jonathan Allen, M Sharon Hunnicutt, Dennis H Klatt et al. — Cambridge University Press, 1987.
[15] Google’s neural machine translation system: Bridging the gap between human and machine translation / Yonghui Wu, Mike Schuster, Zhifeng Chen et al. // arXiv preprint arXiv:1609.08144. — 2016.
[16] Grammar as a foreign language / Oriol Vinyals, Eukasz Kaiser, Terry Koo et al. // Advances in Neural Information Processing Systems. - 2015. - P. 2773-2781.
[17] An HMM trajectory tiling (HTT) approach to high quality TTS / Yao Qian, Zhi-Jie Yan, Yijian Wu et al. // Eleventh Annual Conference of the International Speech Communication Association. — 2010.
[18] Hochreiter Sepp, Schmidhuber Jurgen. Long short-term memory // Neural computation. — 1997. — Vol. 9, no. 8. — P. 1735-1780.
[19] Hunt Andrew J, Black Alan W. Unit selection in a concatenative speech synthesis system using a large speech database // Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEE International Conference on / IEEE.— Vol. 1.— 1996.— P. 373-376.
[20] Ioffe Sergey, Szegedy Christian. Batch normalization: Accelerating deep network training by reducing internal covariate shift // International Conference on Machine Learning. — 2015. — P. 448-456.
[21] Kingma Diederik, Ba Jimmy. Adam: A method for stochastic optimization // arXiv preprint arXiv:1412.6980. — 2014.
[22] Krizhevsky Alex, Sutskever Ilya, Hinton Geoffrey E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems. -- 2012. -- P. 1097-1105.
[23] Lee Jason, Cho Kyunghyun, Hofmann Thomas. Fully character-level neural machine translation without explicit segmentation // arXiv preprint arXiv:1610.03017.— 2016.
[24] Loizou Philipos C. Speech quality assessment // Multimedia analysis, processing and communications. — Springer, 2011. — P. 623-654.
[25] Perraudin Nathanadl, Balazs Peter, Sqndergaard Peter L. A fast Griffin-Lim algorithm // Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop on / IEEE. — 2013. — P. 1-4.
[26] Recent Advances in Google Real-Time HMM-Driven Unit Selection Synthesizer. / Xavi Gonzalvo, Siamak Tazari, Chun-an Chan et al. // INTERSPEECH. — 2016. — P. 2238-2242.
[27] Rothauser EH. IEEE recommended practice for speech quality measurements // IEEE Trans. on Audio and Electroacoustics. — 1969. —Vol. 17. —P. 225-246.
[28] Sakai Shinsuke, Shu Han. A probabilistic approach to unit selection for corpus-based speech synthesis // Ninth European Conference on Speech Communication and Technology. — 2005.
[29] SampleRNN: An unconditional end-to-end neural audio generation model / Soroush Mehri, Kundan Kumar, Ishaan Gulrajani et al. // arXiv preprint arXiv:1612.07837.— 2016.
[30] Schuster Mike, Paliwal Kuldip K. Bidirectional recurrent neural networks // IEEE Transactions on Signal Processing.— 1997.— Vol. 45, no. 11. —P. 2673-2681.
[31] Sector International Telecommunication Union Radiocommunication. Subjective assessment of sound quality. — 1990.
[32] Show, attend and tell: Neural image caption generation with visual attention / Kelvin Xu, Jimmy Ba, Ryan Kiros et al. // International Conference on Machine Learning. — 2015. — P. 2048-2057.
[33] Srivastava Rupesh Kumar, Greff Klaus, Schmidhuber Jurgen. Highway networks // arXiv preprint arXiv:1505.00387. — 2015.
[34] Sutskever Ilya, Vinyals Oriol, Le Quoc V. Sequence to sequence learning with neural networks // Advances in neural information processing systems. — 2014. — P. 3104-3112.
[35] Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model / Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton et al. // arXiv preprint arXiv:1703.10135. — 2017.
[36] Taylor Paul. Text-to-speech synthesis. — Cambridge university press, 2009.
[37] The USTC and iFlytek speech synthesis systems for Blizzard Challenge 2007 / Zhen-Hua Ling, Long Qin, Heng Lu et al. // Blizzard Challenge Workshop. — 2007.
[38] Using deep bidirectional recurrent neural networks for prosodic-target prediction in a unit-selection text-to-speech system / Raul Fernandez, Asaf Rendel, Bhuvana Ramabhadran, Ron Hoory // Sixteenth Annual Conference of the International Speech Communication Association. —2015.
[39] Wang Wenfu, Xu Shuang, Xu Bo. First Step Towards End-to-End Parametric TTS Synthesis: Generating Spectral Parameters with Neural Attention. // INTERSPEECH. - 2016. - P. 2243-2247.
[40] Wavenet: A generative model for raw audio / Aaron van den Oord, Sander Dieleman, Heiga Zen et al. // arXiv preprint arXiv:1609.03499. — 2016.
[41] Zen Heiga, Tokuda Keiichi, Black Alan W. Statistical parametric speech synthesis // Speech Communication.— 2009.— Vol. 51, no. 11. — P. 1039-1064.
[42] An adaptive algorithm for mel-cepstral analysis of speech / Toshiaki Fukada, Keiichi Tokuda, Takao Kobayashi, Satoshi Imai // Acoustics, Speech, and Signal Processing, 1992. ICASSP-92., 1992 IEEE International Conference on / IEEE. — Vol. 1. — 1992. — P. 137¬140.
[43] An algorithm for speech parameter generation from continuous mixture HMMs with dynamic features / Keiichi Tokuda, Takashi Masuko, Tetsuya Yamada et al. — 1995.
[44] sHTS: A streaming architecture for statistical parametric speech synthesis / Maria Astrinaki, Onur Babacan, Nicolas d’Alessandro, Thierry Dutoit // International Workshop on Performative Speech and Singing Synthesis. — 2011.
[45] Бондарко Лия Васильевна. Фонетическое описание языка и фонологическое описание речи. — Изд-во Ленинградского университета, 1981.
[46] Гараев Рустем Маратович. Разработка и реализация метода гене¬рации русской речи на основе текста. — К(П)ФУ, 2018.
[47] Златоустова Любовь Владимировна, Потапова Р К, Трунин- Донской В Н. Общая и прикладная фонетика. — Изд-во Московского университета, 1986.
[48] Фланаган Дж. Анализ, синтез и восприятие речи. — Связь, 1968.