Введение 3
1. Генерация речи на основе текста 6
1.1. Существующие подходы к синтезу речи 6
1.1.1. Конкатенативный подход 6
1.1.2. Параметрический подход 12
1.1.3. Генеративный подход 14
1.1.4. Подход на основе преобразования последовательности к последовательности 16
1.2. Архитектура сквозной модели генерации речи Tacotron . 18
1.2.1. Подходы к восстановлению сигнала 24
2. Реализация алгоритма генерации речи 25
2.1. Речевой корпус Voice of KFU 25
2.1.1. Подготовка текста 25
2.1.2. Окружение и характеристики записи 26
2.1.3. Процесс проверки 28
2.2. Обучение нейронной сети 29
2.2.1. Предобработка данных 29
2.2.2. Входные данные нейронной сети 30
2.2.3. Реализация кодера 31
2.2.4. Реализация декодера 32
2.2.5. Быстрый алгоритм Гриффина-Лима 33
2.2.6. Реализация сети постобработки и синтеза речи . . 34
2.2.7. Использование вспомогательной аудиомодели ... 35
3. Экспериментальное исследование алгоритма 37
3.1. Язык программирования и используемые библиотеки . . 37
3.2. Характеристики оборудования 37
3.3. Результаты генерации речи 38
3.4. Оценка качества синтезируемой речи 43
4. Вывод
Список литературы
Приложение
В связи с развитием компьютерных технологий, распространением областей использования систем обработки информации, появлением большого числа прикладных задач - большое внимание уделяется вопросам обработки естественного языка. Приложения обработки естественного языка используются повсеместно, поскольку язык является основой коммуникации большинства людей: книги, поиск в интерне¬те, реклама, радио, автоответчики, обслуживание клиентов, транспорт, навигация, переводчики. Значимый вклад вносится в помощь людям с ограниченными возможностями. Например, незрячим, глухонемым, людям с физическими патологиями, не позволяющими самостоятельно разговаривать или видеть.
Существует большое количество задач обработки естественного языка, одна из значимых в последние годы является обработка устной человеческой речи. Обработка устной речи человека разделяется на две области - распознавание речи и генерация речи. Если распознавание речи - это процесс преобразования цифрового аудиосигнала, содержащего человеческую речь, в текст, то генерация речи - обратна задача. Таким образом, генерация речи - автоматическое формирование аудиосигнала, содержащего человеческую речь, на основе входной информации. Наиболее значимые исследования проводятся в области посимвольного преобразования напечатанного текста в речь. Такой подход наиболее гибкий, универсальный, но в тоже время наиболее сложный, по сравнению, например, с обычной конкатенацией целых слов в предложения. Генерация речи получила большое распространение: от носимой электроники до военных структур.
В последнее время, благодаря подходам глубокого обучения, достигнуты очень высокие результаты в генерации речи. Однако, эти результаты распространяются на очень малое количество языков, в основ¬ном, английский и китайский. Генерация естественной, выразительной и эмоционально окрашенной русской речи на основе напечатанного тек¬ста является актуальной и перспективной задачей.
Цели и задачи
Целью выпускной квалификационной работы является разработка и реализация метода генерации русской речи на основе печатного текста и сбор корпуса русской речи для одного диктора.
Для достижения данной цели предполагается решить следующие задачи:
1. Изучение литературы по машинному обучению, нейронным сетям, цифровой обработке сигналов и синтеза речи.
2. Составление обучающей выборки на русском языке, состоящей из записанной речи с аннотацией в виде текста.
3. Программная реализация нейронной сети Tacotron для генерации речи на языке Python с использованием библиотеки TensorFlow.
4. Валидация гиперпараметров и обучение реализованной нейронной сети.
5. Исследование возможностей улучшения алгоритма синтеза русской речи.
6. Разработка новой нейронной сети на основе сети Tacotron с добавлением аудиомодели, которая будет обучаться на неразмеченных данных.
7. Проведение экспериментального исследования работы алгоритма и валидация модели.
8. Реализация точного и быстрого алгоритма восстановления сигнала, нахождение оптимальных параметров.
9. Анализ полученных результатов.
Выпускная квалификационная работа была выполнена совместно со студентом группы 09-635 господином Габрдрахмановым Ленаром [54]. При выполнении работы обязанности были строго разделены. Автором работы [54] были предложены изменения архитектуры, которые позволили добиться более лучшего выравнивания. Совместно была разработана аудиомодель.
Практическая значимость
Собранный нами корпус на русском языке является наибольшим из открытых по объему записанной речи для одного диктора. И является большим вкладом в развитие сообщества и призван помочь независимым исследователям и студентам использовать его в своих работах, связанных с речевыми технологиями. Разработанный и реализованный алгоритм, обученный на нашем корпусе позволяет генерировать разборчивую и естественную речь, приближенную к человеческой.
При выполнении выпускной квалификационной работы был разработан и реализован алгоритм генерации речи на основе печатного тек¬ста с помощью глубоких нейронных сетей. Был составлен русскоязычный корпус, который является наибольшим для одного диктора среди существующих открытых корпусов. Цели и задачи, поставленные в данной работе были выполнены. Реализованный алгоритм позволяет генерировать русскую речь на основе печатного текста, при этом синтезированная речь является разборчивой и естественной. Оценка MOS для разборчивости составила 4.05 и 3.78 для естественности. Данные оценки являются подтверждением высокого качества сгенерированной речи.
[1] Abadjieva Elissaveta, Murray Iain R, Arnott John L. Applying analysis of human emotional speech to enhance synthetic speech // Third European Conference on Speech Communication and Technology. — 1993.
[2] Agiomyrgiannakis Yannis. Vocaine the vocoder and applications in speech synthesis // Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on / IEEE.— 2015.— P. 4230¬4234.
[3] Ba Jimmy Lei, Kiros Jamie Ryan, Hinton Geoffrey E. Layer normalization // arXiv preprint arXiv:1607.06450.— 2016.
[4] Bahdanau Dzmitry, Cho Kyunghyun, Bengio Yoshua. Neural machine translation by jointly learning to align and translate // arXiv preprint arXiv:1409.0473. — 2014.
[5] Black Alan W, Taylor Paul A. Automatically clustering similar units for unit selection in speech synthesis. — 1997.
[6] Char2Wav: End-to-end speech synthesis / Jose Sotelo, Soroush Mehri, Kundan Kumar et al. -- 2017.
[7] Crowdmos: An approach for crowdsourcing mean opinion score studies / Flavio Ribeiro, Dinei Florencio, Cha Zhang, Michael Seltzer // Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on / IEEE.— 2011.— P. 2416¬2419.
[8] Deep residual learning for image recognition / Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun // Proceedings of the IEEE conference on computer vision and pattern recognition.— 2016.— P. 770-778.
[9] Donovan Robert E, Eide Ellen. The IBM trainable speech synthesis system. // ICSLP. — 1998.
[10] Donovan Robert E, Woodland Philip C. Improvements in an HMM- based speech synthesiser // Eurospeech Proceedings: 4th European Conference on Speech Communication and Technology.— Vol. 1.— 1995. — P. 573-576.
[11] Empirical evaluation of gated recurrent neural networks on sequence modeling / Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, Yoshua Bengio // arXiv preprint arXiv:1412.3555. — 2014.
[12] Exploring the limits of language modeling / Rafal Jozefowicz, Oriol Vinyals, Mike Schuster et al. // arXiv preprint arXiv:1602.02410. — 2016.
[13] Fast, Compact, and High Quality LSTM-RNN Based Statistical Parametric Speech Synthesizers for Mobile Devices / Heiga Zen, Yannis Agiomyrgiannakis, Niels Egberts et al. // Proc. Interspeech. — San Francisco, CA, USA, 2016.
[14] From text to speech: The MITalk system / Jonathan Allen, M Sharon Hunnicutt, Dennis H Klatt et al. — Cambridge University Press, 1987.
[15] Google’s neural machine translation system: Bridging the gap between human and machine translation / Yonghui Wu, Mike Schuster, Zhifeng Chen et al. // arXiv preprint arXiv:1609.08144. — 2016.
[16] Grammar as a foreign language / Oriol Vinyals, Eukasz Kaiser, Terry Koo et al. // Advances in Neural Information Processing Systems. - 2015. - P. 2773-2781.
[17] Griffin Daniel, Lim Jae. Signal estimation from modified short-time Fourier transform // IEEE Transactions on Acoustics, Speech, and Signal Processing. — 1984. — Vol. 32, no. 2. — P. 236-243.
[18] An HMM trajectory tiling (HTT) approach to high quality TTS / Yao Qian, Zhi-Jie Yan, Yijian Wu et al. // Eleventh Annual Conference of the International Speech Communication Association. — 2010.
[19] Hochreiter Sepp, Schmidhuber Jurgen. Long short-term memory // Neural computation. — 1997. — Vol. 9, no. 8. — P. 1735-1780.
[20] Hunt Andrew J, Black Alan W. Unit selection in a concatenative speech synthesis system using a large speech database // Acoustics, Speech, and Signal Processing, 1996. ICASSP-96. Conference Proceedings., 1996 IEEE International Conference on / IEEE.— Vol. 1.— 1996.— P. 373-376.
[21] Impact of phase estimation on single-channel speech separation based on time-frequency masking / Florian Mayer, Donald S Williamson, Pejman Mowlaee, DeLiang Wang // The Journal of the Acoustical Society of America. — 2017. — Vol. 141, no. 6. — P. 4668-4679.
[22] Improving lstm-based video description with linguistic knowledge mined from text / Subhashini Venugopalan, Lisa Anne Hendricks, Raymond Mooney, Kate Saenko // arXiv preprint arXiv:1604.01729. —
2016.
[23] Ioffe Sergey, Szegedy Christian. Batch normalization: Accelerating deep network training by reducing internal covariate shift // International Conference on Machine Learning. — 2015. — P. 448-456.
[24] Kingma Diederik, Ba Jimmy. Adam: A method for stochastic optimization // arXiv preprint arXiv:1412.6980. — 2014.
[25] Krawczyk Martin, Gerkmann Timo. STFT phase reconstruction in voiced speech for an improved single-channel speech enhancement // IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP).-2014.-Vol. 22, no. 12. —P. 1931-1940.
[26] Krizhevsky Alex, Sutskever Ilya, Hinton Geoffrey E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems. — 2012. — P. 1097-1105.
[27] Lee Jason, Cho Kyunghyun, Hofmann Thomas. Fully character-level neural machine translation without explicit segmentation // arXiv preprint arXiv:1610.03017.— 2016.
[28] Loizou Philipos C. Speech quality assessment // Multimedia analysis, processing and communications. — Springer, 2011. — P. 623-654.
[29] Mehmetcik Erdal, Ciloglu Tolga. Speech enhancement by maintaining phase continuity between consecutive analysis frames // Journal of the Acoustical Society of America. — 2012. — Vol. 132, no. 3. — P. 1972.
[30] Mowlaee Pejman, Saeidi Rahim, Martin Rainer. Phase estimation for signal reconstruction in single-channel source separation // Thirteenth Annual Conference of the International Speech Communication Association. -- 2012.
[31] Nawab S, Quatieri T, Lim Jae. Signal reconstruction from short¬time Fourier transform magnitude // IEEE Transactions on Acoustics, Speech, and Signal Processing. — 1983. — Vol. 31, no. 4. — P. 986-998.
[32] On using monolingual corpora in neural machine translation / Caglar Gulcehre, Orhan Firat, Kelvin Xu et al. // arXiv preprint arXiv:1503.03535. - 2015.
[33] Perraudin Nathanadl, Balazs Peter, Sqndergaard Peter L. A fast Griffin-Lim algorithm // Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013 IEEE Workshop on / IEEE. — 2013. — P. 1-4.
[34] Recent Advances in Google Real-Time HMM-Driven Unit Selection Synthesizer. / Xavi Gonzalvo, Siamak Tazari, Chun-an Chan et al. // INTERSPEECH. — 2016. — P. 2238-2242.
[35] Rothauser EH. IEEE recommended practice for speech quality measurements // IEEE Trans. on Audio and Electroacoustics. — 1969. —Vol. 17. —P. 225-246.
[36] Sakai Shinsuke, Shu Han. A probabilistic approach to unit selection for corpus-based speech synthesis // Ninth European Conference on Speech Communication and Technology. — 2005.
[37] SampleRNN: An unconditional end-to-end neural audio generation model / Soroush Mehri, Kundan Kumar, Ishaan Gulrajani et al. // arXiv preprint arXiv:1612.07837.— 2016.
[38] Schuster Mike, Paliwal Kuldip K. Bidirectional recurrent neural networks // IEEE Transactions on Signal Processing.— 1997.— Vol. 45, no. 11. —P. 2673-2681.
[39] Sector International Telecommunication Union Radiocommunication. Subjective assessment of sound quality. — 1990.
[40] Show, attend and tell: Neural image caption generation with visual attention / Kelvin Xu, Jimmy Ba, Ryan Kiros et al. // International Conference on Machine Learning. — 2015. — P. 2048-2057.
[41] Srivastava Rupesh Kumar, Greff Klaus, Schmidhuber Jurgen. Highway networks // arXiv preprint arXiv:1505.00387. — 2015.
[42] Sutskever Ilya, Vinyals Oriol, Le Quoc V. Sequence to sequence learning with neural networks // Advances in neural information processing systems. — 2014. — P. 3104-3112.
[43] Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model / Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton et al. // arXiv preprint arXiv:1703.10135. — 2017.
[44] Taylor Paul. Text-to-speech synthesis. — Cambridge university press, 2009.
[45] The USTC and iFlytek speech synthesis systems for Blizzard Challenge 2007 / Zhen-Hua Ling, Long Qin, Heng Lu et al. // Blizzard Challenge Workshop. — 2007.
[46] Using deep bidirectional recurrent neural networks for prosodic-target prediction in a unit-selection text-to-speech system / Raul Fernandez, Asaf Rendel, Bhuvana Ramabhadran, Ron Hoory // Sixteenth Annual Conference of the International Speech Communication Association. —
2015.
[47] Wang Wenfu, Xu Shuang, Xu Bo. First Step Towards End-to-End Parametric TTS Synthesis: Generating Spectral Parameters with Neural Attention. // INTERSPEECH. - 2016. - P. 2243-2247.
[48] Wavenet: A generative model for raw audio / Aaron van den Oord, Sander Dieleman, Heiga Zen et al. // arXiv preprint arXiv:1609.03499. — 2016.
[49] Zen Heiga, Tokuda Keiichi, Black Alan W. Statistical parametric speech synthesis // Speech Communication.— 2009.— Vol. 51, no. 11. — P. 1039-1064.
[50] An adaptive algorithm for mel-cepstral analysis of speech / Toshiaki Fukada, Keiichi Tokuda, Takao Kobayashi, Satoshi Imai // Acoustics, Speech, and Signal Processing, 1992. ICASSP-92., 1992 IEEE International Conference on / IEEE. — Vol. 1. — 1992. — P. 137¬140.
[51] An algorithm for speech parameter generation from continuous mixture HMMs with dynamic features / Keiichi Tokuda, Takashi Masuko, Tetsuya Yamada et al. — 1995.
[52] sHTS: A streaming architecture for statistical parametric speech synthesis / Maria Astrinaki, Onur Babacan, Nicolas d’Alessandro, Thierry Dutoit // International Workshop on Performative Speech and Singing Synthesis. — 2011.
[53] Бондарко Лия Васильевна. Фонетическое описание языка и фонологическое описание речи. — Изд-во Ленинградского университета, 1981.
[54] Габдрахманов Ленар Маратович. Разработка и реализация метода генерации русской речи на основе текста. — К(П)ФУ, 2018.
[55] Златоустова Любовь Владимировна, Потапова Р К, Трунин- Донской В Н. Общая и прикладная фонетика. — Изд-во Московского университета, 1986.
[56] Фланаган Дж. Анализ, синтез и восприятие речи. — Связь, 1968.