Тип работы:
Предмет:
Язык работы:


РАЗРАБОТКА ПРОГРАММНОГО СРЕДСТВА СИНТЕЗА РЕЧИ ДЛЯ ТАТАРСКОГО ЯЗЫКА

Работа №45590

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы39
Год сдачи2018
Стоимость4860 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
240
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 2
1. Теоретический обзор технологий синтеза речи 4
1.1 История развития синтеза речи 4
1.2 Классификация подходов к построению системы синтеза речи 5
2. Архитектура системы нейросетевого синтеза речи 12
2.1 Подготовка обучающих данных 12
2.2 Построение нейросетевых моделей речи 23
3. Программная реализация системы синтеза речи 28
3.1 Программные средства для формирования обучающих данных 28
3.3 Оценка качества системы синтеза татарской речи 30
ЗАКЛЮЧЕНИЕ 33
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Речь играет важную роль в эволюции человечества, будучи эффективным способом общения. Речь была предметом исследований на протяжении веков, за это время были изучены различные аспекты речевых технологий.
Исследования в области речевых технологий подпитываются растущей значимостью новых приложений. К ним относятся услуги поиска информации по телефону, публичные объявления в таких местах, как вокзалы, автобусы, метрополитен, инструменты для чтения электронных писем, факсов, веб¬страниц, голосовой вывод в системах автоматического перевода, специальное оборудование для людей с физическими недостатками. При помощи электронных словарей и переводчиков, имеющих синтезатор речи, становится возможным изучение иностранных языков с постановкой правильного произношения.
Уровень развития речевых технологий сильно различается между языками. Например, в России несмотря на наличие 7 языков на которых говорят более миллиона людей, качество программных средств в области речевых технологий примерно сравнимое с мировыми аналогами сопоставимо только для русского языка. Слабый уровень развития информационных технологий в языках способствует их вытеснению ведущими мировыми языками.
Цель синтеза речи - автоматическое формирование речевого сигнала по печатному тексту. Много подходов и алгоритмов предложено в этой области. В первых системах синтеза речи упор делался на разборчивость речи, а теперь внимание уделяется на естественность звучания.
Разработанная автором система синтеза татарской речи производит синтез произвольного текста без специальной предварительной разметки. Система является востребованной, если получателем информации является человек.
Подтверждением актуальности проведенных исследований является большое количество докладов на тему синтеза речи на международных научных конференциях, и высокая потребность рынка в программных средствах.
Целью диссертационной работы является создание программных средств синтеза естественной татарской речи на основе нейронных сетей глубокого обучения.
Для достижения поставленной цели в диссертационной работе необходимо решить следующие задачи:
1. Разработать программные средства синтеза татарской речи на основе нейронных сетей глубокого обучения.
2. Провести экспериментальные исследования и оценку качества синтезируемой речи.
Новизна:
- разработан алгоритм представления структуры татарских слов;
- разработан алгоритм фонетической разметки татарских текстов;
- формирование описания лингвистических и акустических характеристик татарского языка;


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе проведенных исследований были разработаны программные средства для системы синтеза татарской речи, в основе которой лежат нейронные сети глубокого обучения. Осуществлена разработка технологий лингвистической и фонетической обработки текста на основе выявленных особенностей татарского языка и проведена оценка качества программных средств синтеза речи.
Результаты экспериментов показали, что двунаправленные рекуррентные сети, основанные на LSTM, дают лучший результат естественности звучания татарского языка по сравнению с другими популярными архитектурами нейронных сетей в области синтеза речи. Синтезируемая речь приближена к естественной, механический голос присущий вокодерным системам синтеза речи минимален. При решении задач получены следующие практические результаты:
1) Разработан алгоритм представления структуры татарских слов.
2) Разработан алгоритм фонетической разметки татарских текстов.
3) Сформировано описание лингвистических и акустических характеристик татарского языка.
4) Разработаны программные средства синтеза татарской речи, основанной на нейронных сетях глубокого обучения. Программные средства реализованы модульно, что дает возможность распределения процесса разработки в будущем и упрощает тестирование.



1. Богородицкий В. А., Введение в татарское языкознание в связи с другими тюркскими языками // под ред. Н. К. Дмитриева. - 2-е изд., испр. и доп. - Казань : Татгосиздат, 1953, 220 с.
2. Ибрагимов Т.И., К проблеме фонематического представления
орфографического текста в синтезаторе татарской речи. // Труды математического центра имени Н.И. Лобачевского. Т.4, Изд-во
“УНИПРЕСС”, Казань, 1999, с. 84- 93.
3. Ибрагимов Т. И., Некоторые статистические данные о слогах татарского языка // Учен. зап. Казан. ун-та., том 125, книга 6, 1965, с. 74-78.
4. Лобанов Б.М., Цирульник Л.И. Компьютерный синтез и клонирование ре¬чи // Минск: Белорусская наука, 2008, - 316 с.
5. Фланаган Дж., Анализ, синтез и восприятие речи. // Пер. с англ.- М.: Связь, 1968, 396 с.
6. Хусаинов А.Ф., Технология автоматизации создания и оценки качества программных средств анализа речи с учетом особенностей малоресурсных языков: дис. канд. техн. наук: 05.13.11 // Хусаинов Айдар Фаилович. Казань, 2014, 129-133 с.
7. Чистиков П., Технология синтеза русской речи на основе скрытых Марковских моделей // Научно-технический вестник информационных технологий, механики и оптики, Вып. 3. 2012. с. 151-152.
8. Cawley G. and Noakes P., “LSP speech synthesis using backpropagation networks,” // In Proc. Third Int. Conf, on Artificial Neural Networks, 1993, pp. 291-294.
9. Charpentier F., Stella M. Diphone synthesis using an overlap-add technique for speech waveforms concatenation // Proceedings on the International Conference on Acoustic, Speech and Signal Processing, Tokio, Japan, 1986.
10. Chistikov P. Pitch-scale modification in text-to-speech systems // Proceedings of the IEEE North West Russia Section, 2011, pp. 37-42.
11. Chung J., Gulcehre C., Cho K., and Bengio Y., “Empirical evaluation of gated recurrent neural networks on sequence modeling,” // arXiv preprint arXiv:1412.3555, 2014.
12. Clark R., Richmond K., and King S., “Multisyn: Open-domain unit selection for the Festival speech synthesis system,”// Speech Communication, vol. 49, no. 4, 2007, pp. 317-330.
13. Graves A. and Schmidhuber J., “Framewise phoneme classification with bidirectional LSTM and other neural network architectures,” // Neural Networks, vol. 18, no. 5, 2005, pp. 602-610.
14. Hashimoto K., Oura K., Nankaku Y., and Tokuda K., “The effect of neural networks in statistical parametric speech synthesis,” // In Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), 2015, pp. 4455-4459.
15. Hochreiter S. and Schmidhuber J., “Long short-term memory,” // Neural computation, vol. 9, no. 8, 1997, pp. 1735-1780.
16. Hamon С., Moulines E., Charpentier F. A diphone synthesis system based on time-domain prosodic manipulations of speech // Proceedings on the International Conference on Acoustic, Speech and Signal Processing, 1989, p. 238.
17. Karaali O., Corrigan G., Massey N., Miller C., Schnurr O., and Mackie A., “A high quality text-to-speech system composed of multiple neural networks,” // In Proc. IEEE Int. Conf, on Acoustics, Speech, and Signal Processing (ICASSP), vol. 2, 1998, pp. 1237-1240.
18. King S., Karaiskos V. The Blizzard Challenge 2010 // CSTR. - University of Edinburgh, UK, 2010.
19. Kominek J., Black A. The Blizzard Challenge 2006 CMU entry introducing hybrid trajectory-selection synthesis // In Blizzard Challenge Workshop, 2006.
20. Ling Z., Kang S., Zen H., Senior A., Schuster M., Qian X., Meng H., and Deng L., “Deep learning for acoustic modeling in parametric speech generation: A systematic review of existing techniques and future trends,” // IEEE Signal Processing Magazine, vol. 32, no. 3, 2015, pp. 35-52.
21. Lu H., King S., and Watts O., “Combining a vector space representation of linguistic context with a deep neural network for text-to-speech synthesis,” // Proc. the 8th ISCA Speech Synthesis Workshop (SSW), pp. 281-285.
22. Maia R., Zen H., Tokuda К. An HMM-based Brazilian Portuguese Speech Synthesis and Its Characteristics // Revista da Sociedade Brasileira de Telecomunicacoes, 2006.
23. Morise M., Yokomori F., and OZAWA K., “WORLD: a vocoder-based high- quality speech synthesis system for real-time applications,”// IEICE transactions on information and systems, 2016.
24. Qian Y., Fan Y., Hu W., and Soong F. K., “On the training aspects of deep neural network (DNN) for parametric TTS synthesis,” // In Proc. IEEE Int. Conf, on Acoustics, Speech, and Signal Processing (ICASSP), 2014, pp. 3829-3833.
25. Rafael C, Luiz W., Netto S. A sequential system for voice pitch modification // In proceedings of the 5th AES-Brazil Conference, Brazil, 2007.
26. Riedi M., “A neural-network-based model of segmental duration for speech synthesis,” in Proc. European Conference on Speech Communication and Technology (Eurospeech), 1995, pp. 599-602.
27.Shiga Y., Toda Т., Sakai Sh., Ni J., Kawai H., Tokuda K., Tsuzaki M., Nakamura S. NICT Blizzard Challenge 2010 Entry // The Blizzard Challenge 2010, Japan, 2010.
28. Taylor P., Text-to-Speech Synthesis // Cambridge University Press, 2009, pp. 315-324.
29. Tokuda K., Masuko T., Yamada T. An algorithm for speech parameter generation from continuous mixture HMMs with dynamic features // Proceedings of Eurospeech-1995, 1995.
30. Tokuda K., Zen H., Black A.W. An HMM-based speech synthesis system applied to English // Proc. IEEE Workshop on Speech Synthesis, 2002. pp. 227-230.
31. Tuerk C. and Robinson T., “Speech synthesis using artificial neural networks trained on cepstral coefficients.” // In Proc. European Conference on Speech Communication and Technology (Eurospeech), 1993, pp. 4-7.
32. Watts O., Henter G., Merritt T., Wu Z., and King S., “From HMMs to DNNs: where do the improvements come from?”// In Proc. IEEE Int. Conf, on Acoustics, Speech, and Signal Processing (ICASSP), 2016.
33. Wu, Z, Watts, O & King, S 2016, Merlin: An Open Source Neural Network Speech Synthesis System. // In 9th ISCA Speech Synthesis Workshop (2016). pp. 218-223.
34. Weijters T. and J. Thole, “Speech synthesis with artificial neural networks,” in Proc. Int. Conf. on Neural Networks, 1993, pp. 1764-1769.
35. Wu Z., C. Valentini-Botinhao, Watts O., and King S., “Deep neural networks employing multi-task learning and stacked bottleneck features for speech synthesis,” in Proc. IEEE Int. Conf, on Acoustics, Speech, and Signal Processing (ICASSP), 2015, pp. 4460-4464.
36. Wu Z. and King S., “Investigating gated recurrent neural networks for speech synthesis,” in Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), 2016.
37. Zen H., “Acoustic modeling in statistical parametric speech synthesis - from HMM to LSTM-RNN,” // In Proc. MLSLP, 2015.
38. Zen H., K. Tokuda, and A. W. Black, “Statistical parametric speech synthesis,” // Speech Communication, vol. 51, no. 11, 2009, pp. 1039-1064.
39. Zen H., Senior A., and Schuster M., “Statistical parametric speech synthesis using deep neural networks,” // In Proc. IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), 2013, pp. 7962-7966.
40. Zen H., Tokuda K., Masuko Т., Kobayashi Т., Kitamura T. Hidden semi Markov model based speech synthesis // Proceedings of the International Conference on Spoken Language Processing (ICSLP), 2004.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ