Тип работы:
Предмет:
Язык работы:


СИНТЕЗ ЧЕЛОВЕЧЕСКОЙ РЕЧИ С ПОМОЩЬЮ НЕЙРОННОЙ СЕТИ

Работа №44675

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы43
Год сдачи2018
Стоимость4385 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
177
Не подходит работа?

Узнай цену на написание


Введение
Глава 1. Сбор данных 6
Глава 2. Программная реализация 7
Глава 3. Метрика качества и результаты экспериментов 15
Глава 4. Архитектура системы синтеза речи Tacotron 15
Глава 5. Программная реализация Tacotron 29
Глава 6. Метрики качества 29
Заключение 30
Приложение

Искусственная генерация речи - процесс, который называют синтезом речи или задачей text-to-speech (TTS) - осуществляется с помощью двух различных методов - параметрический синтез речи и компиляционный синтез речи. Когда говорят о задаче синтеза речи, важно определить два понятия для того чтобы судить о качестве сгенерированной речи - понятность и естественность. Понятность — это качество сгенерированной аудиозаписи - насколько она чиста и слышима. Естественность - это качество сгенерированной речи - насколько речь звучит эмоционально, имеет ли она верное произношение.
Компиляционный синтез речи как можно предположить из названия, опирается на отрывки аудиозаписей высокого качества, которые затем собираются вместе, чтобы создать речь. Несмотря на то, что сгенерированная речь очень чистая, сгенерированная подобным образом речь звучит безэмоционально. Понятно, но ненатурально. Причина этого в том, что сложно получить базу из аудиозаписей всех слов, которые могут быть произнесены со всеми возможными комбинациями эмоций, ударений и так далее. Системы, основанные на таком способе генерации речи нуждаются в большой базе аудиозаписей, а также в системе правил для того, чтобы сформировать из них слова.
Компиляционный синтез речи очень ограничен из -за требования к большому объему данных и большому времени на разработку такой системы. Поэтому вместо подобного метода грубой силы был создан метод больше основанный на статистике. Данный метод генерирует речь сочетанием таких характеристик как фундаментальная частота (fundamental frequency), спектр амплитуды (magnitude spectrum). Затем характеристики обрабатываются и генерируется речь.
Система параметрического синтеза речи состоит из двух частей:
• Сначала извлекаются различные лингвистические характеристики. Это могут быть фонемы, длительность и так далее...
• Затем извлекаются характеристики вокодера (vocoder) которые представляют соответствующий звуковой сигнал. Этими характеристиками могут быть спектрограмма, фундаментальная частота и так далее, которые представляют некоторые свойственные человеческой речи характеристики.
Эти характеристики, которые являются аннотированными человеком параметрами вместе с лингвистическими характеристиками подаются на вход математической модели называемой вокодером (vocoder). Вокодер принимает эти характеристики и совершает многократные сложные преобразования этих характеристик для того, чтобы сгенерировать звуковую волну. В процессе генерации звуковой волны, вокодер оценивает такие параметры речи как ритм, ударение, интонацию.
Параметрически синтезированная речь модульна. Если можно осуществить приближение параметров, которые создают речь, то можно натренировать модель для генерации всех видов речи. Такой подход нуждается в куда меньшем количестве данных и меньшем затрат по времени чем компиляционный.
На практике данный способ дает не самый лучший результат. Сгенерированная речь не звучит естественно. Это происходит из того, что некоторые характеристики, подающиеся на вход модели являются жестко фиксированными. При использовании данного подхода фиксируются несколько характеристик, от которых ожидается, что они сгенерируют речь. Такие характеристики созданы человеком с нашим пониманием звучания человеческой речи, и не обязательно являются наилучшими характеристиками.
Tacotron является одной из систем использующих глубокое обучение, это end-to-end система синтеза речи от компании Google. Будет рассмотрена первая версия данной системы, которая была опубликована 29 марта 2017 года.
End-to-end подход в глубоком обучении означает, что получение результата происходит напрямую - на одном конце принимаются данные, а на другом конце выводятся уже готовые данные, например речевой сигнал. Такая система обходится без системы жестких правил или характеристик, подобранных вручную. Основываясь на данном подходе Tacotron генерирует речевой сигнал напрямую из текстовых символов, а обучение происходит основываясь лишь на парах <текст, аудиосигнала
Цель работы заключается в том, чтобы исследовать различные модели генерации речи - начиная от самой простой - компиляционной, постепенно усложнять модель. В ходе работы были реализованы также многослойный персептрон и более сложная модель - highway networks. Задача состоит в сборе данных для обучения модели, реализации самой модели, подборе оптимальных гиперпараметров и сравнении качества полученных моделей.
Во второй части работы стоит задача изучить архитектуру Tacotron, рассмотреть готовую реализацию и синтезировать речь на основе данной реализации, а также сравнить с реализованными ранее решениями используя метрику Mean Opinion Score.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе работы было исследовано какие способы синтеза речи существуют, был собран набор данных, а также реализованы три модели - компиляционная, многослойный персептрон и highway networks. В итоге, на основе метрики усредненная оценка разборчивости речи (Mean Opinion Score) было показано что наилучший результат показала компиляционная модель.
Во второй части работы была исследована архитектура системы для синтеза речи Tacotron, проведены эксперименты по синтезу речи используя готовую реализации данной системы и получена усредненная оценка разборчивости речи (Mean Opinion Score) для полученных результатов. Результаты, полученные с помощью Tacotron оказались лучше по сравнению с самостоятельными реализациями системы по синтезу речи.



1. Rupesh Kumar Srivastava, Klaus Greff, and Jurgen Schmidhuber. Highway networks. " arXiv preprint arXiv:1505.00387, 2015.
2. Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. In Advances in neural information processing systems, pp. 3104-3112, 2014
3. Y. Wang, R. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio и др., “Tacotron: Towards end-to-end speech synthesis”, arXiv preprint arXiv:1703.10135, 2017.
4. D. Griffin и J. Lim, “Signal estimation from modified short-time Fourier transform”, IEEE Transactions on Acoustics, Speech, and Signal Processing, т. 32, № 2, с. 236—243, 1984.
5. Junyoung Chung, Caglar Gulcehre, KyungHyun Cho, and Yoshua Bengio. Empirical evaluation of gated recurrent neural networks on sequence modeling. arXiv preprint arXiv: 1412.3555, 2014.
6. Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. Proceedings of the 3rd International Conference on Learning Representations (ICLR), 2015.
7. Heiga Zen, Keiichi Tokuda, and Alan W Black. Statistical parametric speech synthesis. Speech Communication, 51(11):1039-1064, 2009.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ