ВВЕДЕНИЕ 4
1 Методы синтеза речи 6
1.1 Конкатенативный подход 6
1.2 Параметрический подход 6
1.3 Генеративный подход 7
1.4 Подход “последовательность к последовательности” 8
1.4.1 Сквозная модель генерации речи Tacotron 8
1.4.2 Сквозная модель генерации речи Tacotron 2 с модулем
WaveNet в качестве вокодера 12
2 Модификация нейронной сети Tacotron 2 18
2.1 Акустическая модель 18
2.2 Генеративно-состязательная сеть для оценки реалистичности
генерируемых спектрограмм 20
2.2.1 Генеративно-состязательная сеть 20
2.2.2 Генеративно-состязательная сеть Васерштейна 23
2.2.3 Генеративно-состязательная сеть Васерштейна с градиентным штрафом 25
2.2.4 Рекуррентная генеративно-состязательная сеть 26
2.2.5 Критик для генерируемых спектрограмм Tacotron 2 . . . 27
3 Реализация нейронных сетей для синтеза речи 29
3.1 Реализация и обучение нейронной сети Tacotron 2 29
3.1.1 Предобработка данных 29
3.1.2 Входные данные 29
3.1.3 Реализация кодировщика 30
3.1.4 Блок механизма внимания 31
3.1.5 Реализация декодировщика 31
3.1.6 Блок предсказания спектрограммы 31
3.2 Реализация и обучение нейронной сети SpecRGAN 33
3.3 Реализация и обучение нейронной сети TacoGAN 34
4 Экспериментальное исследование 35
4.1 Язык программирования и используемые библиотеки 35
4.2 Данные для обучения. Речевой корпус 35
4.3 Результаты обучения Tacotron 2 37
4.4 Результаты обучения SpecRGAN 42
4.5 Результаты обучения TacoGAN 43
4.6 Эксперименты с уменьшенным корпусом 47
5 Оценка качества синтезируемой речи 49
ЗАКЛЮЧЕНИЕ 52
СПИСОК ЛИТЕРАТУРЫ 53
ПРИЛОЖЕНИЯ
На данный момент происходит активное развитие компьютерных технологий, при этом особенно стремительно развивается область машинного обучения. Одной из важнейших прикладных задач является задача обработки естественного языка, поскольку естественный язык — это основа коммуникации для большинства людей. Механизм синтеза речи уже давно является очень важным инструментом для людей с ограниченными возможностями, у которых встречается нарушение зрительной функции, нарушение способности к овладению навыком чтения, нарушение речевого аппарата. Кроме того, механизмы синтеза речи в сочетании с распознаванием речи позволяют взаимодействовать с различными устройствами через интерфейсы обработки естественного языка.
Целью данной работы является разработка метода синтеза речи на основе нейронной сети Tacotron 2 с использованием генеративно-состязательного подхода. Для достижения этой цели обозначим основные задачи данной работы:
1) Исследование основных существующих подходов к синтезу речи: конкатенативный, параметрический, генеративный (WaveNet), “последовательность к последовательности” (Tacotron, Tacotron 2).
2) Реализация нейронной сети Tacotron 2 на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow.
3) Обучение реализованной нейронной сети на русскоязычном корпусе RUSLAN.
4) Разработка новой архитектуры на основе Tacotron 2 с использованием генеративно-состязательного подхода.
5) Реализация модификации на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow.
6) Обучение модификации на русскоязычном корпусе RUSLAN.
7) Исследование влияния гиперпараметров и архитектуры на качество синтезируемой речи.
8) Оценка качества синтезируемой речи для различных архитектур с помощью опроса Mean Opinion Score (MOS).
В ходе выполнения данной работы был реализован алгоритм синтеза речи Tacotron 2 на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow. Реализованный алгоритм был обучен на русскоязычном корпусе RUSLAN.
Была разработана и реализована модификация TacoGAN на основе Tacotron 2 с использованием генеративно-состязательного подхода. Обучение данной модификации также проходило на русскоязычном корпусе RUSLAN. Для обучения TacoGAN сначала была обучена нейронная сеть SpecRGAN на неаннотированных данных, состоящих из спектрограмм речевых сигналов. Неаннотированные данные являются серьезным преимуществом нашего подхода, поскольку сбор таких данных не требует больших временных затрат. Именно поэтому объем неаннотированных данных может в разы превосходить объем любого речевого корпуса для задач синтеза речи.
Помимо этого, были проведены эксперименты на уменьшенном корпусе для более точной оценки влияния критика SpecRGAN на обучение TacoGAN. В процессе обучения были проведены исследования влияния гиперпараметров на обучение нейронных сетей и подобраны наиболее оптимальные значения.
Для оценки точности экспериментов был проведен социальный опрос MOS среди обычных людей. Полученные результаты демонстрируют, что генеративно-состязательная сеть положительно влияет на обучение TacoGAN, что подтверждается как с точки зрения информации в ходе обучения, так и с точки зрения синтезируемой речи. Исходя из этого, можно говорить о том, что все поставленные задачи и цель данной работы были выполнены. Речь, полученная с помощью TacoGAN, хорошо передает интонацию и в ней меньше акцентов на отдельных словах, что часто можно наблюдать в случае Tacotron 2. При этом общей проблемой Tacotron 2 и TacoGAN остаются ошибки в ударениях слов и искажения, связанные с использованием алгоритма Гриффина-Лима.