Тема: РАЗРАБОТКА МЕТОДОВ ПОВЫШЕНИЯ ТОЧНОСТИ АЛГОРИТМА СИНТЕЗА РЕЧИ С ПОМОЩЬЮ НЕЙРОННЫХ СЕТЕЙ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Методы синтеза речи 6
1.1 Конкатенативный подход 6
1.2 Параметрический подход 6
1.3 Генеративный подход 7
1.4 Подход “последовательность к последовательности” 8
1.4.1 Сквозная модель генерации речи Tacotron 8
1.4.2 Сквозная модель генерации речи Tacotron 2 с модулем
WaveNet в качестве вокодера 12
2 Модификация нейронной сети Tacotron 2 18
2.1 Акустическая модель 18
2.2 Генеративно-состязательная сеть для оценки реалистичности
генерируемых спектрограмм 20
2.2.1 Генеративно-состязательная сеть 20
2.2.2 Генеративно-состязательная сеть Васерштейна 23
2.2.3 Генеративно-состязательная сеть Васерштейна с градиентным штрафом 25
2.2.4 Рекуррентная генеративно-состязательная сеть 26
2.2.5 Критик для генерируемых спектрограмм Tacotron 2 . . . 27
3 Реализация нейронных сетей для синтеза речи 29
3.1 Реализация и обучение нейронной сети Tacotron 2 29
3.1.1 Предобработка данных 29
3.1.2 Входные данные 29
3.1.3 Реализация кодировщика 30
3.1.4 Блок механизма внимания 31
3.1.5 Реализация декодировщика 31
3.1.6 Блок предсказания спектрограммы 31
3.2 Реализация и обучение нейронной сети SpecRGAN 33
3.3 Реализация и обучение нейронной сети TacoGAN 34
4 Экспериментальное исследование 35
4.1 Язык программирования и используемые библиотеки 35
4.2 Данные для обучения. Речевой корпус 35
4.3 Результаты обучения Tacotron 2 37
4.4 Результаты обучения SpecRGAN 42
4.5 Результаты обучения TacoGAN 43
4.6 Эксперименты с уменьшенным корпусом 47
5 Оценка качества синтезируемой речи 49
ЗАКЛЮЧЕНИЕ 52
СПИСОК ЛИТЕРАТУРЫ 53
ПРИЛОЖЕНИЯ
📖 Введение
Целью данной работы является разработка метода синтеза речи на основе нейронной сети Tacotron 2 с использованием генеративно-состязательного подхода. Для достижения этой цели обозначим основные задачи данной работы:
1) Исследование основных существующих подходов к синтезу речи: конкатенативный, параметрический, генеративный (WaveNet), “последовательность к последовательности” (Tacotron, Tacotron 2).
2) Реализация нейронной сети Tacotron 2 на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow.
3) Обучение реализованной нейронной сети на русскоязычном корпусе RUSLAN.
4) Разработка новой архитектуры на основе Tacotron 2 с использованием генеративно-состязательного подхода.
5) Реализация модификации на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow.
6) Обучение модификации на русскоязычном корпусе RUSLAN.
7) Исследование влияния гиперпараметров и архитектуры на качество синтезируемой речи.
8) Оценка качества синтезируемой речи для различных архитектур с помощью опроса Mean Opinion Score (MOS).
✅ Заключение
Была разработана и реализована модификация TacoGAN на основе Tacotron 2 с использованием генеративно-состязательного подхода. Обучение данной модификации также проходило на русскоязычном корпусе RUSLAN. Для обучения TacoGAN сначала была обучена нейронная сеть SpecRGAN на неаннотированных данных, состоящих из спектрограмм речевых сигналов. Неаннотированные данные являются серьезным преимуществом нашего подхода, поскольку сбор таких данных не требует больших временных затрат. Именно поэтому объем неаннотированных данных может в разы превосходить объем любого речевого корпуса для задач синтеза речи.
Помимо этого, были проведены эксперименты на уменьшенном корпусе для более точной оценки влияния критика SpecRGAN на обучение TacoGAN. В процессе обучения были проведены исследования влияния гиперпараметров на обучение нейронных сетей и подобраны наиболее оптимальные значения.
Для оценки точности экспериментов был проведен социальный опрос MOS среди обычных людей. Полученные результаты демонстрируют, что генеративно-состязательная сеть положительно влияет на обучение TacoGAN, что подтверждается как с точки зрения информации в ходе обучения, так и с точки зрения синтезируемой речи. Исходя из этого, можно говорить о том, что все поставленные задачи и цель данной работы были выполнены. Речь, полученная с помощью TacoGAN, хорошо передает интонацию и в ней меньше акцентов на отдельных словах, что часто можно наблюдать в случае Tacotron 2. При этом общей проблемой Tacotron 2 и TacoGAN остаются ошибки в ударениях слов и искажения, связанные с использованием алгоритма Гриффина-Лима.



