Тема: РАЗРАБОТКА МЕТОДОВ ПОВЫШЕНИЯ ТОЧНОСТИ АЛГОРИТМА СИНТЕЗА РЕЧИ С ПОМОЩЬЮ НЕЙРОННЫХ СЕТЕЙ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Методы синтеза речи 6
1.1 Конкатенативный подход 6
1.2 Параметрический подход 6
1.3 Генеративный подход 7
1.4 Подход “последовательность к последовательности” 8
1.4.1 Сквозная модель генерации речи Tacotron 8
1.4.2 Сквозная модель генерации речи Tacotron 2 с модулем
WaveNet в качестве вокодера 12
2 Модификация нейронной сети Tacotron 2 18
2.1 Акустическая модель 18
2.2 Генеративно-состязательная сеть для оценки реалистичности
генерируемых спектрограмм 20
2.2.1 Генеративно-состязательная сеть 20
2.2.2 Генеративно-состязательная сеть Васерштейна 23
2.2.3 Генеративно-состязательная сеть Васерштейна с градиентным штрафом 25
2.2.4 Рекуррентная генеративно-состязательная сеть 26
2.2.5 Критик для генерируемых спектрограмм Tacotron 2 . . . 27
3 Реализация нейронных сетей для синтеза речи 29
3.1 Реализация и обучение нейронной сети Tacotron 2 29
3.1.1 Предобработка данных 29
3.1.2 Входные данные 29
3.1.3 Реализация кодировщика 30
3.1.4 Блок механизма внимания 31
3.1.5 Реализация декодировщика 31
3.1.6 Блок предсказания спектрограммы 31
3.2 Реализация и обучение нейронной сети SpecRGAN 33
3.3 Реализация и обучение нейронной сети TacoGAN 34
4 Экспериментальное исследование 35
4.1 Язык программирования и используемые библиотеки 35
4.2 Данные для обучения. Речевой корпус 35
4.3 Результаты обучения Tacotron 2 37
4.4 Результаты обучения SpecRGAN 42
4.5 Результаты обучения TacoGAN 43
4.6 Эксперименты с уменьшенным корпусом 47
5 Оценка качества синтезируемой речи 49
ЗАКЛЮЧЕНИЕ 52
СПИСОК ЛИТЕРАТУРЫ 53
ПРИЛОЖЕНИЯ 57
📖 Введение
Целью данной работы является разработка метода синтеза речи на основе нейронной сети Tacotron 2 с использованием генеративносостязательного подхода. Для достижения этой цели обозначим основные задачи данной работы:
1) Исследование основных существующих подходов к синтезу речи: конкатенативный, параметрический, генератив
ный (WaveNet), “последовательность к последовательности” (Tacotron, Tacotron 2).
2) Реализация нейронной сети Tacotron 2 на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow.
3) Обучение реализованной нейронной сети на русскоязычном корпусе RUSLAN.
4) Разработка новой архитектуры на основе Tacotron 2 с использованием генеративно-состязательного подхода.
5) Реализация модификации на языке программирования Python с использованием библиотеки глубокого машинного обучения TensorFlow.
6) Обучение модификации на русскоязычном корпусе RUSLAN.
7) Исследование влияния гиперпараметров и архитектуры на качество синтезируемой речи.
8) Оценка качества синтезируемой речи для различных архитектур с помощью опроса Mean Opinion Score (MOS).
1. Методы синтеза речи
Задача синтеза речи предполагает преобразование входного набора текстовых символов в речевой сигнал. Существует множество различных алгоритмов синтеза речи, и их выбор зависит от конкретной задачи. Рассмотрим основные существующие подходы синтеза речи.
1.1. Конкатенативный подход
Основная идея данного подхода заключается в том, чтобы генерировать речь из заранее размеченных минимальных единиц естественного языка. В качестве таких единиц обычно служат отдельные слова, слоги, но чаще всего фонемы, дифоны и трифоны — сегменты речи между отдельными морфемами. Задача выбора минимальной единицы крайне важна, поскольку от этого зависит объем хранимых данных. Если ставится задача синтеза речи из заранее неизвестной текстовой последовательности, то объем хранимых данных становится достаточно большим, что является одной из основных проблем данного подхода. К минусам метода можно отнести общую трудоемкость и разметку данных. На этапе генерации речи выбираются нужные речевые единицы и конкатенируются между собой. При таком подходе часто возникают искажения в области конкатенации, которые обычно устраняются с помощью различных методов сглаживания. При этом количество искажений также зависит от объема размеченных данных — чем больше различных вариаций произношения минимальной единицы речи (аллофонов), тем меньше искажений будет присутствовать при синтезе. Существует несколько алгоритмов конкатенативного синтеза речи, основные представлены в работах [1] - [3].
✅ Заключение
Была разработана и реализована модификация TacoGAN на основе Tacotron 2 с использованием генеративно-состязательного подхода. Обучение данной модификации также проходило на русскоязычном корпусе RUSLAN. Для обучения TacoGAN сначала была обучена нейронная сеть SpecRGAN на неаннотированных данных, состоящих из спектрограмм речевых сигналов. Неаннотированные данные являются серьезным преимуществом нашего подхода, поскольку сбор таких данных не требует больших временных затрат. Именно поэтому объем неаннотированных данных может в разы превосходить объем любого речевого корпуса для задач синтеза речи.
Помимо этого, были проведены эксперименты на уменьшенном корпусе для более точной оценки влияния критика SpecRGAN на обучение TacoGAN. В процессе обучения были проведены исследования влияния гиперпараметров на обучение нейронных сетей и подобраны наиболее оптимальные значения.
Для оценки точности экспериментов был проведен социальный опрос MOS среди обычных людей. Полученные результаты демонстрируют, что генеративно-состязательная сеть положительно влияет на обучение TacoGAN, что подтверждается как с точки зрения информации в ходе обучения, так и с точки зрения синтезируемой речи. Исходя из этого, можно говорить о том, что все поставленные задачи и цель данной работы были выполнены. Речь, полученная с помощью TacoGAN, хорошо передает интонацию и в ней меньше акцентов на отдельных словах, что часто можно наблюдать в случае Tacotron 2. При этом общей проблемой Tacotron 2 и TacoGAN остаются ошибки в ударениях слов и искажения, связанные с использованием алгоритма Гриффина-Лима.



