Тема: Разработка и реализация метода генерации русской речи на основе текста
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Генерация речи на основе текста 6
1.1. Существующие подходы к синтезу речи 6
1.1.1. Конкатенативный подход 6
1.1.2. Параметрический подход 12
1.1.3. Генеративный подход 14
1.1.4. Подход на основе преобразования последовательности к последовательности 16
1.2. Архитектура сквозной модели генерации речи Tacotron . 18
2. Реализация алгоритма генерации речи 25
2.1. Речевой корпус 25
2.2. Обучение нейронной сети 26
2.2.1. Предобработка данных 26
2.2.2. Входные данные нейронной сети 27
2.2.3. Реализация кодера 28
2.2.4. Реализация декодера 29
2.2.5. Быстрый алгоритм Гриффина-Лима 30
2.2.6. Реализация сети постобработки и синтеза речи . . 30
3. Экспериментальное исследование алгоритма 32
3.1. Язык программирования и используемые библиотеки . . 32
3.2. Характеристики оборудования 32
3.3. Результаты генерации речи 33
3.4. Оценка качества синтезируемой речи 38
Заключение 41
Список использованной литературы 42
📖 Введение
Существует большое количество задач обработки естественного языка, одна из значимых в последние годы является обработка устной человеческой речи. Обработка устной речи человека разделяется на две области - распознавание речи и генерация речи. Если распознавание речи - это процесс преобразования цифрового аудиосигнала, содержащего человеческую речь, в текст, то генерация речи - обратная задача. Таким образом, генерация речи - автоматическое формирование аудиосигнала, содержащего человеческую речь, на основе входной информации. Наиболее значимые исследования проводятся в области посимвольного преобразования напечатанного текста в речь. Такой подход наиболее гибкий, универсальный, но в тоже время наиболее сложный, если сравнивать, например, с обычным соединением отдельных слов в предложения. Генерация речи получила большое распространение: от носимой электроники до военных структур.
В последнее время, благодаря подходам глубокого обучения, достигнуты очень высокие результаты в генерации речи. Однако, эти результаты распространяются на очень малое количество языков, в основном, английский и китайский. Связано это в первую очередь с тем, что эти языки наиболее распространены в мире, и, соответственно, существует достаточное количество данных (текста, аудио), которые можно использовать в работе алгоритмов, основанных на глубоком обучении. Открытых же источников с достаточным объемом данных на русском языке просто нет, поэтому и исследований, связанных с генерацией русской речи, проводится мало. Поэтому синтез естественной, выразительной русской речи на основе напечатанного текста, а также создание открытой базы аудиозаписей и сопоставленных им текстов на русском языке являются актуальными и перспективными задачами.
Данная выпускная квалификационная работа была выполнена совместно со студентом ИВМиИТ группы 09-635 Гараевым Р.М. [46]. Обязанности были разделены, в каждой из работ подробно описываются только те проблемы, которые решал каждый из студентов отдельно. Общими же целями являются разработка и реализация метода генерации русской речи с использованием глубокой нейронной сети, которая принимает на вход текст на русском языке, создание объемного речевого корпуса на русском языке, обучение на нем алгоритма и проведение экспериментов.
Целями данной работы являются:
1. Изучение литературы по машинному обучению, глубокому обучению, обработке сигналов и генерации речи.
2. Программная реализация нейронной сети Tacotronдля генерации речи на языке Python с использованием библиотеки TensorFlow.
3. Валидация гиперпараметров и обучение реализованной нейронной сети.
4. Разработка новой нейронной сети на основе сети T acotronс использованием архитектуры GRU (GatedRecurrentUnit)и нормализации весов.
5. Реализация разработанной архитектуры на языке Python с использованием библиотеки TensorFlow.
6. Обучение реализованной сети и валидация ее гиперпараметров.
7. Анализ полученных результатов.
✅ Заключение
Цели и задачи, поставленные в данной работе были выполнены. Результаты, полученные в работе:
1. программная реализация нейронной сети Tacotronна языке Python с использованием библиотеки TensorFlow;
2. модифицированная архитектура нейронной сети для генерации речи с использованием нормализации весов;
3. программная реализация предложенной архитектуры на языке Python с использованием библиотеки TensorFlow;
4. обученная модель для генерации русской речи;
5. экспериментально полученные данные о влиянии гиперпараметров и архитектуры нейронной сети на качество генерируемой ре¬чи.



