Тема: Разработка и реализация метода генерации русской речи на основе текста
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Генерация речи на основе текста 6
1.1. Существующие подходы к синтезу речи 6
1.1.1. Конкатенативный подход 6
1.1.2. Параметрический подход 12
1.1.3. Генеративный подход 14
1.1.4. Подход на основе преобразования последовательности к последовательности 16
1.2. Архитектура сквозной модели генерации речи Tacotron . 18
1.2.1. Подходы к восстановлению сигнала 24
2. Реализация алгоритма генерации речи 25
2.1. Речевой корпус Voice of KFU 25
2.1.1. Подготовка текста 25
2.1.2. Окружение и характеристики записи 26
2.1.3. Процесс проверки 28
2.2. Обучение нейронной сети 29
2.2.1. Предобработка данных 29
2.2.2. Входные данные нейронной сети 30
2.2.3. Реализация кодера 31
2.2.4. Реализация декодера 32
2.2.5. Быстрый алгоритм Гриффина-Лима 33
2.2.6. Реализация сети постобработки и синтеза речи . . 34
2.2.7. Использование вспомогательной аудиомодели ... 35
3. Экспериментальное исследование алгоритма 37
3.1. Язык программирования и используемые библиотеки . . 37
3.2. Характеристики оборудования 37
3.3. Результаты генерации речи 38
3.4. Оценка качества синтезируемой речи 43
4. Вывод
Список литературы
Приложение
📖 Введение
Существует большое количество задач обработки естественного языка, одна из значимых в последние годы является обработка устной человеческой речи. Обработка устной речи человека разделяется на две области - распознавание речи и генерация речи. Если распознавание речи - это процесс преобразования цифрового аудиосигнала, содержащего человеческую речь, в текст, то генерация речи - обратна задача. Таким образом, генерация речи - автоматическое формирование аудиосигнала, содержащего человеческую речь, на основе входной информации. Наиболее значимые исследования проводятся в области посимвольного преобразования напечатанного текста в речь. Такой подход наиболее гибкий, универсальный, но в тоже время наиболее сложный, по сравнению, например, с обычной конкатенацией целых слов в предложения. Генерация речи получила большое распространение: от носимой электроники до военных структур.
В последнее время, благодаря подходам глубокого обучения, достигнуты очень высокие результаты в генерации речи. Однако, эти результаты распространяются на очень малое количество языков, в основ¬ном, английский и китайский. Генерация естественной, выразительной и эмоционально окрашенной русской речи на основе напечатанного тек¬ста является актуальной и перспективной задачей.
Цели и задачи
Целью выпускной квалификационной работы является разработка и реализация метода генерации русской речи на основе печатного текста и сбор корпуса русской речи для одного диктора.
Для достижения данной цели предполагается решить следующие задачи:
1. Изучение литературы по машинному обучению, нейронным сетям, цифровой обработке сигналов и синтеза речи.
2. Составление обучающей выборки на русском языке, состоящей из записанной речи с аннотацией в виде текста.
3. Программная реализация нейронной сети Tacotron для генерации речи на языке Python с использованием библиотеки TensorFlow.
4. Валидация гиперпараметров и обучение реализованной нейронной сети.
5. Исследование возможностей улучшения алгоритма синтеза русской речи.
6. Разработка новой нейронной сети на основе сети Tacotron с добавлением аудиомодели, которая будет обучаться на неразмеченных данных.
7. Проведение экспериментального исследования работы алгоритма и валидация модели.
8. Реализация точного и быстрого алгоритма восстановления сигнала, нахождение оптимальных параметров.
9. Анализ полученных результатов.
Выпускная квалификационная работа была выполнена совместно со студентом группы 09-635 господином Габрдрахмановым Ленаром [54]. При выполнении работы обязанности были строго разделены. Автором работы [54] были предложены изменения архитектуры, которые позволили добиться более лучшего выравнивания. Совместно была разработана аудиомодель.
Практическая значимость
Собранный нами корпус на русском языке является наибольшим из открытых по объему записанной речи для одного диктора. И является большим вкладом в развитие сообщества и призван помочь независимым исследователям и студентам использовать его в своих работах, связанных с речевыми технологиями. Разработанный и реализованный алгоритм, обученный на нашем корпусе позволяет генерировать разборчивую и естественную речь, приближенную к человеческой.



