📄Работа №214867

Тема: Разработка сервиса для генерации русской речи с применением нейросетевых технологий

📝
Тип работы Дипломные работы, ВКР
📚
Предмет программирование
📄
Объем: 39 листов
📅
Год: 2022
👁️
Просмотров: 5
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

ГЛОССАРИЙ 4
ВВЕДЕНИЕ 6
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 8
1.1. Описание предметной области 8
1.2. Обзор методов реализации синтеза речи 9
1.2.1. Конкатенативный подход 9
1.2.2. Параметрический подход 10
1.3. Обзор аналогов 12
2. ПРОЕКТИРОВАНИЕ 14
2.1. Требования к проектируемому сервису 14
2.2. Диаграмма вариантов использования 15
2.3. Топологии нейронных сетей 15
2.3.1. Модель-синтезатор 17
2.3.2. Модель-вокодер 19
2.4. Архитектура сервиса 20
3. РЕАЛИЗАЦИЯ 22
3.1. Программные средства реализации 22
3.2. Реализация нейронных сетей 23
3.2.1. Обучающий набор данных 23
3.2.2. Обучение базовых нейронных сетей 27
3.2.3. Обучение конечных искусственных сетей 28
3.3. Реализация микросервисов 30
4. ТЕСТИРОВАНИЕ 33
4.1. Тестирование нейронных сетей 33
4.2. Тестирование сервиса генерации речи 34
ЗАКЛЮЧЕНИЕ 36
ЛИТЕРАТУРА 37

📖 Введение

Актуальность
В современном мире набирают популярность все возможные голосовые помощники. Они осуществляют запись на прием ко врачу, обслуживают нас в гос. учреждениях. Они же помогают людям с ограниченными возможностями пользоваться услугами, которые раньше были для них недоступны.
Однако, все эти голосовые ассистенты невозможны без технологии генерации речи. Во время разработки помощника невозможно записать все возможные фразы, которые он будет произносить (имена, адреса, стоимость услуг). Сервисы синтеза речи стали неотъемлемой частью подобных решений и бурно развиваются в последнее время. Более того, они стали почти безальтернативным вариантом в вопросе взаимодействия с пользователем.
Таким образом, становится актуальной задача разработки системы способной генерировать качественный и человечный голос.
Постановка задачи
Целью выпускной квалификационной работы является разработка сервиса для генерации русской речи с применением нейросетевых технологий. Для достижения поставленной цели необходимо решить следующие задачи:
1) описать предметную область и разобрать аналоги;
2) спроектировать архитектуру сервиса, основанную на микросервисах;
3) спроектировать топологии для нейронных сетей и определить метрики для их оценки;
4) разработать микросервисы сервиса генерации русской речи;
5) разработать и протестировать искусственные нейронные сети;
6) протестировать сервис генерации русской речи.
Структура и содержание работы
Работа состоит из введения, трех глав, заключения и списка литературы. Объем работы составляет 39 страниц, объем списка литературы – 37 источников.
В первой главе содержится разбор предметной области, обзор методов, применяемых для реализации системы синтеза речи, а также рассматриваются аналогичные решения на рынке.
Вторая глава посвящена определению функциональных и нефункциональных требований, разработке топологии нейронной сети, а также проектированию сервиса генерации русской речи.
В третьей главе содержатся подробности и особенности обучения нейронных сетей и реализации сервиса.
Четвертая глава описывает процесс оценки искусственных нейронных сетей, а также сервиса генерации русской речи.
В заключении подводятся итоги полученных в процессе работы результатов, описываются планы для будущих улучшений сервиса.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

В рамках данной работы были разработаны искусственные нейросетевые модели, которые по пользовательскому текстовому сообщению генерируют аудиозапись с произнесенным сообщением. При этом были решены следующие задачи.
1. Описана предметная область и рассмотрены аналоги.
2. Спроектирована архитектура сервиса, основанная на микросервисах.
3. Спроектированы топологии для нейронных сетей и определены метрики для их оценки.
4. Разработаны микросервисы сервиса генерации русской речи.
5. Разработаны и протестированы искусственные нейронные сети.
6. Протестирован сервис генерации русской речи.
Разработанная в данной работе система в настоящий момент интегрирована во внутренний контур компании ООО фирма «Интерсвязь». В будущем планируется продолжать разработку и оптимизировать скорость работы сервиса генерации речи. Также планируется расширить функционал системы возможностью управления ударным словом.
В рамках работы были опубликованы следующие статьи.
1. Kuzmin A.D., Ivanov S.A. Transfer Learning for the Russian Language Speech Synthesis. // 2021 International Conference on Quality Management, Transport and Information Security, Information Technologies (IT&QM&IS), 2021. – 507–510 pp.
Также в рамках данной работы были проведены выступления на следующих мероприятиях.
2. Пятая конференция «IT.IS» для специалистов IT-компаний, 29 октября 2021, диплом спикера.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

3. Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis. [Электронный ресурс] URL: https://machinelearning.apple.com/research/siri-voices (дата обращения: 12.04.2022 г.).
4. Gagniuc, Paul A. Markov Chains: From Theory to Implementation and Experimentation // USA, NJ: John Wiley & Sons, 2017. – P. 1–256.
5. Daniel W. Griffin, Jae S. Lim. Signal Estimation from Modified Short-Time Fourier Transform. // IEEE Transactions on acoustic, speech and signal processing, April, 1984.
6. Yandex SpeechKit. [Электронный ресурс] URL: https://cloud.yandex.com/en-ru/services/speechkit (дата обращения: 28.03.2022 г.).
7. ЦРТ инновации. Синтез речи. [Электронный ресурс] URL: https://cloud.speechpro.com/service/tts (дата обращения: 01.04.2022 г.).
8. Tinkoff VoiceKit. [Электронный ресурс] URL: https://voicekit.tinkoff.ru (дата обращения: 15.04.2022 г.).
9. Donald B. An introduction to the Unified Modeling Language. [Электронный ресурс] URL: https://developer.ibm.com/articles/an- introduction-to-uml/ (дата обращения: 11.05.2022 г.).
10. Patrick M. State of the art of speech synthesis at the end of May 2021 – Towards Data Science // Towards Data Science. – 2021.
11. Shen J., Pang R., Weiss J. Natural TTS synthesis by conditioning WaveNet on mel spectrogram // ICASSP, 2018.
12. Van den Oord A., Dieleman S., Zen H., WaveNet: A Generative Model for Raw Audio // UK, London, 2016.
13. Prenger R., Valle R., Catanzaro B., WaveGlow: A flow-based generative network for speech synthesis. // ICASSP, Brighton, 2019.
14. Schuster M., Paliwal K., Bidirectional recurrent neural networks // IEEE Transactions on Signal Processing, November 1997. – P. 2673-2681.
15. Python. [Электронный ресурс] URL: https://www.python.org (дата обращения: 02.05.2022 г.)..37

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.

©2026 Cервис помощи студентам в выполнении работ