Перечень условных обозначений, символов, сокращений, терминов 5
Введение 6
1 База данных 8
1.1 Извлечение признаков 8
1.2 Дискретное кратковременное преобразование Фурье (STFT) 9
1.3 Мел-коэффициенты 10
2 Определение искусственной нейронной сети 13
3 Алгоритм 17
3.1 Модель нормализация текста 17
3.2 Модель преобразования графемы в фонему 18
3.3 Модель преобразования длительности фонем 19
3.4 Модель конкатенации 20
3.5 Модель предсказания интонационного контура 21
3.6 Модель преобразования предложения 33
4 Нейронные сети 38
5 Оптимизация 41
6 Результаты работы алгоритма 46
Заключение 48
Список использованных источников и литературы 49
Приложение А Результаты обучения модели предсказания интонационного
контура с оптимизатором Adam 50
Приложение Б Результаты обучения модели предсказания интонационного
контура с оптимизатором SGD 51
Приложение В Результаты обучения модели предсказания интонационного
контура с оптимизатором AdaDelta 52
Частые взаимодействия человека с техникой требуют улучшения удобства этих взаимодействий, чтобы они стали более похожи на общение между людьми. Компьютер становится личным помощником как в профессиональной, так и в личной жизни, и с помощью различных технологий может обладать такими возможностями, как компьютерное зрение, слух и осязание, а также умением воспроизводить речь.
Генерация речи (синтез) - это технология, генерирующая акустические сигналы, имитирующие человеческую речь. Она используется на веб-сайтах для озвучивания текстового контента, в сложных виртуальных помощниках и call-центрах, а также может быть применена в других областях. Например, в образовательном процессе для создания интерактивных материалов и организации доступа к ним для людей с ограниченными возможностями, а также в игровой индустрии для озвучивания персонажей.
Существуют несколько основных методов генерации речи:
• Компилятивный синтез, когда из имеющихся записей выбираются и соединяются нужные фрагменты для формирования заданного предложения;
• Формантный синтез, когда сигнал моделируется по акустическим
характеристикам речи - формантам;
• Параметрический синтез, когда сигнал генерируется с помощью
математических моделей.
Технология генерации речи из текста (Text-to-Speech) включает в себя области исследования в акустике, лингвистике и математических науках. В современных методах генерации речи используются глубокие нейронные сети, которые обеспечивают более естественное звучание.
Компания SberDevices применяет нейронные модели Tacotron и WaveNet для генерации речи. Первая используется для генерации спектрограмм из текста, а вторая для преобразования звуковой волны из спектрограммы. Такая технология используется в виртуальных ассистентах Афина и Джой [1]. Yandex SpeechKit и Тинькофф применяют аналогичную технологию, основанную на своих решениях.
Современные методы синтеза уже достигли высокой степени естественности речи. В последние годы акцент делается на улучшение выразительности (интонация, акценты) речи, персонализацию голосовых помощников и оптимизацию вычислительных ресурсов.
Однако высокие требования к вычислительной мощности, обусловленные сложностью вычислительных процессов и объемом данных, необходимых для обучения нейронной сети и в процессе её использования в реальном времени (например Russian Open Speech To Text (STT/ASR) Dataset (2,3 TB в формате .wav)), делают невозможным создание приложения, работающего без подключения к интернету.
В данной работе алгоритм генерации речи включает нейронную сеть для генерации звуковых волн фонем, которые затем проходят операцию конкатенации для формирования заданного предложения, а также нейронные сети для выбора интонационного контура и расстановки акцентов.
В ходе работы был создан программный комплекс для генерации речи, проведено исследование и реализованы наиболее распространённые методы извлечения признаков из звуковых сигналов, а также разработаны нейронные сети и функции для обработки их результатов.
Собрана и размечена собственная база аудиозаписей, которая оказалась достаточной для обучения модели преобразования графемы в фонему. Были определены наиболее эффективные методы оптимизации процесса обучения, что позволило достичь практически 100% точности.
Модель предсказания интонационного контура показывает вероятность определения предложения как вопросительного с вероятностью 44%, наличие вопросительного слова - 78%, а вероятность классификации предложения как восклицательного (для выражения и усиления оценки) составляет 84%. Наиболее эффективным оказался оптимизатор Adam. Ни одно из протестированных представлений данных не дало других результатов для предсказания ИК-7.
1. «От хрипов до естественного звучания. Как развиваются технологии синтеза
речи и откуда голоса у Сбера, Джой и Афины» [Электронный ресурс] Режим доступа:
https://vc.ru/ml/335300-ot-hripov-do-estestvennogo-zvuchaniya-kak-razvivayutsya-tehnologiisinteza-rechi-i-otkuda-golosa-u-sbera-dzhoi-i-afiny/ (дата обращения: 10.12.2024).
2. Князев С. В. Современный русский литературный язык: Фонетика, орфоэпия,
графика и орфография: Учебное пособие для вузов / С. В. Князев, С. К. Пожарицкая — 2-е
изд., перераб. и доп. — М.: Академический Проект; Гаудеамус, 2011. – С. 219—243.
3. Светозарова Н. Д. Интонационная система русского языка. Л., 4982 – С. 178.
4. Касевич В. Б. Ударение и тон в языке и речевой деятельности / В. Б. Касевич, В.
В. Рыбин, Е. М. Шабельникова – Издательство Санкт-Петербургского университета,
2011– С. 248.
5. Потапов В. В. Интонация в понимании пользователя интернет-курса «Фонетика
русского языка» (к вопросу о методологии) / Вестник Московского университета. Сер. 9.
Филология. 2010. — № 2. — С. 50—60.
6. Брызгунова Е. А. Интонация // Русская грамматика / Н. Ю. Шведова (гл. ред.). —
М.: Наука, 1980. — Т. I. — С. 96—122.
7. Korobov, M.: Morphological analyzer and generator for Russian and Ukrainian
Languages. In: Khachay, M.Y., Konstantinova, N., Panchenko, A., Ignatov, D.I., Labunets, V.G.
(eds.) AIST 2015. CCIS, vol. 542, pp. 320–332. Springer, Cham (2015).
8. Янко Т. Е. Интонация. Материалы для проекта корпусного описания русской
грамматики (rusgram.ru). На правах рукописи. М., 2023. [Электронный ресурс] Режим
доступа: http://rusgram.ru/new/chapter/phon/intonation/ (дата последнего изменения: 2024-
03-31).
9. Щербакова Л. А. Гортанный смычный согласный в русском языке: дис. кандидат
филологических наук: 10.02.01 - Русский язык. Москва. 2006. 164 с.
10. Гудфеллоу Я. Глубокое обучение / Я. Гудфеллоу, И. Бенджио, А. Курвилль М. –
ДМК Пресс, 2018 – С. 653