ВВЕДЕНИЕ 2
1. Теоретический обзор технологий синтеза речи 4
1.1 История развития синтеза речи 4
1.2 Классификация подходов к построению системы синтеза речи 5
2. Архитектура системы нейросетевого синтеза речи 12
2.1 Подготовка обучающих данных 12
2.2 Построение нейросетевых моделей речи 23
3. Программная реализация системы синтеза речи 28
3.1 Программные средства для формирования обучающих данных 28
3.3 Оценка качества системы синтеза татарской речи 30
ЗАКЛЮЧЕНИЕ 33
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Речь играет важную роль в эволюции человечества, будучи эффективным способом общения. Речь была предметом исследований на протяжении веков, за это время были изучены различные аспекты речевых технологий.
Исследования в области речевых технологий подпитываются растущей значимостью новых приложений. К ним относятся услуги поиска информации по телефону, публичные объявления в таких местах, как вокзалы, автобусы, метрополитен, инструменты для чтения электронных писем, факсов, веб¬страниц, голосовой вывод в системах автоматического перевода, специальное оборудование для людей с физическими недостатками. При помощи электронных словарей и переводчиков, имеющих синтезатор речи, становится возможным изучение иностранных языков с постановкой правильного произношения.
Уровень развития речевых технологий сильно различается между языками. Например, в России несмотря на наличие 7 языков на которых говорят более миллиона людей, качество программных средств в области речевых технологий примерно сравнимое с мировыми аналогами сопоставимо только для русского языка. Слабый уровень развития информационных технологий в языках способствует их вытеснению ведущими мировыми языками.
Цель синтеза речи - автоматическое формирование речевого сигнала по печатному тексту. Много подходов и алгоритмов предложено в этой области. В первых системах синтеза речи упор делался на разборчивость речи, а теперь внимание уделяется на естественность звучания.
Разработанная автором система синтеза татарской речи производит синтез произвольного текста без специальной предварительной разметки. Система является востребованной, если получателем информации является человек.
Подтверждением актуальности проведенных исследований является большое количество докладов на тему синтеза речи на международных научных конференциях, и высокая потребность рынка в программных средствах.
Целью диссертационной работы является создание программных средств синтеза естественной татарской речи на основе нейронных сетей глубокого обучения.
Для достижения поставленной цели в диссертационной работе необходимо решить следующие задачи:
1. Разработать программные средства синтеза татарской речи на основе нейронных сетей глубокого обучения.
2. Провести экспериментальные исследования и оценку качества синтезируемой речи.
Новизна:
- разработан алгоритм представления структуры татарских слов;
- разработан алгоритм фонетической разметки татарских текстов;
- формирование описания лингвистических и акустических характеристик татарского языка;
В ходе проведенных исследований были разработаны программные средства для системы синтеза татарской речи, в основе которой лежат нейронные сети глубокого обучения. Осуществлена разработка технологий лингвистической и фонетической обработки текста на основе выявленных особенностей татарского языка и проведена оценка качества программных средств синтеза речи.
Результаты экспериментов показали, что двунаправленные рекуррентные сети, основанные на LSTM, дают лучший результат естественности звучания татарского языка по сравнению с другими популярными архитектурами нейронных сетей в области синтеза речи. Синтезируемая речь приближена к естественной, механический голос присущий вокодерным системам синтеза речи минимален. При решении задач получены следующие практические результаты:
1) Разработан алгоритм представления структуры татарских слов.
2) Разработан алгоритм фонетической разметки татарских текстов.
3) Сформировано описание лингвистических и акустических характеристик татарского языка.
4) Разработаны программные средства синтеза татарской речи, основанной на нейронных сетях глубокого обучения. Программные средства реализованы модульно, что дает возможность распределения процесса разработки в будущем и упрощает тестирование.