ВВЕДЕНИЕ 3
1 МЕТОДЫ СИНТЕЗА РЕЧЕВЫХ СИГНАЛОВ 4
2 ФОНЕМЫ, СПОСОБ ИХ ОПИСАНИЯ И ДИФФЕРЕНЦИАЦИИ 9
2.1 Основы речеобразования 9
2.2 Описание фонем на основе методов оценивания основного тона 11
3 РАЗРАБОТКА АЛГОРИТМА ОЦЕНИВАНИЯ ДИНАМИКИ ИЗМЕНЕНИЯ ФОРМАНТ 18
3.1 Подготовка речевого сигнала 18
3.2 Исследование динамического изменения формант речевого сигнала 24
3.3 Алгоритм динамического изменения формант речевого сигнала 34
4 СИНТЕЗ ЗВУКОВ С ИСПОЛЬЗОВАНИЕМ СТРУКТУРЫ ФОНЕМ 53
5 ЭКОНОМИЧЕСКАЯ ОЦЕНКА РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ 69
5.1 Планирование работ по исследованию 69
5.2 Расчет расходов на оплату труда на исследование 70
5.3 Расчет продолжительности исследования 72
5.4 Расчет стоимости расходных материалов 72
5.5 Расчет сметы расходов на исследование 73
ЗАКЛЮЧЕНИЕ 77
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
Процесс изучения и построения систем синтеза речи становится все более и более популярен в последнее время. Много подходов и алгоритмов предложено в этой области. Если в первых подобных системах акцент делался на разборчивость речи, то теперь особое внимание уделяется ее естественности, интонационной насыщенности, эмоциональной окраске. Голос довольно точно передает окружающим информацию о текущем состоянии человека, о его переживаниях, отношении к фактам, самочувствии, а нередко - и о темпераменте, о чертах характера. Уловить эмоции позволяет тон голоса. А для понимания сообщения важны как сила голоса, так и его высота.
С развитием технологий автоматического синтеза речи, синтезированная речь становится все более и более естественной, приближенной к речи человека. Однако системы синтеза речи в современных человеко-машинных интерфейсах, системах виртуальной реальности и мультимедийного общения, по-прежнему обладают рядом недостатков, которые утомляют слушателя, не давая ощущения того, что с ними общается живой человек. Для уменьшения количества дефектов, присущих синтезированной речи, различными научными коллективами разрабатываются методы, позволяющие повысить естественность речи. [1]
Цель данной выпускной квалификационной работы - исследование алгоритмов, используемых при синтезе речи для обеспечения естественности воспроизведения.
Задачи:
1) исследование методов описания и дифференциации фонем;
2) исследование динамического изменения формант на протяжении звучания фонем;
3) исследование методов синтеза звуков с использованием частотной структуры фонем.
В данной работе были исследованы амплитудный и спектральный методы оценивания основного тона речевого сигнала. Разработан алгоритм подготовки речевого сигнала к исследованию, который позволяет осуществлять селекцию вокализованных участков. Проведено сравнение амплитудного и спектрального методов. Определена частота основного тона речевого сигнала и проведена ее динамическая оценка. Динамическое изменение частоты основного тона диктора с использованием алгоритма оценивания основного тона больше точнее, чем в Adobe Audition. Воспроизведение синтезированных сигналов показало, что абсолютного сходства достигнуть не удалось, но синтезированный сигнал похож «на слух» на оригинал.
Цель работы достигнута, все задачи выполнены и получены следующие основные результаты:
1) исследование амплитудного и спектрального методов оценивания основного тона речевого сигнала показало их сравнительную близость. Различия в значениях частот незначительны и определяются разрешением частотной характеристики.
2) исследование динамического изменения основного тона речевого сигнала показало, что при естественном произнесении дикторами некоторых фраз, изменения частоты основного тона происходят в диапазоне поряка 70 - 90 Гц. Изменения частоты основного тона позволяют человеку произносить фразы с интонацией.
Результатом экономической оценки исследования является определение затрат на разработку и реализацию исследования:
- продолжительность исследовательских работ составила 55 дней;
- сметы расходов на исследование - 94668 рублей.