1 Введение 4
2 Постановка задачи 7
3 Модель спектральной огибающей и её параметры 9
3.1 Расчёт коэффициентов линейного предсказания 9
3.2 Линейные спектральные пары и их свойства 10
3.3 Интерполяция LSP 16
4 Заключение 19
5 Список литературы 20
Большое количество подходов к моделированию и синтезу речевых сигналов было разработано в последние 50 лет [3, 4]. Большое распространение получили биомеханические модели Г. Фанта и Дж. Фланагана [5, 6, 7] и особенно параметрическая FL модель [8], выделяющая структуру импульса голосовых связок.
Рисунок 1.
Звуковой сигнал на выходе голосовых связок далее проходит через голосовой тракт, включающий шейный отдел, горло, рот и губы. Отражение от стенок этого тракта преобразуют выхлоп голосовых связок в конкретный звук (аллофон). Голосовой тракт моделируется линейной системой невысокого порядка. Таким образом, установление соответствия между аллофонами русского языка и параметрами линейных систем моделирования голосового тракта вполне достаточно для моделирования каждого аллофона. В задаче синтеза слитной речи к этой проблеме необходимо добавить гладкие переходы между аллофонами, а также просодические характеристики — интонацию, длительность, громкость.
Основным показателем линейной системы, моделирующей голосовой тракт и влияющей на восприятие аллофона, является спектральная огибающая — модуль передаточной функции линейной системы. На рис. 1 показаны типичные спектральные огибающие для звуков /о/, /е/ и /u/ (транскрипция латиницей).
Главную роль в спектральных огибающих играют небольшие промежутки частот, на которых значения функций относительно велики, или примерно окрестности локальных максимумов сглаженных огибающих. Эти промежутки называются формантами. Физиологам и фонетистам известно, что полный набор формант практически определяет восприятие звука человеком.
По традиции форманты указываются своими средними значениями в Гц. Поскольку каждый аллофон может быть произнесён даже одним человеком очень по-разному, а разными людьми совсем по-разному, но тем не менее быть правильно понятым всеми, то смещение форманты не всегда приводит к потере восприятия, и в действительности есть целый класс как спектральных огибающих, так и наборов формант, который воспринимается примерно, как один аллофон.
Наибольшее значение для восприятия имеют первая и вторая форманты по возрастанию частоты. В частности, для/a/ это обычно (650, 1150)Гц, для /o/ — (550, 850)Гц, для открытого /e/— (650, 1500)Гц , для /"/ - мягкого /e/ — (650, 2250)Гц , для /u/ — (360, 600)Гц.
В международном фонетическом словаре все гласные всех языков расположены в виде трапеции (рис. 2), оси которой связаны с первой и второй формантой. В действительности, направление вверх трапеции указывает на степень раскрытия рта, а направление влево — на сколько выдвинут язык наружу.
Рисунок 2.
Хорошо разработанным в настоящее время является формантный синтез [9], который обезличен. Вырабатываются отдельные аллофоны, которые не привязаны к конкретному диктору.
В данной работе была поставлена другая задача. В результате специально проведённых сложных экспериментов были получены характеристики голосового тракта для нескольких гласных конкретного диктора. Требуется интерполировать эти данные на характеристики голосового тракта других гласных этого же диктора.
В работе был предложен новый подход к синтезу гласных для фиксированного диктора. Ключевыми моментами этого подхода является:
• Расчет спектральных огибающих и импульсных характеристик по записанным данным полученным из сложных экспериментов.
• Вычисление линейных спектральных пар по полученным спектральным огибающим.
• Интерполяция вектора линейных спектральных частот.
• Вычисление коэффициентов линейного предсказания из полученных LSP и синтез новых гласных.
Разработанный алгоритм гладкого движения формант обеспечивает синтез промежуточных гласных определенного диктора в соответствии с трапецией IPA. Кроме того было предложено новое доказательство важных для алгоритма свойств линейной спектральной пары. Алгоритм синтеза был реализован в математической среде MATLAB. Синтезированные промежуточные фонемы звучат четко и ясно. Такой метод может найти широкое применение в синтезе речи с фиксированным диктором.
1. McLoughlin I.V. Line Spectral Pairs. Review. Signal Processing. V. 88. P. 448 - 467 (2008)
2. Marvi H. Application of the Line spectrum pairs for vowel classification. Proc. of the World Congress on Engineering. London, Vol. 1. P. 374-377 (2007)
3. Springer Handbook of Speech Processing. Springer-Verlag. 2008.
4. X. Hhuang, A. Acero, H.-W. Hon. Spoken Language Processing. PrenticeHall Inc., New Jersey, 2001.
5. Fant, G. Acoustic Theory of Speech Production. Netherlands: Mouton (1960)
6. Flanagan, J. L. Source-system interaction in the vocal tract. Ann. N.Y. Acad. Sci.155, pp. 9-17 (1968)
7. Flanagan, J. L. Speech Analysis, Synthesis, and Perception. Springer, New York (1972)
8. Fant, G., Liljencrants, J., Lin, Q. A four-parameter model of glottal flow. STL-QPSR, Tech. Rep. (1985)
9. Titze, I. R. Non-linear source-filter coupling in phonation: Theory, J. Acoust.Soc. Am. 123, 2733-2749
10. T. Backstrom, K. Magi. Properties of line spectrum pair polynomials. - A review.Signal Processing. V. 86. 2006. P. 3286 - 3298.
11. H.W.Schussler.A stability theorem for discrete systems. IEEE Trans. n Acoustics, Speech anf Signal Proc. V. ASSP-24, N 1, 1976. P. 87 - 89.
12. F.Itakura. Line spectrum representation of linear prediction coefficients of speech signal. Journal of the Acoustic Society of America.1975.57:535a.