ВВЕДЕНИЕ 3
Глава 1. Обзор ключевых научных работ 5
Глава 2 20
2.1 Материал и методика 20
2.2 Контуры формантных переходов 21
2.3 Степень крутизны формантных траекторий 24
2.4. Значения критических полос 26
СПИСОК ЛИТЕРАТУРЫ 29
Для описания звука речи существенны два параметра: движения органов артикуляции, необходимые для его произнесения, и участки речевого тракта, которые влияют на акустическую картину (спектр) звука. Спектр формируется при прохождении звука через надгортанные полости речевого тракта. Надгортанные полости являются резонаторами, усиливающими в спектре звука те частоты, которые совпадают с собственными частотами резонаторов. Эти усиленные частоты называются формантами. Собственная частота резонаторной полости зависит от ее формы, которая изменяется в зависимости от положения органов артикуляции, расположенных в этой полости.
Актуальность работы состоит в том, что формантные переходы (траектории) внутри гласного имеют значение для разборчивости речи и для автоматического распознавания речевого сигнала. Исследование формантных переходов может использоваться в обучении иностранным языкам, так как для эффективной коммуникации на любом языке необходимо разборчивое произнесение звуков в потоке речи. Кроме того, формантные траектории являются важной характеристикой для идентификации голоса, в том числе в целях криминалистической экспертизы голоса.
Целью работы является исследование вариативности формантных траекторий гласного в разных языках в различных фонетических контекстах.
В ходе выполнения работы было необходимо решить следующие задачи:
1) Выбор методики получения и обработки материала, основанный на обзоре существующих исследований, связанных с разработкой систем автоматического распознавания языка и с изучением формантных траекторий в различных языках.
2) Отбор речевого материала для проведения исследования.
3) Расчет формантных характеристик гласных на отобранном звуковом материале.
4) Сравнение формантных траекторий гласных в различных языках.
5) Сравнение скорости изменения формантных значений в различных языках.
6) Сравнение воспринимаемых на слух изменений формантной структуры гласных в различных языках.
1. Кодзасов С.В., Кривнова О.Ф. Общая фонетика. – М., 2001.
2. Основы общей фонетики [Текст]: учеб. пособие для студентов лингв. и филол. спец./ Л.В. Бондарко, Л.А. Вербицкая, М.В. Гордина. - 4-е изд., испр. - М.: Академия; СПб.: Филол. фак. СПбГУ, 2004.
3. Ронжин А.Л., Ли И.В. Автоматическое распознавание русской речи // Вестник Российской Академии Наук: научный и общественно-политический журнал, Том 77, Вып.2, 2007. С. 133-138.
4. Broad, D. J., & Clermont, F. (2010). Target-locus scaling methods for modeling families of formant trajectories. Journal of Phonetics, 38, 337–359.
5. Carre, R., Mrayati, M., 1 991. Vowel-vowel trajectories and region modeling. Journal of Phonetics 19 (3/4), 433-444.
6. D. Martinez, E. Lleida, A. Ortega, and A. Miguel, “Prosodic features and formant modeling for an ivector-based language recognition system,” in Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, 2013, pp. 6847–6851.
7. G. Montavon, “Deep learning for spoken language identification,” in NIPS workshop on Deep Learning for Speech Recognition and Related Applications, 2009
8. I. Lopez-Moreno, J. Gonzalez-Dominguez, D. Martinez, O. Plchot, and P. J. Moreno, ‘‘On the use of deep feedforward neural networks for automatic language identification,’’ Comput. Speech Lang., vol. 40, pp. 46–59, Nov. 2016.
9. Lindblom, B., Mauk, C., & Moon, S-J. (2006). Dynamic specification in the production of speech and sign. In P. Divenyi, S. Greenberg, & G. Meyer (Eds.), Dynamics of speech production and perception (NATO science series, series I: Life and behavioral sciences, Vol. 374). Amsterdam: IOS Press)
10. Manchala, S., Prasad, V. K., & Janaki, V. (2014). GMM based language identification system using robust features. International Journal of Speech Technology, 17(2), 99–105.
11. M. A. Zissman and K. M. Berkling, "Automatic language identification.”Speech Commun., vol. 35, pp. 115-124, 2001.
12. Michael Heck, “Automatic Language Identification for Natural Speech Processing Systems”, At the Department of Informatics Institute of Anthropomatics (IFA) Interactive Systems Laboratories (ISL), 2011.
13. Muthusamy, Y. K., Barnard, E., & Cole, R. A. (1994). Automatic language identification: A review/tutorial. IEEE Signal Processing Magazine, 11(4), 33 – 41.
14. P. Shen, X. Lu, S. Li, and H. Kawai, “Feature representation of short utterances based on knowledge distillation for spoken language identification.” in Interspeech, 2018, pp. 1813–1817.
15. Ramus, F., & Mehler, J. (1999). Language identification with suprasegmental cues: A study based on speech resynthesis. Journal of the Acoustical Society of America, 105 (1), 512±521.
16. R. G. Leonard. Language recognition test and evaluation. Technical Report RADC-TR-80-83, Air Force Rome Air Development Center, March 1980.
17. R. G. Leonard and G. R. Doddington, ‘‘Automatic language identification,’’ Air Force Rome Air Develop. Cntr., Tech. Rep. RADC-TR-74-200, Aug. 1974.
18. R. G. Leonard and G. R. Doddington, “Automatic classification of languages,” RADC/Texas Instruments, Inc., Dallas, TX, Tech. Rep. RADC-TR-75-264, Oct. 1975.
19. R. G. Leonard and G. R. Doddington, “Automatic language discrimination,” RADC/Texas Instruments, Inc., Dallas, TX, Tech. Rep. RADC-TR-78-5, Jan. 1978.
20. Stachurski, M., Summers, R. J. & Roberts, B. The verbal transformation effect and the perceptual organization of speech: influence of formant transitions and F0-contour continuity. Hearing Research 323, 22–31 (2015).
21. Stevens, K. N., House, A. H., & Paul, A. P. (1966). Acoustical description of syllabic nuclei: An interpretation in terms of a dynamic model of articulation. Journal of the Acoustical Society of America, 40, 123–132
22. T. Carrasquillo, P. A., E. Singer, and M. A. Kohler, “Approaches to language identification using Gaussian mixture models and shifted delta cepstral features” INTERSPEECH, 2002
23. T. J. Hazen and V. W. Zue, ‘‘Automatic language identification using a segment-based approach,’’ in Proc. Eurospeech Conf., Berlin, Germany, 1993, pp. 1303–1306.
24. Wang, S., Sekey, A. and Gersho, A. “An objective measure for predicting subjective quality of speech coders”. IEEE Journal on Selected Areas in Communications, 10 (5), 819–829, 1992.
25. Watson, C. I., and Harrington, J. (1999) Acoustic evidence for dynamic formant trajectories in Australian English vowels. Journal of the Acoustical Society of America 106, 458–468.
26. Zissman, M. Comparison of four approaches to automatic language identification of telephone speech. IEEE Trans. on Speech and Audio Processing 4, 1 (January 1996), 31–44.