СОДЕРЖАНИЕ 2
ВВЕДЕНИЕ 4
Глава 1 Теоретические предпосылки исследования 8
1.1 Темп и способы его модификации 8
1.2 Фонетические процессы, происходящие в русской речи 18
Глава 2 Ход и результаты исследования 22
2.1 Процесс модификации сигнала 22
2.1.1 Анализ уровней аннотации звуковых файлов 22
2.1.2 Анализ варьирования количества периодов звонких согласных 26
2.1.2.1 Модификация звонких согласных (кроме [j]) 26
2.1.2.2 Анализ варьирования количества периодов согласного [j] 28
2.1.3 Анализ варьирования количества периодов гласных 29
2.1.3.1 Ударные гласные 30
2.1.3.2 Предударные гласные 1-ой степени редукции 32
2.1.3.3 Предударные и заударные гласные 2-ой степени редукции 33
2.1.4 Сокращение длительности глухих и звонких согласных 35
2.2 Модификация сигнала с использованием всех модификаций 36
2.3 Первая серия перцептивных экспериментов 37
2.3.1 Дизайн перцептивного эксперимента 38
2.3.2 Перцептивные эксперименты – звонкие согласные 39
2.3.3 Перцептивные эксперименты – предударные гласные 1-ой степени редукции 44
2.3.4 Перцептивные эксперименты – предударные и заударные гласные 2-ой степени редукции 48
2.3.5 Перцептивные эксперименты – ударные гласные 51
2.3.6 Перцептивные эксперименты – глухие согласные и некоторые звонкие согласные 56
2.3.7 Перцептивные эксперименты с применением всех модификаций одновременно 58
2.3.8 Перцептивные эксперименты – паузы 59
2.4 Вторая серия перцептивных экспериментов 60
2.5 Сравнение фонетических процессов в речи людей при увеличении темпа и искусственных модификаций 64
2.6 Результаты 70
2.7 Обсуждение возможностей будущего исследования 74
ЗАКЛЮЧЕНИЕ 78
СПИСОК ИСПОЛЬЗОВАННЫЙ ИСТОЧНИКОВ 79
ПРИЛОЖЕНИЕ 85
ПРИЛОЖЕНИЕ А 85
ПРИЛОЖЕНИЕ Б 90
Изменение темпа речи – это явление, которое происходит постоянно и часто неосознанно. Существует множество ситуаций, условий и обстоятельств, в которых и по причине которых меняется темп речи. Его изучением занимается широкое поле дисциплин, для развития которых важным является понимание того, как функционирует модель изменения темпа речи. К таким дисциплинам относятся: фонетика, логопедия, психолингвистика, социальная психология, судебная фонетика, изучение иностранный языков, онтолингвистика, и так далее.
Изучение темпа важно и для технологии синтеза речи по тексту. Темп, в котором будет наиболее комфортно прослушивать синтезированную речь, может сильно зависеть от личных предпочтений конкретного слушателя. Так, например, людям, которые до этого никогда не слушали синтезированную речь, или же людям с нарушением слуха, может быть комфортен более медленный темп речи, в то время как людям, имеющим опыт в прослушивании синтезированной речи, может быть комфортен более быстрый темп речи. Очень быстрый темп речи для прослушивания так же предпочитают слепые.
Так согласно исследованию [Trouvain, 2007], слепые не только способны воспринимать темп 17-ти с половиной слогов в секунду (при этом комфортным темпом для восприятия речи зрячих людей является темп менее 10 слогов в секунду, восприятие речи зрячих людей существенно падает, когда темп начинает превышать 10 с половиной слогов в секунду), но и находят такой темп комфортным для прослушивания. Более того, согласно [Trouvain, 2007], темп 17 с половиной слогов в секунду не является пределом того, насколько быстрый темп способны воспринимать слепые.
При этом в большинстве синтезаторов изменение темпа речи происходит линейным способом, подразумевающим статистическое вычисление, благодаря которому определяется тот процент, на который необходимо сократить или увеличить длительность звуков речи для увеличения и замедления темпа [Trouvain, 2002]. Изменение темпа речи линейным способом часто сопровождается снижением уровня разборчивости и естественности речи.
В естественной же речи изменение темпа происходит нелинейным способом, подразумевающим то, что в речи человека происходят некоторые фонетические процессы, позволяющие увеличить ее темп (о самих фонетических процессах подробно пойдет речь в Главе 1, посвященной анализу литературы по модификации темпа и фонетическим процессам русской речи).
Таким образом, является целесообразным проводить исследования модификаций, позволяющих увеличивать темп речи, для того, чтобы иметь возможность применения нелинейного способа для увеличения темпа в области синтезированной речи, так как использование этого способа может существенно улучшить качество модифицированной речи и уровень ее восприятия слушателями, сохраняя ее разборчивость и естественность.
Так настоящее исследование заключается в модификации речевого сигнала с целью увеличения темпа речи при сохранении ее разборчивости.
Задачи, выполненные в рамках исследования:
1. обнаружение модификаций, которые можно применить для увеличения темпа речи;
2. выбор среди них тех модификаций, которые позволяют сохранить разборчивость речи;
3. сравнение фонетических процессов, происходящих в речи носители русского языка при увеличении темпа, с теми модификациями, которые были применены в данном исследовании.
В качестве материала исследования для модификации сигнала использовались 100 записей из звукового корпуса профессиональных дикторов CORPRES, созданный на кафедре фонетики и методики преподавания иностранный языков [Skrelinetal, 2009]. Выбор этого корпуса обусловлен тем, что он включает все необходимые для данного исследования уровни аннотации.
Так корпус включает в себя 6 уровней аннотации, охватывающей всю фонетическую и просодическую информацию о записанных речевых данных, включая метки периодов основного тона (далее ОТ), фонетическую, орфографическую и интонационную транскрипции. Для исследования использовались фразы длительностью от 1,7 до 22 секунд. Объем всего использованного корпуса – около 10 минут. Все фразы были прочитаны одним диктором (женщиной). Объем использованного корпуса обусловлен дизайном перцептивных экспериментов (подробнее об этом в разделе 2.3, посвященном первой серии перцептивных экспериментов).
Для того, чтобы сравнить фонетические процессы, которые происходят в речи носителей русского языка при увеличении темпа речи, с теми модификациями, которые были применены в данном исследовании, был осуществлен сбор собственного материала: две записи двух респондентов (женщин) длительностью 3 секунды каждая. Для записи использовались фразы из звукового корпуса профессиональных дикторов CORPRES, респондентам было необходимо в быстром темпе прочитывать предложенные им фразы. После записи материал так же был сегментирован на звуки.
Исследование проходило в несколько этапов.
На первом этапе исследования происходила ручная модификация сигнала в программе WaveAssistance для того, чтобы приблизительно оценить, какого рода модификации увеличивают темп речи, какие из этих модификаций сохраняют разборчивость речи, а какие из них разборчивости речи вредят, а также понять, как и какие уровни аннотации можно использовать для того, чтобы автоматизировать процесс модификации сигнала.
На втором этапе исследования происходила разработка программного обеспечения (далее ПО) на Python, автоматизирующего процесс модификации сигнала. Автоматизация процесса модификации сигнала требовалась для того, чтобы процесс модификации можно было осуществлять точнее, быстрее, и проще.
На третьем этапе исследования происходила разработка дизайна первой серии перцептивных экспериментов, после чего первая серия перцептивных экспериментов была проведена.
Далее происходила разработка дизайна второй серии перцептивных экспериментов, целью которых было выяснить, насколько успешно респонденты справятся с разбором более длинного отрывка, чем фразы, использовавшиеся для проведения первой серии перцептивных экспериментов.
На последнем этапе исследования был собран и сегментирован материал для сравнения фонетических процессов, которые происходят в речи носителей русского языка при увеличении темпа, с теми модификациями, которые были применены в данном исследовании.
После сбора и сегментации материала было проведено непосредственно само сравнение фонетических процессов, происходящих в речи носителей русского языка при увеличении темпа с искусственными модификациями, примененными в данном исследовании, а также проанализированы полученные в ходе сравнения результаты.
Таким образом, в результате проведенного исследования был обнаружен ряд модификаций, который позволяет увеличить темп речи, сохраняя при этом ее разборчивость, а также обнаружены те модификации, которые вредят разборчивости речи. Кроме того, было проведено сравнение фонетических процессов, происходящих в речи носителей русского языка при увеличении темпа с модификациями, которые были применены в данном исследовании.
Важно отметить, что в целом все модификации, которые были применены в данном исследовании, так или иначе встречаются в речи носителей русского языка, причем как при нормальном, так и быстром темпах. К таким фонетическим процессам можно отнести: количественную редукцию гласных и согласных звуков, упрощение гласных и согласных кластеров. При этом, однако, в повседневной речи носителей русского языка эти фонетические процессы происходят не на постоянной основе, а также не все одновременно.
При применении всех модификаций, не вредящих разборчивости речи, одновременно, максимально удалось увеличить темп речи практически в 3 раза (исключая удаление пауз практически в 2 раза). Более того, темп модифицированных записей был в 1,1 раз быстрее темпа, с которым прочитывали фразы сами респонденты.
В дополнение к полученным результатам можно выдвинуть предположение о том, что если увеличить темп речи, модифицировав сигнал таким образом, а затем сжать уже модифицированный сигнал линейным способом, то можно добиться еще более быстрого темпа, при котором степень разборчивости будет не хуже, чем при применении только линейного способа. При этом, однако, темп может стать слишком высоким для восприятия. Для подтверждения или опровержения этой гипотезы необходимо провести дополнительное исследование.
1.Аванесов Р. И. Русское литературное произношение. М. – 1972.
2.Богданова Н. В. Живые фонетические процессы русской речи: Пособие по спецкурсу. СПб.: Филологический факультет СПбГУ. – 2001. – 186 с.
3.Болотова О. Б. Гласные в спонтанной речи и при чтении связного текста(экспериментально-фонетическое исследование на материале русского языка):дис… канд.фил.наук: СПб. – 2005. – 284 с.
4. Большой энциклопедический словарь. Языкознание / гл. ред. В. Н. Ярцева. М.: Науч. изд-во «Большая Рос. Энциклопедия». – 2000. – 688с.
5.Бондарко Л. В. Звуковой строй русского современного языка. М. – 1977. –176 с.
6.Бондарко Л. В. Редукция // Русский язык. Энциклопедия / Отв. ред.Ф. П. Филин. М.: «Сов.энциклопедия». – 1979. – С. 250–252
7.Бондарко Л. В. Фонетика современного русского языка. Издательство С.-Петербургского Университета, СПб. – 1998. – 276 с.
8.Бондарко Л. В., Вербицкая Л. А., Гордина М. В. Основы общей фонетики.СПбГУ. – 2004 (1991). – 160 с.
9.Васильева Л. А., Тананайко С. О. Произносительная норма и ее варианты(вариативность согласных в спонтанной речи и чтении) // Вестник Санкт-Петербургского университета. Серия 9. Филология. Востоковедение.Журналистика. – 2005. – №. 3.
10. Вербицкая Л. А. Фонетический Фонд русского языка теоретические и прикладные аспекты // Экспериментально-фонетический анализ речи: проблемы и методы. Межвузовский сборник. Вып. 3. СПб. – 1997.
11.Гейльман Н. И. Фонетические характеристики спонтанной речи(экспериментально-фонетическое исследование на материале согласных). JI. –1983. – 305 с.
12.Дурягин П. В. Коартикуляционные изменения согласных по месту и способуобразования на стыках слов в современном русском литературном языке: дис…канд.фил.наук: МГУ. – М. – 2016. – 212 с.
13.Ескевич М. В., Свирава Т. Н. Модификация согласных в спонтанной речи ичтении (на материале согласных в интервокальном положении и сочетаний согласных) // Ученые записки молодых филологов, вып. 2, изд-во СПбГУ. –2004. – С. 205-214.
14.Зиндер Л. Р. Общая фонетика. М. – 1960.
15.Зиндер Л. Р. Общая фонетика. – Высшая школа. – 1979.
16. Златоустова Л. В., Потапова Р.К., Потапов В.В., Трунин-Донской В. Н.Общая и прикладная фонетика – Под ред. Потаповой Р.К. МГУ. – 1997. – 416 с.
17.Касаткин Л. Л., Чой М. Ч. Долгота / краткость согласного на месте сочетаний двух согласных букв в современном русском литературном языке. М.:МГУ. — М.: Языки славянских культур. – 2005 (1999).
18.Кодзасов С. В., Кривнова О. Ф. Общая фонетика. — М.: РГГУ. – 2000. – 592с.
19.Маслов Ю. С. Введение в языкознание. М.: Высш. шк. – 1987. – 272 с.
20. Мартине А. Принцип экономии в фонетических изменениях. (Проблемы диахронической фонологии). Издательство иностранной литературы. – М. –1960. – 264 с.
21.Матусевич М. И. Современный русский язык. Фонетика. «Просвещение»,М. – 1976. – 288 с.
22.Панов М. В. Русская фонетика. М., 1967. 440 с.
23.Панов М. В. Современный русский язык: Фонетика. М.: Высшая школа. –1979. – 256 с.
24.Реформатский А. А. Введение в языкознание / Под ред. В. А. Виноградова.— 5-ое изд, испр. — М.: Аспект Пресс. – 2004. – 536 с.
25.Риехакайнен Е. И., Нигматулина Ю. О. Сегментация спонтанной речи: восприятие стяжений гласных на стыке словоформ // Проблемы социо- и психолингвистики. Вып. 15: Пермская социопсихолингвистическая школа: идеитрех поколений: к 70-летию А. С. Штерн / Отв. Ред. Е. В. Ерофеева. – Пермь. –2011. – С. 31-38.
26.Розенталь Д. Э. Справочник по русскому языку. Словарь лингвистических терминов. М.: Оникс 21 век. – 2008. – 624 с.
27.Русская разговорная речь / под ред. Е. А. Земской. М.: Наука, 1973. 486 с.
28. Светозарова Н.Д. Интонационная система русского языка. Л.: Издательство Ленинградского университета, 1982.
29.Скрелин П. А. Сегментация и транскрипция. СПб. – 1999.
30.Скрелин П. А., Сомова Е. В. Консонантные сочетания в связной речи //Материалы XXIX межвузовской научно-методической конференции преподавателей и аспирантов. Вып. 4, ч. 2. Секция фонетики. СПб. – 2000. –С.16-21.
31.Соколянский А. А. Изменение сочетания тс в истории русского языка //Русский язык в научном освещении. № 1 (15). – М. – 2008. – С.106–132.
32.Фонетика спонтанной речи / Л. В. Бондарко [и др.]. Л.: Изд-во Ленингр. унта, 1988. 248 с.
33.Щерба Л. В. Избранные работы по русскому языку. – М. – 1957.
34.Щерба Л. В. Языковая система и речевая деятельность. Л.: Наука. – 1974. –424 с.
35.Щерба Л. В. Русские гласные в качественном и количественном отношении. СПб. – 1983 (1912).
36. Bartkova, K. Speaking rate modelization inFrench application to speech synthesis. Proc.ICPhS Aix-en-Provence (3), 1991. – P. 482-485.
37.Boersma P. Praat, a system for doing phonetics by computer // Glot international.– 2002. – Т. 5. – №. 9/10. – P. 341-345.
38.Bondarko L. V. Volskaya N. B., Tananaiko S. O., &Vasilieva L. A. Phoneticproperties of Russian spontaneous speech // Proceedings of the 15th InternationalCongress of Phonetic Sciences. – 2003. – P. 2973-2976.
39. Covell, M., Withgott, M., Slaney, M.MACH1: Nonuniform time-scale modification ofspeech. Proc. ICASSP Seattle – 1998.
40. Goldman-Eisler, F. The significance of changes in the rate of articulation.Language & Speech 4 – 1961. – P. 171-174.
41. Goldman-Eisler, F. Psycholinguistics. Experiments in Spontaneous Speech.Academic Press,London New York – 1968.
42. Greisbach, R. Reading aloud at maximal speed. Speech Communication11 –1992. – P. 469-473.
43. He, L. & Gupta, A. Exploring benefits of non-linear time compression. Proc.Conference on Multimedia, Ottawa – 2001. – P. 328-391.
44. Haselager, G.J.T., Slis, I.H. & Rietveld, A.C.M. An alternative method ofstudying the development of speech rate. Clinical Linguistics & Phonetics5 (1) – 1991. – P. 53-63.
45. Hertz, S.R. Streams, phones and transitions: toward a new phonological andphonetic model of formant timing. J Phonetics19 – 1991. – P. 91-109.
46. Higginbotham, D.J., Drazek, A.L., Kowarsky, K.,Scally, C. & Segal, E. Discoursecomprehension of synthetic speech delivered atnormal and slow presentation rates. Augmentativeand Alternative Communication 10 – 1994. – P. 191-202.
47. Janse, E. Production and Perception of Fast Speech.PhD Thesis Utrecht.
48. Keller, E. &Zellner, B. A timing model for fast French. York Papers inLinguistics 17 (University of York) – 2003. – P. 53-75.
49. Klatt, D.H. Interaction between two factors that influence vowel duration. JAcoust. Soc. Am.54(4) –1976. – P. 1102-1104.
50. Klatt, D.H. Vowel lengthening is syntactically determined in a connecteddiscourse. J Phonetics 3 – 1975. – P. 129-140.
51. Klatt, D.H. (1976). Linguistic uses of segmental duration in English: acoustic andperceptual evidence. J Acoust. Soc. Am59(5) – 1976. – P. 1208-1308.
52. Klatt, D.H. Synthesis by rule of segmentaldurations in English sentences. In Frontiers ofSpeech Communication Research, Lindblom, B. &Öhmann, S., eds, Academic Press, London NewYork San Francisco – 1979. – P. 287-299.
53. Kohler, K.J. Invariance and variability in speech timing: from utterance tosegment in German. Perkell, J.S. &Klatt, D.H. (eds): Invariance and Variabilityin Speech Processes. Hillsdale, NJ & London. – 1986 – P. 268-289.
54. Kohler, K.J. Zeitstrukturierung in der Sprachsynthese. ITG-Fachberichte105 –1988. – P. 165-170.
55. Kohler, K.J. Segmental reduction in connected speech in German:phonological facts and phonetic explanations. In: Hardcastle&Marchal (eds):Speech Production and Speech Modelling– 1990. – P. 69-92.
56. Kohler, K. Zeitstrukturierung in der Sprachsynthese. ITG-Fachberichte 105 –1990. – P. 165-170.
57. Kohler, K. J. Linguistic and paralinguistic functions of non-modal voice inconnected speech. Proc. 5th Seminar on Speech Production: Models and Data.KlosterSeeon, Bavaria – 2000. – P. 121-124.
58. Krivnova O.F. Speech tempo control in automatic speech synthesis // Proc. of international conference «SPECOM’2007». Moscow: MSLU – 2007. – p. 277.
59. Künzel, H.J. Some general phonetic and forensic aspects of speaking tempo.Forensic Linguistics4(1) – 1997. – P. 48-83.
60. Miller, J.L., Grosjean, F. &Lomanto, C. Articulation rate and its variability inspontaneous speech: a reanalysis and some implications. Phonetica41 – 1984. – P. 215-225.
61. Monaghan, A.I.C. Accentuation and speechrate in the CSTR TTS system. Proc. ISCA Workshop on «Phonetics and Phonology ofSpeaking Styles Barcelona» – 1991. – P. 41/1–5.
62. Monaghan, A.I.C. An auditory analysis of the prosody of fast and slow speechstyles in English, Dutch and German. In: E. Keller, G. Bailly, A. Monaghan, J.Terken and M. Huckvale (eds.) Improvements in Speech Synthesis. Wiley&Sons – 2001. – P. 204-217.
63. Portele, T. Dynamische Anpassung der Sprechgeschwindigkeit. Mehnert, D.(ed.): 7. Konferenz Elektronische Sprachsignalverarbeitung, Berlin – 1996. – P. 238-243.
64. Portele, T. Reduktionen in der einheitenbasierten Sprachsynthese. Proc.Fortschritte der Akustik - DAGA 97Kiel, Germany – 1997. – P. 386-387.
65. Skrelin P., Volskaya N., Kocharov D. Evgrafova K., Glotova O., Evdokimova V. CORPRES – Corpus of Russian Professionally Read Speech. Lecture Notes in Computer Science. Proceedings of the 13th International Conference on Text, Speech and Dialogue (TSD 2010). Springer Verlag, Berlin, 20.
66. Trouvain, J. Tempo control in speech synthesis by prosodic phrasing. Proceedings of Konvens, Saarbrücken, Germany – 2002.
67.Trouvain, J. Tempo Variation in Speech Production. Implications for Speech Synthesis. PhD thesis, Phonetics Saarbrücken – 2003.
68. Trouvain, J. On the comprehension of extremely fast synthetic speech. Saarland Working Papers in Linguistics (SWPL) 1 – 2007.
69. Uchanski, R.M., Choi, S.S., Braida, L.D., Reed, C.M. &Durlach, N.I:Speaking clearly for the hard of hearing IV: further studies of the role ofspeaking rate. J Sp Hear Res39 – 1996. – P. 494-509.
70.Zellner-Keller, B.Prediction of temporalstructures for various speech rates. In «Progress inSpeech Synthesis II» Campbell, N. et al., eds,Springer-Verlag, Berlin Heidelberg – 1999.