Тема: Модификация речевого сигнала с целью увеличения темпа речи при сохранении ее разборчивости
Характеристики работы
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 4
Глава 1 Теоретические предпосылки исследования 8
1.1 Темп и способы его модификации 8
1.2 Фонетические процессы, происходящие в русской речи 18
Глава 2 Ход и результаты исследования 22
2.1 Процесс модификации сигнала 22
2.1.1 Анализ уровней аннотации звуковых файлов 22
2.1.2 Анализ варьирования количества периодов звонких согласных 26
2.1.2.1 Модификация звонких согласных (кроме [j]) 26
2.1.2.2 Анализ варьирования количества периодов согласного [j] 28
2.1.3 Анализ варьирования количества периодов гласных 29
2.1.3.1 Ударные гласные 30
2.1.3.2 Предударные гласные 1-ой степени редукции 32
2.1.3.3 Предударные и заударные гласные 2-ой степени редукции 33
2.1.4 Сокращение длительности глухих и звонких согласных 35
2.2 Модификация сигнала с использованием всех модификаций 36
2.3 Первая серия перцептивных экспериментов 37
2.3.1 Дизайн перцептивного эксперимента 38
2.3.2 Перцептивные эксперименты – звонкие согласные 39
2.3.3 Перцептивные эксперименты – предударные гласные 1-ой степени редукции 44
2.3.4 Перцептивные эксперименты – предударные и заударные гласные 2-ой степени редукции 48
2.3.5 Перцептивные эксперименты – ударные гласные 51
2.3.6 Перцептивные эксперименты – глухие согласные и некоторые звонкие согласные 56
2.3.7 Перцептивные эксперименты с применением всех модификаций одновременно 58
2.3.8 Перцептивные эксперименты – паузы 59
2.4 Вторая серия перцептивных экспериментов 60
2.5 Сравнение фонетических процессов в речи людей при увеличении темпа и искусственных модификаций 64
2.6 Результаты 70
2.7 Обсуждение возможностей будущего исследования 74
ЗАКЛЮЧЕНИЕ 78
СПИСОК ИСПОЛЬЗОВАННЫЙ ИСТОЧНИКОВ 79
ПРИЛОЖЕНИЕ 85
ПРИЛОЖЕНИЕ А 85
ПРИЛОЖЕНИЕ Б 90
📖 Введение
Изучение темпа важно и для технологии синтеза речи по тексту. Темп, в котором будет наиболее комфортно прослушивать синтезированную речь, может сильно зависеть от личных предпочтений конкретного слушателя. Так, например, людям, которые до этого никогда не слушали синтезированную речь, или же людям с нарушением слуха, может быть комфортен более медленный темп речи, в то время как людям, имеющим опыт в прослушивании синтезированной речи, может быть комфортен более быстрый темп речи. Очень быстрый темп речи для прослушивания так же предпочитают слепые.
Так согласно исследованию [Trouvain, 2007], слепые не только способны воспринимать темп 17-ти с половиной слогов в секунду (при этом комфортным темпом для восприятия речи зрячих людей является темп менее 10 слогов в секунду, восприятие речи зрячих людей существенно падает, когда темп начинает превышать 10 с половиной слогов в секунду), но и находят такой темп комфортным для прослушивания. Более того, согласно [Trouvain, 2007], темп 17 с половиной слогов в секунду не является пределом того, насколько быстрый темп способны воспринимать слепые.
При этом в большинстве синтезаторов изменение темпа речи происходит линейным способом, подразумевающим статистическое вычисление, благодаря которому определяется тот процент, на который необходимо сократить или увеличить длительность звуков речи для увеличения и замедления темпа [Trouvain, 2002]. Изменение темпа речи линейным способом часто сопровождается снижением уровня разборчивости и естественности речи.
В естественной же речи изменение темпа происходит нелинейным способом, подразумевающим то, что в речи человека происходят некоторые фонетические процессы, позволяющие увеличить ее темп (о самих фонетических процессах подробно пойдет речь в Главе 1, посвященной анализу литературы по модификации темпа и фонетическим процессам русской речи).
Таким образом, является целесообразным проводить исследования модификаций, позволяющих увеличивать темп речи, для того, чтобы иметь возможность применения нелинейного способа для увеличения темпа в области синтезированной речи, так как использование этого способа может существенно улучшить качество модифицированной речи и уровень ее восприятия слушателями, сохраняя ее разборчивость и естественность.
Так настоящее исследование заключается в модификации речевого сигнала с целью увеличения темпа речи при сохранении ее разборчивости.
Задачи, выполненные в рамках исследования:
1. обнаружение модификаций, которые можно применить для увеличения темпа речи;
2. выбор среди них тех модификаций, которые позволяют сохранить разборчивость речи;
3. сравнение фонетических процессов, происходящих в речи носители русского языка при увеличении темпа, с теми модификациями, которые были применены в данном исследовании.
В качестве материала исследования для модификации сигнала использовались 100 записей из звукового корпуса профессиональных дикторов CORPRES, созданный на кафедре фонетики и методики преподавания иностранный языков [Skrelinetal, 2009]. Выбор этого корпуса обусловлен тем, что он включает все необходимые для данного исследования уровни аннотации.
Так корпус включает в себя 6 уровней аннотации, охватывающей всю фонетическую и просодическую информацию о записанных речевых данных, включая метки периодов основного тона (далее ОТ), фонетическую, орфографическую и интонационную транскрипции. Для исследования использовались фразы длительностью от 1,7 до 22 секунд. Объем всего использованного корпуса – около 10 минут. Все фразы были прочитаны одним диктором (женщиной). Объем использованного корпуса обусловлен дизайном перцептивных экспериментов (подробнее об этом в разделе 2.3, посвященном первой серии перцептивных экспериментов).
Для того, чтобы сравнить фонетические процессы, которые происходят в речи носителей русского языка при увеличении темпа речи, с теми модификациями, которые были применены в данном исследовании, был осуществлен сбор собственного материала: две записи двух респондентов (женщин) длительностью 3 секунды каждая. Для записи использовались фразы из звукового корпуса профессиональных дикторов CORPRES, респондентам было необходимо в быстром темпе прочитывать предложенные им фразы. После записи материал так же был сегментирован на звуки.
Исследование проходило в несколько этапов.
На первом этапе исследования происходила ручная модификация сигнала в программе WaveAssistance для того, чтобы приблизительно оценить, какого рода модификации увеличивают темп речи, какие из этих модификаций сохраняют разборчивость речи, а какие из них разборчивости речи вредят, а также понять, как и какие уровни аннотации можно использовать для того, чтобы автоматизировать процесс модификации сигнала.
На втором этапе исследования происходила разработка программного обеспечения (далее ПО) на Python, автоматизирующего процесс модификации сигнала. Автоматизация процесса модификации сигнала требовалась для того, чтобы процесс модификации можно было осуществлять точнее, быстрее, и проще.
На третьем этапе исследования происходила разработка дизайна первой серии перцептивных экспериментов, после чего первая серия перцептивных экспериментов была проведена.
Далее происходила разработка дизайна второй серии перцептивных экспериментов, целью которых было выяснить, насколько успешно респонденты справятся с разбором более длинного отрывка, чем фразы, использовавшиеся для проведения первой серии перцептивных экспериментов.
На последнем этапе исследования был собран и сегментирован материал для сравнения фонетических процессов, которые происходят в речи носителей русского языка при увеличении темпа, с теми модификациями, которые были применены в данном исследовании.
После сбора и сегментации материала было проведено непосредственно само сравнение фонетических процессов, происходящих в речи носителей русского языка при увеличении темпа с искусственными модификациями, примененными в данном исследовании, а также проанализированы полученные в ходе сравнения результаты.
✅ Заключение
Важно отметить, что в целом все модификации, которые были применены в данном исследовании, так или иначе встречаются в речи носителей русского языка, причем как при нормальном, так и быстром темпах. К таким фонетическим процессам можно отнести: количественную редукцию гласных и согласных звуков, упрощение гласных и согласных кластеров. При этом, однако, в повседневной речи носителей русского языка эти фонетические процессы происходят не на постоянной основе, а также не все одновременно.
При применении всех модификаций, не вредящих разборчивости речи, одновременно, максимально удалось увеличить темп речи практически в 3 раза (исключая удаление пауз практически в 2 раза). Более того, темп модифицированных записей был в 1,1 раз быстрее темпа, с которым прочитывали фразы сами респонденты.
В дополнение к полученным результатам можно выдвинуть предположение о том, что если увеличить темп речи, модифицировав сигнал таким образом, а затем сжать уже модифицированный сигнал линейным способом, то можно добиться еще более быстрого темпа, при котором степень разборчивости будет не хуже, чем при применении только линейного способа. При этом, однако, темп может стать слишком высоким для восприятия. Для подтверждения или опровержения этой гипотезы необходимо провести дополнительное исследование.



