Тип работы:
Предмет:
Язык работы:


Предсказание интонационного оформления высказывания для синтеза речи по тексту

Работа №129642

Тип работы

Магистерская диссертация

Предмет

лингвистика

Объем работы88
Год сдачи2021
Стоимость5450 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
21
Не подходит работа?

Узнай цену на написание


Оглавление 2
Введение 4
Теоретическая часть 7
1. Текстовые маркеры аспектов интонационного оформления 7
1.1. Функции интонации 7
1.2. Синтагматическое членение и семантико-синтаксические факторы, обуславливающие его 8
1.3. Расположение интонационного центра синтагмы и его зависимость от синтаксических факторов 12
1.4. Факторы, влияющие на выбор интонационного оформления синтагмы 15
2. Система интонационного описания 20
3. Обзор работ по предсказанию интонационного оформления текста 24
3.1. Постановка задачи при предсказании интонационного оформления 25
3.2. Связь между предсказанием интонационных границ и тональных акцентов 26
3.3. Зависимость точности предсказания от материала, используемого для обучения 28
3.4. Классификационные признаки 29
3.5. Классификационные методы 34
Практическая часть 36
1. Материал 36
1.1. Описание корпуса 36
1.2. Описания обучающих и тестовых выборок 37
1.3. Анализ интонационной вариативности материала 39
2. Классификационные признаки 41
2.1. Пунктуационные признаки 42
2.1. Морфологические признаки 42
2.2. Лексические признаки. 43
2.3. Синтаксические признаки 44
2.4. Фонетические признаки 44
2.5. Целевые классы 45
3. Метод 46
3.1 Метрики 46
3.2 Описание архитектуры и параметров 49
4. Результаты 53
4.1 Сравнение комбинаций признаков 53
4.2 Сравнение интонационно сбалансированной и случайной выборок 55
4.3 Результаты для дикторонезависимых моделей на художественных текстах 56
4.4 Результаты для дикторозависимых моделей на художественных текстах 57
4.5 Результаты для моделей, обученных на материале новостных текстов 60
4.6 Результаты для меж-жанровых выборок 62
4.7 Анализ ошибок предсказательной модели 63
4.7.1 Анализ матрицы смешения 63
4.7.2 Примеры ошибок 68
4.8 Сравнение нейросетевого подхода с интонационным аннотатором, работающим на правилах 73
Заключение 76
Список литературы 78
Приложения 85
Приложение 1: матрицы смешения для всех дикторов корпуса 85

Целью исследования являлась разработка и тестирование метода предсказания интонационного оформления высказывания на русском языке, а именно, таких его аспектов, как расположение интонационного центра внутри синтагмы и ее интонационная модель. Для достижения поставленной цели были решены следующие задачи:
1. Формализация лингвистических признаков для предсказания интонационного оформления, а также отбор наиболее эффективных из них; выбор параметров для нейросетевой модели предсказания.
2. Обучение и тестирование модели предсказания на ряде выборок (дикторозависимых и дикторонезависимых, а также содержащих тексты разного жанра).
3. Лингвистический анализ ошибок модели.
Актуальность исследования обоснована применимостью и полезностью предсказания интонационного оформления для комплексных (End-to-End) систем синтеза речи по тексту, основанных на нейросетевых подходах, которым в последние годы были посвящены многочисленные исследования. Ряд предложенных архитектур и систем, таких как Tacotron2 (Wang et al., 2017), DC-TTS (Tachibana et al., 2018), FastSpeech2 (Ren et al., 2020) и др. (Shen et al., 2918), позволил достичь значительных успехов в повышении качества звучания синтезированной речи, которая в некоторых ситуациях по своей натуральности стала приближаться к человеческой. Современные системы синтеза, зачастую не требующие никаких обучающих данных помимо записей речи и их орфографической расшифровки, предоставляют теоретическую возможность снизить количество требуемой ручной разметки материала до минимума, а также отказаться от лингвистических признаков при обучении системы. Тем не менее, практические исследования показывают, что при отсутствии лингвистических признаков эффективный синтез интонации, особенно эмоциональной, возможен только при наличии огромного количества интонационно разнообразного и представительного обучающего материала. Данная проблема затрагивает все языки, но становится еще более острой для тех из них, для которых доступно меньше качественных корпусов (в сравнении, например, с английским, на материале которого проводится большинство публикуемых исследований по синтезу).
По этой причине лингвистические признаки в системах синтеза все же не теряют своей актуальности и значимости: было показано, что, например, синтаксические признаки улучшают реализацию синтагматических границ (Guo et al., 2019), а использование эмбеддингов, учет пунктуации и частеречных тэгов повышает естественность интонационного контура (Tyagi et al., 2019). Учитывая данные результаты, можно предположить, что использование предсказанных интонационных моделей в разметке синтезируемого текста также внесло бы положительный вклад; это и обосновывает актуальность изучения методов предсказания интонационного оформления по тексту.
Практическая значимость работы заключается в том, что, во-первых, предлагаемый метод разработан на материале русского языка, для которого задача предсказания интонации исследована в значительно меньшей степени, чем, например, для того же английского; тем не менее, русский язык имеет свою специфику, в частности, используемые для него системы интонационного описания значительно отличаются от систем, обычно применяемых для английского. С этим связан второй аспект практической значимости работы: метод предсказывает интонационное оформление в терминах системы интонационного описания Н. Б. Вольской (Вольская и Скрелин, 2009), создание которой проводилось с учетом нужд и требований синтеза речи. Третий аспект практической значимости связан с тем, что метод использует нейросетевой подход, в последние годы позволивший значительно улучшить эффективность решения задач по обработке естественного языка.
Теоретической новизна состоит в изучении и сравнении эффективности предложенного метода на различном материале: на художественных и новостных текстах, для дикторозависимого и дикторонезависимого материала, в условиях разнородности обучающей и тестовой выборок.
В качестве материала для исследования был использован речевой корпус CORPRES (COrpus of Russian Professionally REad Speech; Skrelin et. al, 2010), содержащий записи чтения, порожденные профессиональными дикторами. Аннотация корпуса включает просодический уровень, на котором отмечены различные интонационные явления: синтагматические границы, интонационные центры и модели и др. Наличие текстов, прочитанных всеми восемью дикторами корпуса, позволяет изучить пределы вариативности интонационного оформления; профессиональная подготовка дикторов обеспечивает уверенность в том, что предсказательная модель обучена на качественном материале, представляющем нормативную русскую речь.
Работа работа включает в себя введение, основную часть, разделенную на две главы, заключение, список литературы и приложение.
Первая глава содержит обзор литературы, на основе которой проводилась формализация признаков для предсказания интонационного оформления; описание используемых систем интонационного описания; обзор работ, посвященных предсказанию различных аспектов интонационного оформления. Вторая глава содержит описание предлагаемого метода и его результатов: используемый для обучения материал, анализ вариативности предсказываемых интонационных явлений; классификационные признаки и архитектура модели; метрики; полученные результаты.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В ходе работы был предложена и протестирована система предсказания интонационного оформления для русского текста. Система основана на нейросетевой архитектуре BiLSTM и предсказывает расположение интонационных центров и интонационные модели для синтагм в терминах системы интонационного описания Н. Б. Вольской. В качестве материала для обучения и тестирования был использован корпус CORPRES, включая содержащиеся в нем художественные и новостные тексты, прочитанные восемью профессиональными дикторами.
Классификационные признаки включали следующие группы: пунктуационную, морфологическую, лексическую, синтаксическую и фонетическую. Эксперименты показали, что использование всех этих признаков оправдано, а их комбинация дает наилучшие результаты; однако эмбеддинги BERT, передававшие лексический аспект предложения, дают малый прирост эффективности, вероятно, в связи с недостаточным количеством материала. Для устранения данной проблемы необходимо увеличить объем обучающей выборки, либо снизить размерность эмбеддингов слов. Среди признаков, оказывающих наибольшее влияние на предсказание расположения интонационного центра, были фонетические, пунктуационные и морфологические. Точность предсказания интонационной модели же повышалась в первую очередь за счет синтаксических, фонетических и пунктуационных признаков.
Предсказание расположения интонационных центров для дикторонезависимой модели на художественных текстах осуществлялось с эффективностью в 88,7%, предсказание интонационной модели — с точностью в 61,2% (или 84,5%, если считать правильной интонационную модель, которую в данном предложении реализовал хотя бы один диктор корпуса). Значения метрик для дикторозависимых моделей значительно варьируются; однако, можно сказать, что эффективность предсказания интонационных моделей для дикторозависимых моделей выше, а точность предсказания расположения центров меньше. Дальнейшим этапом улучшения системы предсказания может стать ее разделение на два компонента, один из которых будет обучаться на дикторонезависимом материале, а другой — на дикторозависимом.
Интонация новостных текстов предсказывается системой с большей эффективностью, чем интонация художественных, и в случае дикторозависимых, и в случае дикторонезависимых моделей. Это связано в первую очередь с ее меньшей вариативностью, большей нейтральностью и большей предсказуемостью; в связи с этим, в условиях разнородности обучающей и тестовой выборок системы, обученные на новостных текстах, показывали более плохие результаты, чем системы, обученные на художественных текстах.
Точность предсказания интонационных моделей для описанной в работе системы была сравнена с точностью системы на правилах, разработанной И. В. Жарковым и коллегами на кафедре фонетики и методики преподавания иностранных языков СПбГУ; нейросетевая система продемонстрировала улучшение по сравнению с системой на правилах в 1,4 раза.


1. Бондарко Л. В. [и др.]. Фонетика спонтанной речи / Л. В. Бондарко [и др.], Издательство Ленинградского университета, 1988.
2. Брызгунова Е. А. Практическая фонетика и интонация русского языка: пособие для преподавателей, занимающихся с иностранцами / Е. А. Брызгунова, Издательство Московского Университета, 1963.
3. Вольская Н. Б., Скрелин П. А. Система интонационных моделей для автоматической интерпретации интонационного оформления высказывания: функциональные и перцептивные характеристики // Третий междисциплинарный семинар" Анализ разговорной русской речи" (АР3-2009) - 2009. C. 28-40.
4. Жарков И. В., Слободянюк С. Л., Светозарова Н. Д. Автоматический акцентно-интонационный транскриптор произвольного русского текста / Бюллетень фонетического фонда русского языка. 1995. № 3. C. 58-70.
5. Ковтунова И. И. Современный русский язык: Порядок слов и актуальное членение предложения / И. И. Ковтунова, Просвещение, 1976.
6. Кодзасов С. В., Кривнова О. Ф. Общая фонетика / С. В. Кодзасов, О. Ф. Кривнова, Издательство Российского Гуманитарного Государственного Университета, 2001.
7. Кривнова О. Ф., Князев С. В., Моисеева Е. В. Исследования просодического членения звучащего текста на материале русского языка // Вестник Московского университета. Серия 9. Филология. - 2016. - №. 4.
8. Лобанов Б. М. Алгоритм сегментации текста на синтаксические синтагмы для синтеза речи // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М, 2008.
9. Николаева Т. М. Семантика акцентного выделения / Т. М. Николаева, М.: "Наука", 1982.
10. Пронникова Н. В. К вопросу о функциях интонации / Фундаментальные исследования. 2014. № 9 (5).
11. Рыбин С. В. Синтез речи / С. В. Рыбин, Санкт-Петербург: Университет ИТМО, 2014.
12. Светозарова Н. Д. Интонационная система русского языка 1982.
13. Светозарова Н. Д., Штерн А. С. Ключевые и фонетически выделенные слова текста // Экспериментальная фонетика. Автоматическое распознавание и синтез речи: сборник статей. - 1989. - С. 157.
14. Слюсарь Н. А. На стыке теорий / Н. А. Слюсарь, Общество с ограниченной ответственностью "Книжный дом ЛИБРОКОМ", 2009.
15. Черемисина-Ениколопова Н. В. Русская интонация: поэзия, проза, разговорная речь / Н. В. Черемисина-Ениколопова, Русский язык, 1989.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ