Тема: Предсказание интонационного оформления высказывания для синтеза речи по тексту
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 4
Теоретическая часть 7
1. Текстовые маркеры аспектов интонационного оформления 7
1.1. Функции интонации 7
1.2. Синтагматическое членение и семантико-синтаксические факторы, обуславливающие его 8
1.3. Расположение интонационного центра синтагмы и его зависимость от синтаксических факторов 12
1.4. Факторы, влияющие на выбор интонационного оформления синтагмы 15
2. Система интонационного описания 20
3. Обзор работ по предсказанию интонационного оформления текста 24
3.1. Постановка задачи при предсказании интонационного оформления 25
3.2. Связь между предсказанием интонационных границ и тональных акцентов 26
3.3. Зависимость точности предсказания от материала, используемого для обучения 28
3.4. Классификационные признаки 29
3.5. Классификационные методы 34
Практическая часть 36
1. Материал 36
1.1. Описание корпуса 36
1.2. Описания обучающих и тестовых выборок 37
1.3. Анализ интонационной вариативности материала 39
2. Классификационные признаки 41
2.1. Пунктуационные признаки 42
2.1. Морфологические признаки 42
2.2. Лексические признаки. 43
2.3. Синтаксические признаки 44
2.4. Фонетические признаки 44
2.5. Целевые классы 45
3. Метод 46
3.1 Метрики 46
3.2 Описание архитектуры и параметров 49
4. Результаты 53
4.1 Сравнение комбинаций признаков 53
4.2 Сравнение интонационно сбалансированной и случайной выборок 55
4.3 Результаты для дикторонезависимых моделей на художественных текстах 56
4.4 Результаты для дикторозависимых моделей на художественных текстах 57
4.5 Результаты для моделей, обученных на материале новостных текстов 60
4.6 Результаты для меж-жанровых выборок 62
4.7 Анализ ошибок предсказательной модели 63
4.7.1 Анализ матрицы смешения 63
4.7.2 Примеры ошибок 68
4.8 Сравнение нейросетевого подхода с интонационным аннотатором, работающим на правилах 73
Заключение 76
Список литературы 78
Приложения 85
Приложение 1: матрицы смешения для всех дикторов корпуса 85
📖 Введение
1. Формализация лингвистических признаков для предсказания интонационного оформления, а также отбор наиболее эффективных из них; выбор параметров для нейросетевой модели предсказания.
2. Обучение и тестирование модели предсказания на ряде выборок (дикторозависимых и дикторонезависимых, а также содержащих тексты разного жанра).
3. Лингвистический анализ ошибок модели.
Актуальность исследования обоснована применимостью и полезностью предсказания интонационного оформления для комплексных (End-to-End) систем синтеза речи по тексту, основанных на нейросетевых подходах, которым в последние годы были посвящены многочисленные исследования. Ряд предложенных архитектур и систем, таких как Tacotron2 (Wang et al., 2017), DC-TTS (Tachibana et al., 2018), FastSpeech2 (Ren et al., 2020) и др. (Shen et al., 2918), позволил достичь значительных успехов в повышении качества звучания синтезированной речи, которая в некоторых ситуациях по своей натуральности стала приближаться к человеческой. Современные системы синтеза, зачастую не требующие никаких обучающих данных помимо записей речи и их орфографической расшифровки, предоставляют теоретическую возможность снизить количество требуемой ручной разметки материала до минимума, а также отказаться от лингвистических признаков при обучении системы. Тем не менее, практические исследования показывают, что при отсутствии лингвистических признаков эффективный синтез интонации, особенно эмоциональной, возможен только при наличии огромного количества интонационно разнообразного и представительного обучающего материала. Данная проблема затрагивает все языки, но становится еще более острой для тех из них, для которых доступно меньше качественных корпусов (в сравнении, например, с английским, на материале которого проводится большинство публикуемых исследований по синтезу).
По этой причине лингвистические признаки в системах синтеза все же не теряют своей актуальности и значимости: было показано, что, например, синтаксические признаки улучшают реализацию синтагматических границ (Guo et al., 2019), а использование эмбеддингов, учет пунктуации и частеречных тэгов повышает естественность интонационного контура (Tyagi et al., 2019). Учитывая данные результаты, можно предположить, что использование предсказанных интонационных моделей в разметке синтезируемого текста также внесло бы положительный вклад; это и обосновывает актуальность изучения методов предсказания интонационного оформления по тексту.
Практическая значимость работы заключается в том, что, во-первых, предлагаемый метод разработан на материале русского языка, для которого задача предсказания интонации исследована в значительно меньшей степени, чем, например, для того же английского; тем не менее, русский язык имеет свою специфику, в частности, используемые для него системы интонационного описания значительно отличаются от систем, обычно применяемых для английского. С этим связан второй аспект практической значимости работы: метод предсказывает интонационное оформление в терминах системы интонационного описания Н. Б. Вольской (Вольская и Скрелин, 2009), создание которой проводилось с учетом нужд и требований синтеза речи. Третий аспект практической значимости связан с тем, что метод использует нейросетевой подход, в последние годы позволивший значительно улучшить эффективность решения задач по обработке естественного языка.
Теоретической новизна состоит в изучении и сравнении эффективности предложенного метода на различном материале: на художественных и новостных текстах, для дикторозависимого и дикторонезависимого материала, в условиях разнородности обучающей и тестовой выборок.
В качестве материала для исследования был использован речевой корпус CORPRES (COrpus of Russian Professionally REad Speech; Skrelin et. al, 2010), содержащий записи чтения, порожденные профессиональными дикторами. Аннотация корпуса включает просодический уровень, на котором отмечены различные интонационные явления: синтагматические границы, интонационные центры и модели и др. Наличие текстов, прочитанных всеми восемью дикторами корпуса, позволяет изучить пределы вариативности интонационного оформления; профессиональная подготовка дикторов обеспечивает уверенность в том, что предсказательная модель обучена на качественном материале, представляющем нормативную русскую речь.
Работа работа включает в себя введение, основную часть, разделенную на две главы, заключение, список литературы и приложение.
Первая глава содержит обзор литературы, на основе которой проводилась формализация признаков для предсказания интонационного оформления; описание используемых систем интонационного описания; обзор работ, посвященных предсказанию различных аспектов интонационного оформления. Вторая глава содержит описание предлагаемого метода и его результатов: используемый для обучения материал, анализ вариативности предсказываемых интонационных явлений; классификационные признаки и архитектура модели; метрики; полученные результаты.
✅ Заключение
Классификационные признаки включали следующие группы: пунктуационную, морфологическую, лексическую, синтаксическую и фонетическую. Эксперименты показали, что использование всех этих признаков оправдано, а их комбинация дает наилучшие результаты; однако эмбеддинги BERT, передававшие лексический аспект предложения, дают малый прирост эффективности, вероятно, в связи с недостаточным количеством материала. Для устранения данной проблемы необходимо увеличить объем обучающей выборки, либо снизить размерность эмбеддингов слов. Среди признаков, оказывающих наибольшее влияние на предсказание расположения интонационного центра, были фонетические, пунктуационные и морфологические. Точность предсказания интонационной модели же повышалась в первую очередь за счет синтаксических, фонетических и пунктуационных признаков.
Предсказание расположения интонационных центров для дикторонезависимой модели на художественных текстах осуществлялось с эффективностью в 88,7%, предсказание интонационной модели — с точностью в 61,2% (или 84,5%, если считать правильной интонационную модель, которую в данном предложении реализовал хотя бы один диктор корпуса). Значения метрик для дикторозависимых моделей значительно варьируются; однако, можно сказать, что эффективность предсказания интонационных моделей для дикторозависимых моделей выше, а точность предсказания расположения центров меньше. Дальнейшим этапом улучшения системы предсказания может стать ее разделение на два компонента, один из которых будет обучаться на дикторонезависимом материале, а другой — на дикторозависимом.
Интонация новостных текстов предсказывается системой с большей эффективностью, чем интонация художественных, и в случае дикторозависимых, и в случае дикторонезависимых моделей. Это связано в первую очередь с ее меньшей вариативностью, большей нейтральностью и большей предсказуемостью; в связи с этим, в условиях разнородности обучающей и тестовой выборок системы, обученные на новостных текстах, показывали более плохие результаты, чем системы, обученные на художественных текстах.
Точность предсказания интонационных моделей для описанной в работе системы была сравнена с точностью системы на правилах, разработанной И. В. Жарковым и коллегами на кафедре фонетики и методики преподавания иностранных языков СПбГУ; нейросетевая система продемонстрировала улучшение по сравнению с системой на правилах в 1,4 раза.





