Тема: Адаптация произносительного словаря для автоматического распознавания разных типов речи
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Автоматическое распознавание речи и автоматическая обработка транскрипций 6
1.1. Задачи автоматического распознавания речи 6
1.2. Краткая историческая справка 7
1.3. Устройство системы АРР 8
1.4. Произносительный словарь 14
1.5. Автоматическое создание транскрипций 17
1.5.1. Системы, работающие по правилам 18
1.5.2. Машинное обучение 19
1.5.3. Оценка автоматически созданного словаря 20
1.6. Обзор существующих систем АРР 21
1.7. Выводы по главе 1 22
Глава 2. Фонетические особенности русской спонтанной речи 24
2.1. Фонетическая система русского языка 24
2.2. Междикторская и внутридикторская вариативность 26
2.3. Фонетические особенности русской разговорной речи 27
2.4. Особенности реализации окончаний прилагательных 30
2.6. Выводы по главе 2 31
Глава 3. Автоматическое создание произносительного словаря 32
3.1. Материал исследования 32
3.2. Инструменты для автоматического создания транскрипций 34
3.2.1. Взвешенные конечные преобразователи 35
3.2.2. Двунаправленные сети с долгой краткосрочной памятью 36
3.3. Инструменты для автоматического распознавания речи 38
3.4. Использованное оборудование 38
3.5. Автоматическое создание транскрипций 39
3.5.1. Автоматическое создание идеальных транскрипций 39
3.5.2. Автоматическое создание реальных транскрипций 42
3.6. Анализ необходимого объёма данных для обучения системы G2P 46
3.7. Использование произносительных вариантов для морфем 47
3.8. Выводы по главе 3 50
Заключение 52
Список литературы 54
Приложение. Варианты произносительных словарей для распознавания окончаний прилагательных 63
📖 Введение
Системы автоматического распознавания речи чаще всего пользуются именно такими орфоэпическими транскрипциями, что не может не отражаться на качестве распознавания. Поиск транскрипций, которые бы наилучшим для системы АРР образом отражали реальное произношение, является актуальным и на сегодняшний день [Adda-Decker, Lamel, 2018; Lukes и др., 2018], и не в меньшей степени он является актуальным для русского языка, который характеризуется разного рода фонетическими процессами: изменение гласных вследствие коартикуляционных процессов, их редукция в безударном положении, ассимилятивные изменения согласных и др.
Объектом данного исследования является автоматическое распознавание речи; предметом — методы адаптации произносительных словарей и зависимость качества распознавания от использования тех или иных словарных транскрипций.
Целью исследования является поиск способов оптимизации существующих словарей или создания новых таким образом, чтобы результирующий словарь обеспечил улучшение качества автоматического распознавания.
Для достижения данной цели были выполнены следующие задачи:
1. Обзор литературы, описывающей существующие методы и подходы к распознаванию речи, а также созданию и модификации транскрипций;
2. Обзор литературы, описывающей особенности русского языка, отражение которых в произносительном словаре могло бы повысить качество распознавания;
3. Предложение способов создания или модификации произносительного словаря;
4. Проведение экспериментов по автоматическому созданию транскрипций и автоматическому распознаванию речи;
5. Подведение итогов экспериментального исследования и оценка предложенных методов.
Результаты данного исследования могут помочь в создании новых систем АРР, адаптированных под разные типы речи, а также в создании систем автоматического выравнивания.
Работа состоит из введения, трёх глав и заключения. В первой главе освещены устройство систем распознавания речи, особенности создания словарей для задач АРР, методы автоматического создания транскрипций. Во второй главе рассмотрены фонетические характеристики и особенности русской разговорной речи, имеющие значение для поставленной задачи. В третьей главе описаны материал и методика исследования, освещены поставленные эксперименты и приведены их результаты.
✅ Заключение
1. Для автоматического создания транскрипций можно применять методы машинного обучения. Обучающим материалом в данном случае могут стать как аннотации размеченных вручную фонетических корпусов, так и результаты работы транскрипторов, основанных на правилах; в каждом случае результирующая система будет отражать транскрипционные конвенции, использованные при создании обучающего материала. Для качественной работы такой системы необходим материал в объёме тысяч словоупотреблений.
2. Возможно также применять методы машинного обучения для генерации реальных транскрипций на основе идеальных или орфографии. Так же, как и в предыдущем случае, значительную роль играет фактор объёма доступного обучающего материала. Вероятно, в данном случае минимальный объём обучающих данных несколько выше, чем в предыдущем.
3. Созданные таким образом транскрипции можно использовать для задач автоматического распознавания речи, однако от качества модели будет зависеть и качество распознавания. Наилучшие результаты показали словари, созданные на основе реальной фонемной транскрипции из корпуса CORPRES, причём генерация транскрипции могла происходить как из орфографической записи, так и из орфоэпической фонемной транскрипции. Наихудшие же результаты показали словари, основанные на реальной фонетической транскрипции из корпуса INTAS. Это возможно объяснить как недостатком обучающего материала ввиду маленького объёма корпуса INTAS, так и повышенным фактором неопределённости системы в силу большей точности транскрипции.
4. Изменение вариантов произношения отдельных морфем в словарях может влиять на качество распознавания речи; поиск таких вариантов представляет собой перспективное направление исследований. Показано, что для наилучшего качества распознавания окончаний форм прилагательных необходимы словари, содержащие различные варианты транскрипций, как орфоэпических, так и отражающих реальные произносительные варианты.
Полученные выводы могут служить основой для дальнейших исследований по созданию различных вариантов систем создания автоматической транскрипции для русского языка, что потенциально имеет приложения не только в области автоматического распознавания речи, но также синтеза и выравнивания (т. е. автоматической расстановки границ); последняя задача является важной для проведения многих исследований акустических особенностей языков.





