Разработка системы автоматического распознавания слитной речи
|
РЕФЕРАТ 2
ВВЕДЕНИЕ 5
1. Обзор и анализ предметной области 8
1.1. Общие сведения 8
1.2. Классификация систем распознавания речи 10
1.3. Структура системы распознавания речи 11
1.4. Обработка исходного сигнал и выделение признаков 14
1.5. Акустическая модель системы распознавания речи 24
1.5.1. Эвристический подход 24
1.5.2. Скрытые марковские модели 25
1.5.3. Непрерывные скрытые марковские модели 35
1.5.4. Контекстная зависимость в скрытых марковских моделях 39
1.5.5. Нейронные сети 42
1.5.6. Гибридная архитектура 53
1.6. Словарь системы распознавания речи 54
1.7. Языковая модель системы распознавания речи. N-граммная языковая модель 55
1.8. Декодер 57
1.8.1. Декодирование с помощью взвешенных конечных
преобразователей 57
2. Выбор технологии системы распознавания речи 61
3. Построение системы распознавания речи 62
3.1. Обзор программных компонент для построения целевой системы .... 62
3.2. Архитектура разработанной системы 67
3.2.1. Обработка исходного сигнала и выделение признаков 67
3.2.2. Словарь системы распознавания 68
3.2.3. Языковое моделирование 68
3.2.4. Акустическое моделирование 69
3.2.5. Декодер 70
3.3. Особенности реализации и обучающая выборка 71
4. Результаты применения системы распознавания речи 73
ЗАКЛЮЧЕНИЕ 76
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 77
ПРИЛОЖЕНИЕ А 81
ВВЕДЕНИЕ 5
1. Обзор и анализ предметной области 8
1.1. Общие сведения 8
1.2. Классификация систем распознавания речи 10
1.3. Структура системы распознавания речи 11
1.4. Обработка исходного сигнал и выделение признаков 14
1.5. Акустическая модель системы распознавания речи 24
1.5.1. Эвристический подход 24
1.5.2. Скрытые марковские модели 25
1.5.3. Непрерывные скрытые марковские модели 35
1.5.4. Контекстная зависимость в скрытых марковских моделях 39
1.5.5. Нейронные сети 42
1.5.6. Гибридная архитектура 53
1.6. Словарь системы распознавания речи 54
1.7. Языковая модель системы распознавания речи. N-граммная языковая модель 55
1.8. Декодер 57
1.8.1. Декодирование с помощью взвешенных конечных
преобразователей 57
2. Выбор технологии системы распознавания речи 61
3. Построение системы распознавания речи 62
3.1. Обзор программных компонент для построения целевой системы .... 62
3.2. Архитектура разработанной системы 67
3.2.1. Обработка исходного сигнала и выделение признаков 67
3.2.2. Словарь системы распознавания 68
3.2.3. Языковое моделирование 68
3.2.4. Акустическое моделирование 69
3.2.5. Декодер 70
3.3. Особенности реализации и обучающая выборка 71
4. Результаты применения системы распознавания речи 73
ЗАКЛЮЧЕНИЕ 76
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 77
ПРИЛОЖЕНИЕ А 81
Человеческий речевой диалог - самая интуитивная форма общения между людьми. В течение продолжительного времени, мировое научное сообщество стремилось привнести эту форму и в общении человека с компьютером.
Первые попытки исследований в области распознавания речи относятся к 40-50 годам XX века. Связаны они с появлением спектральных анализаторов - электрических устройств, способных анализировать спектральные характеристики сигнала. В СССР было создано первое техническое устройство, позволявшее распознавать гласные русского языка на основе спектрального анализа [1]. Эти исследования выступили основой для дальнейших исследований в области распознавания речи.
Следующим этапом развития систем распознавания речи стало создание систем распознавания команд. Такие системы использовали в основном стратегию распознавания слова как единого слухового образа.
Системы распознавания слитной речи, которые получили наиболее широкое распространение, стали бурно развиваться в начале 2000-х годов. С точки зрения общения с компьютером, технология распознавания речи применяется в следующих областях:
• автомобильная промышленность - голосовое управление штатными
бортовыми системами (навигационным оборудованием, мультимедийной системой, бортовым компьютером и т.д.);
• системы «умный дом» - управление работой бытовых приборов (системы освещения, кухонными приборами и т.д.);
• персональные компьютеры и мобильные устройства - персональные ассистенты, выполняющие вспомогательные функции приложений и операционной системы (ввод текстовых сообщений, выполнение команд и т.д.).
Однако, кроме непосредственного использования систем распознавания речи для реализации взаимодействия «человек-компьютер», такие системы нашли применение в речевом анализе. Под речевым анализом понимается решение таких задач, как тематическое моделирование, выявление ключевых слов, кластеризация на основе ключевых признаков.
Не смотря на развитие цифровых технологий, в коммерческих организациях до сих пор, большую долю из каналов коммуникаций занимает общение по телефону. В таблице 1 приведена статистика обращения в контактные центры, представленная компанией «LiveTex» [2] в 2016 году.
При этом для крупных контактных центров, центров поддержки клиентов остро встает вопрос автоматизированной оценки качества работы оператора, выявление проблемных мест деятельности организации, на основе статистике задаваемых вопросов.
Большая часть систем распознавания речи, существующих на рынке, либо не способны распознавать русскую речь, либо делают это с ненадлежащим для конкретной задачи качеством. Связанно это, в основном, со скудностью теоретической базы распознавания русской слитной речи, малого количества исследований на эту тему.
В связи с этим данная работа преследует следующую цель - разработать систему автоматического распознавания слитной русской речи. Для данной цели были сформулированы следующие задачи:
1. провести обзор и анализ предметной области;
2. выбрать и обосновать архитектуру программного комплекса системы распознавания;
3. разработать программную реализацию системы распознавания речи;
4. провести тестирование разработанного комплекса;
5. продемонстрировать применимость текстов, полученных с помощью
разработанной системы распознавания в задачах речевого анализа.
Первые попытки исследований в области распознавания речи относятся к 40-50 годам XX века. Связаны они с появлением спектральных анализаторов - электрических устройств, способных анализировать спектральные характеристики сигнала. В СССР было создано первое техническое устройство, позволявшее распознавать гласные русского языка на основе спектрального анализа [1]. Эти исследования выступили основой для дальнейших исследований в области распознавания речи.
Следующим этапом развития систем распознавания речи стало создание систем распознавания команд. Такие системы использовали в основном стратегию распознавания слова как единого слухового образа.
Системы распознавания слитной речи, которые получили наиболее широкое распространение, стали бурно развиваться в начале 2000-х годов. С точки зрения общения с компьютером, технология распознавания речи применяется в следующих областях:
• автомобильная промышленность - голосовое управление штатными
бортовыми системами (навигационным оборудованием, мультимедийной системой, бортовым компьютером и т.д.);
• системы «умный дом» - управление работой бытовых приборов (системы освещения, кухонными приборами и т.д.);
• персональные компьютеры и мобильные устройства - персональные ассистенты, выполняющие вспомогательные функции приложений и операционной системы (ввод текстовых сообщений, выполнение команд и т.д.).
Однако, кроме непосредственного использования систем распознавания речи для реализации взаимодействия «человек-компьютер», такие системы нашли применение в речевом анализе. Под речевым анализом понимается решение таких задач, как тематическое моделирование, выявление ключевых слов, кластеризация на основе ключевых признаков.
Не смотря на развитие цифровых технологий, в коммерческих организациях до сих пор, большую долю из каналов коммуникаций занимает общение по телефону. В таблице 1 приведена статистика обращения в контактные центры, представленная компанией «LiveTex» [2] в 2016 году.
При этом для крупных контактных центров, центров поддержки клиентов остро встает вопрос автоматизированной оценки качества работы оператора, выявление проблемных мест деятельности организации, на основе статистике задаваемых вопросов.
Большая часть систем распознавания речи, существующих на рынке, либо не способны распознавать русскую речь, либо делают это с ненадлежащим для конкретной задачи качеством. Связанно это, в основном, со скудностью теоретической базы распознавания русской слитной речи, малого количества исследований на эту тему.
В связи с этим данная работа преследует следующую цель - разработать систему автоматического распознавания слитной русской речи. Для данной цели были сформулированы следующие задачи:
1. провести обзор и анализ предметной области;
2. выбрать и обосновать архитектуру программного комплекса системы распознавания;
3. разработать программную реализацию системы распознавания речи;
4. провести тестирование разработанного комплекса;
5. продемонстрировать применимость текстов, полученных с помощью
разработанной системы распознавания в задачах речевого анализа.
Целью данной выпускной квалификационной работы являлась разработка системы распознавания слитной русской речи. Данная задача была выполнена в полном объеме.
Проведен обзор и анализ предметной области. Описаны теоретические основы компонент систем распознавания речи.
Проведен анализ архитектур систем распознавания речи. Обоснован выбор архитектуры на основе скрытых марковских моделей. Проведено исследование использования технологии нейронных сетей для решения задачи акустического моделирования.
Разработана программная реализация системы распознавания речи. Оценено качество работы системы. Разработана система декодирования аудиофайлов, которая применена в ООО «Центр недвижимости от Сбербанка» в промышленной среде.
Продемонстрирована применимость текстов, получаемых с помощью разработанной системы распознавания речи для дальнейшего текстового и языкового анализа, на примере решения задачи автоматизированной модерации и тематического моделирования звонков.
На данный момент система распознавания речи продолжает работать в промышленной среде компании ООО «Центр недвижимости от Сбербанка», обеспечивая распознавания звонков для нужд иных сервисов компании.
Проведен обзор и анализ предметной области. Описаны теоретические основы компонент систем распознавания речи.
Проведен анализ архитектур систем распознавания речи. Обоснован выбор архитектуры на основе скрытых марковских моделей. Проведено исследование использования технологии нейронных сетей для решения задачи акустического моделирования.
Разработана программная реализация системы распознавания речи. Оценено качество работы системы. Разработана система декодирования аудиофайлов, которая применена в ООО «Центр недвижимости от Сбербанка» в промышленной среде.
Продемонстрирована применимость текстов, получаемых с помощью разработанной системы распознавания речи для дальнейшего текстового и языкового анализа, на примере решения задачи автоматизированной модерации и тематического моделирования звонков.
На данный момент система распознавания речи продолжает работать в промышленной среде компании ООО «Центр недвижимости от Сбербанка», обеспечивая распознавания звонков для нужд иных сервисов компании.
Подобные работы
- СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД ДЛЯ ПАРАЛЛЕЛЬНЫХ АРХИТЕКТУР
Диссертации (РГБ), технология конструкционных материалов. Язык работы: Русский. Цена: 500 р. Год сдачи: 2005 - Распознавание речи с использованием алгоритмов глубокого обучения
Магистерская диссертация, физика. Язык работы: Русский. Цена: 4960 р. Год сдачи: 2020 - Разработка структурной схемы фонемного вокодера.
Дипломные работы, ВКР, радиотехника. Язык работы: Русский. Цена: 2900 р. Год сдачи: 2008 - Типология модификаций фонем в разных типах русской речи
Магистерская диссертация, филология. Язык работы: Русский. Цена: 4950 р. Год сдачи: 2016 - КРИМИНАЛИСТИЧЕСКАЯ ФОНОСКОПИЯ
Бакалаврская работа, юриспруденция. Язык работы: Русский. Цена: 4255 р. Год сдачи: 2017 - Исследование параметров сегментации при статистическом машинном переводе с арабского на русский язык
Магистерская диссертация, лингвистика. Язык работы: Русский. Цена: 4950 р. Год сдачи: 2016



