РАЗРАБОТКА ЛОКАЛЬНОГО РАБОЧЕГО МЕСТА ИССЛЕДОВАТЕЛЯ ИНТОНАЦИОННЫХ КОНСТРУКЦИЙ РУССКОГО ЯЗЫКА
|
ВВЕДЕНИЕ 9
1 ОБЗОР СУЩЕСТВУЮЩИХ СИСТЕМ ПО РАСПОЗНАВАНИЮ
РЕЧИ, ИХ ХАРАКТЕРИСТИК И МЕТОДОВ РАБОТЫ 11
1.1 Системы распознавания речи с закрытым исходным кодом 13
1.2 Системы распознавания речи с открытым исходным кодом 19
1.3 Распознавание речи 24
1.4 Цифровая обработка сигналов 27
1.5 Анализ метода мел-частотных кепстральных коэффициентов
применительно к процедуре голосовой аутентификации 29
2 УСТАНОВЛЕНИЕ ОПТИМАЛЬНОГО РЕШЕНИЯ НА ОСНОВЕ СУЩЕСТВУЮЩИХ АЛГОРИТМОВ И МЕТОДИК РАСПОЗНАВАНИЯ РЕЧИ 37
2.1 Энергия 38
2.2 Форманты 39
2.3 Просодические особенности при классификации акцентов 41
2.4 Распознавание акцентированной речи на основе знания родного языка 43
2.5 Обработка речевого сигнала 47
2.6 Использование формант в речевом образце 49
2.7 Спектральные характеристики речевого сигнала 49
2.8 Анализ речевого сигнала с использованием корреляционной
функции 50
2.9 Кепстральный анализ речевого сигнала 51
2.10 Анализ с использованием нейронных сетей 54
2.11 Анализ с использованием скрытых марковских моделей 56
2.12 Анализ с использованием динамического трансформирования
времени 57
2.13 Многокомпонентная информация, заложенная в речевом образце 59
2.14 Алгоритмы пофонемного распознавания речи в амплитудно¬временной области 62
2.14.1 Представление речевого сигнала во временной области 63
2.14.2 Классификация шипящих и пауз 64
2.15 Выбор языка и среды программирования 65
2.16 Мел-частотные кепстральные коэффициенты 65
3 РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ 67
3.1 Программная реализация алгоритмов 69
3.1.1 Алгоритм обнаружения речевой активности 69
3.1.2 Кадрирование входного сигнала во временной области 72
3.1.3 Алгоритм динамической трансформации временной шкалы 73
3.1.4 Разложение в ряд Фурье 75
3.1.5 Применение оконной функции Хэмминга 75
3.1.6 Расчет mel-фильтров 77
3.1.7 Применение фильтров и логарифмирование энергии спектра ... 79
3.1.8 Косинусное преобразование 79
3.1.9 Мел-частотные кепстральные коэффициенты 79
3.2 Формирование проектной библиотеки образцов произношения 81
3.2.1 Группы пользователей проекта 81
3.2.2 Группы звуковых образцов проекта 81
3.2.3 Основные требования к записи образцов 82
3.2.4 Основная информация записанных образцов 82
3.3 Разработка программного кода обработки речи 83
4 РАЗРАБОТКА МОДУЛЯ ПОДБОРА ОПТИМАЛЬНЫХ
ПАРАМЕТРОВ ДЛЯ ЛОКАЛЬНОГО РАБОЧЕГО МЕСТА
ИССЛЕДОВАТЕЛЯ ИНТОНАЦИОННЫХ КОНСТРУКЦИЙ.
ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА И ТЕСТИРОВАНИЕ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ 89
4.1 Создание библиотеки речевых образцов 90
4.2 Установление частотного диапазона входного сигнала 91
4.3 Применение алгоритма динамической трансформации
временной шкалы 92
4.4 Применение алгоритма обнаружения речевой активности 93
4.5 Применение оконной функции Хэмминга 94
4.6 Установление размера ширины кадра 95
4.7 Установление размера кадрового перекрытия 99
4.8 Использование мел-частотных кепстральных коэффициентов в
корреляции Пирсона 100
4.9 Результаты программной разработки локального рабочего места
исследователя интонационных конструкций русского языка 103
ЗАКЛЮЧЕНИЕ 107
БИЛИОГРАФИЧЕСКИЙ СПИСОК 109
ПРИЛОЖЕНИЯ 122
ПРИЛОЖЕНИЕ А Листинг программы 122
1 ОБЗОР СУЩЕСТВУЮЩИХ СИСТЕМ ПО РАСПОЗНАВАНИЮ
РЕЧИ, ИХ ХАРАКТЕРИСТИК И МЕТОДОВ РАБОТЫ 11
1.1 Системы распознавания речи с закрытым исходным кодом 13
1.2 Системы распознавания речи с открытым исходным кодом 19
1.3 Распознавание речи 24
1.4 Цифровая обработка сигналов 27
1.5 Анализ метода мел-частотных кепстральных коэффициентов
применительно к процедуре голосовой аутентификации 29
2 УСТАНОВЛЕНИЕ ОПТИМАЛЬНОГО РЕШЕНИЯ НА ОСНОВЕ СУЩЕСТВУЮЩИХ АЛГОРИТМОВ И МЕТОДИК РАСПОЗНАВАНИЯ РЕЧИ 37
2.1 Энергия 38
2.2 Форманты 39
2.3 Просодические особенности при классификации акцентов 41
2.4 Распознавание акцентированной речи на основе знания родного языка 43
2.5 Обработка речевого сигнала 47
2.6 Использование формант в речевом образце 49
2.7 Спектральные характеристики речевого сигнала 49
2.8 Анализ речевого сигнала с использованием корреляционной
функции 50
2.9 Кепстральный анализ речевого сигнала 51
2.10 Анализ с использованием нейронных сетей 54
2.11 Анализ с использованием скрытых марковских моделей 56
2.12 Анализ с использованием динамического трансформирования
времени 57
2.13 Многокомпонентная информация, заложенная в речевом образце 59
2.14 Алгоритмы пофонемного распознавания речи в амплитудно¬временной области 62
2.14.1 Представление речевого сигнала во временной области 63
2.14.2 Классификация шипящих и пауз 64
2.15 Выбор языка и среды программирования 65
2.16 Мел-частотные кепстральные коэффициенты 65
3 РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ 67
3.1 Программная реализация алгоритмов 69
3.1.1 Алгоритм обнаружения речевой активности 69
3.1.2 Кадрирование входного сигнала во временной области 72
3.1.3 Алгоритм динамической трансформации временной шкалы 73
3.1.4 Разложение в ряд Фурье 75
3.1.5 Применение оконной функции Хэмминга 75
3.1.6 Расчет mel-фильтров 77
3.1.7 Применение фильтров и логарифмирование энергии спектра ... 79
3.1.8 Косинусное преобразование 79
3.1.9 Мел-частотные кепстральные коэффициенты 79
3.2 Формирование проектной библиотеки образцов произношения 81
3.2.1 Группы пользователей проекта 81
3.2.2 Группы звуковых образцов проекта 81
3.2.3 Основные требования к записи образцов 82
3.2.4 Основная информация записанных образцов 82
3.3 Разработка программного кода обработки речи 83
4 РАЗРАБОТКА МОДУЛЯ ПОДБОРА ОПТИМАЛЬНЫХ
ПАРАМЕТРОВ ДЛЯ ЛОКАЛЬНОГО РАБОЧЕГО МЕСТА
ИССЛЕДОВАТЕЛЯ ИНТОНАЦИОННЫХ КОНСТРУКЦИЙ.
ЭКСПЕРИМЕНТАЛЬНАЯ ПРОВЕРКА И ТЕСТИРОВАНИЕ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ 89
4.1 Создание библиотеки речевых образцов 90
4.2 Установление частотного диапазона входного сигнала 91
4.3 Применение алгоритма динамической трансформации
временной шкалы 92
4.4 Применение алгоритма обнаружения речевой активности 93
4.5 Применение оконной функции Хэмминга 94
4.6 Установление размера ширины кадра 95
4.7 Установление размера кадрового перекрытия 99
4.8 Использование мел-частотных кепстральных коэффициентов в
корреляции Пирсона 100
4.9 Результаты программной разработки локального рабочего места
исследователя интонационных конструкций русского языка 103
ЗАКЛЮЧЕНИЕ 107
БИЛИОГРАФИЧЕСКИЙ СПИСОК 109
ПРИЛОЖЕНИЯ 122
ПРИЛОЖЕНИЕ А Листинг программы 122
Разработка программного обеспечения для изучения различий в произношении носителей русского языка и дикторов, для которых он не является родным - актуальная задача на сегодняшний день. Это подтверждается распоряжением руководства от 3.09.2018 № 308/92 об организации проектного образования на тему «Интеллектуальная система анализа интонационных конструкций русского языка», грантовой поддержкой по постановлению правительства РФ № 1642 от 26.12.2017: Государственная программа РФ «Развитие образования». И связано с необходимостью популяризации русского языка за рубежом, примером тому можно считать открытие 8 центров по его изучению в Китае.
Требуется составить новые алгоритмы обработки речевых образцов с целью выявления интонационных признаков, сформировать и выполнить новые методики обучения с последующей возможностью разработки нейронных сетей для их реализации, подобных аналогов наборов данных для нейронных сетей на данный момент не существует. Вместо преобладающего в исследованиях акцента формантного анализа предлагается использование мелкепстральных коэффициентов и оценка распределения коэффициентов корреляции по частоте их появления между носителями русского и китайского языков.
В настоящий момент существует большое множество образовательных ресурсов, у которых в наличии имеется обучение с родного языка на необходимый пользователю иностранный. Однако, как правило, практика верного произношения на них не в приоритете, либо совершенно отсутствует. В лучшем случае используется распознавание речи по типу google translate, и подход нацелен лишь на распознавание сказанного, вне зависимости было ли произношение правильным. Стоит заметить, что почти каждое используемое для этих целей ПО закрыто, т.е. каким образом оно работает, с помощью чего и на что опирается - остается неизвестным. Также в этом имеется минимум пользы при изучении вариации между языками, однако некоторые платформы все же собирают речевые образцы, но что с ними происходит в дальнейшем - не разглашается.
С другой стороны, есть большое количество высокоспециализированного и многофункционального ПО (Praat, WaveSurfer, Speech Analyser и пр.), предназначенного для решения исследовательских задач в области обработки речи. Проблема состоит в том, что все они предоставлены на английском языке, требуют от филолога очень высокую подготовку по технической части, в том числе в умении написания кода, обладают очень неочевидным интерфейсом, недостаточно развернутой инструкцией. Также ставится под сомнение их эффективность, т.к. в статьях, в которых сравниваются эффективность и производительность формантного анализа по нескольким ПО, обнаруживается множество различий в точности.
Стоит упомянуть, что с интонациями работают лишь в узкоспециализированных областях, таких как, например, криминалистика и фонология в медицине, но всё же и они взаимодействуют лишь с языком, без особенностей межязыкового взаимодействия, потому что в паре языков «родной и изучаемый» сразу же возникает очень высокое количество отличий, которые необходимо фиксировать и впоследствии с ними работать.
На основе вышесказанного перед нами стоит цель создать подобный ресурс.
Требуется составить новые алгоритмы обработки речевых образцов с целью выявления интонационных признаков, сформировать и выполнить новые методики обучения с последующей возможностью разработки нейронных сетей для их реализации, подобных аналогов наборов данных для нейронных сетей на данный момент не существует. Вместо преобладающего в исследованиях акцента формантного анализа предлагается использование мелкепстральных коэффициентов и оценка распределения коэффициентов корреляции по частоте их появления между носителями русского и китайского языков.
В настоящий момент существует большое множество образовательных ресурсов, у которых в наличии имеется обучение с родного языка на необходимый пользователю иностранный. Однако, как правило, практика верного произношения на них не в приоритете, либо совершенно отсутствует. В лучшем случае используется распознавание речи по типу google translate, и подход нацелен лишь на распознавание сказанного, вне зависимости было ли произношение правильным. Стоит заметить, что почти каждое используемое для этих целей ПО закрыто, т.е. каким образом оно работает, с помощью чего и на что опирается - остается неизвестным. Также в этом имеется минимум пользы при изучении вариации между языками, однако некоторые платформы все же собирают речевые образцы, но что с ними происходит в дальнейшем - не разглашается.
С другой стороны, есть большое количество высокоспециализированного и многофункционального ПО (Praat, WaveSurfer, Speech Analyser и пр.), предназначенного для решения исследовательских задач в области обработки речи. Проблема состоит в том, что все они предоставлены на английском языке, требуют от филолога очень высокую подготовку по технической части, в том числе в умении написания кода, обладают очень неочевидным интерфейсом, недостаточно развернутой инструкцией. Также ставится под сомнение их эффективность, т.к. в статьях, в которых сравниваются эффективность и производительность формантного анализа по нескольким ПО, обнаруживается множество различий в точности.
Стоит упомянуть, что с интонациями работают лишь в узкоспециализированных областях, таких как, например, криминалистика и фонология в медицине, но всё же и они взаимодействуют лишь с языком, без особенностей межязыкового взаимодействия, потому что в паре языков «родной и изучаемый» сразу же возникает очень высокое количество отличий, которые необходимо фиксировать и впоследствии с ними работать.
На основе вышесказанного перед нами стоит цель создать подобный ресурс.
В ходе данной работы были рассмотрены системы распознавания речи с закрытым и открытым системным кодом, их принципы работы, выявлены достоинства и недостатки каждой из них. Разобраны термины, классификации, методы и алгоритмы, связанные с преобразованием речи. Рассмотрены достоинства и недостатки формантного анализа и предложена альтернатива существующим методам - использование мел-частотных кепстральных коэффициентов.
Была проведена классификация существующих методов обработки речевых сигналов, применяемых в системах распознавания речи на основе аналитического обзора. Представленные классификации систем, характеристик и методов обработки позволяют на их основании дать оценку возможности применения новых математических аппаратов в задачах обработки речевых сигналов в системах распознавания речи.
На основе изучения реализованных принципов работы и исследований существующих методов обработки речевых сигналов, применяемых в системах распознавания речи, был сформирован алгоритм обработки речи и разработано программное обеспечение на его основе. Определены требования к образцам- эталонам носителей целевого языка. Проведена экспериментальная проверка, последующие доработка и модернизация программного комплекса анализа речи.
Для участия в эксперименте по тестированию программного обеспечения сформирована библиотека речевых образцов. В ходе эксперимента проведен подбор оптимальных параметров входных характеристик сигнала, таких как: звуковой диапазон, ширина кадра, перекрытие кадра, количество мел-частотных кепстральных коэффициентов и применяемая оконная функция. На выходе программы полученные мел-частотные кепстральные коэффициенты использованы в корреляции Пирсона для сопоставления входных образцов и визуального представления результата. Разработанное программное обеспечение позволяет экспериментальным образом подобрать оптимальные параметры, которые впоследствии будут использованы в автоматическом режиме работы основной системы.
По данной разработке были выполнены две научные публикации в рамках 63ей международной научной конференции Евразийского Научного Объединения.
Была проведена классификация существующих методов обработки речевых сигналов, применяемых в системах распознавания речи на основе аналитического обзора. Представленные классификации систем, характеристик и методов обработки позволяют на их основании дать оценку возможности применения новых математических аппаратов в задачах обработки речевых сигналов в системах распознавания речи.
На основе изучения реализованных принципов работы и исследований существующих методов обработки речевых сигналов, применяемых в системах распознавания речи, был сформирован алгоритм обработки речи и разработано программное обеспечение на его основе. Определены требования к образцам- эталонам носителей целевого языка. Проведена экспериментальная проверка, последующие доработка и модернизация программного комплекса анализа речи.
Для участия в эксперименте по тестированию программного обеспечения сформирована библиотека речевых образцов. В ходе эксперимента проведен подбор оптимальных параметров входных характеристик сигнала, таких как: звуковой диапазон, ширина кадра, перекрытие кадра, количество мел-частотных кепстральных коэффициентов и применяемая оконная функция. На выходе программы полученные мел-частотные кепстральные коэффициенты использованы в корреляции Пирсона для сопоставления входных образцов и визуального представления результата. Разработанное программное обеспечение позволяет экспериментальным образом подобрать оптимальные параметры, которые впоследствии будут использованы в автоматическом режиме работы основной системы.
По данной разработке были выполнены две научные публикации в рамках 63ей международной научной конференции Евразийского Научного Объединения.



