ИССЛЕДОВАНИЕ ПРИЗНАКОВ РЕЧЕВЫХ СИГНАЛОВ ДЛЯ ЗАДАЧ РАСПОЗНАВАНИЯ РЕЧИ
|
ВВЕДЕНИЕ
1 АНАЛИЗ ПРИЗНАКОВЫХ ПРОСТРАНСТВ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕЧИ
2 МЕРЫ БЛИЗОСТИ, ПРИМЕНЯЕМЫЕ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕЧИ
3 МЕТОДИКА ПРОВЕДЕНИЯ ВЫЧИСЛИТЕЛЬНЫХ ЭКСПЕРИМЕНТОВ
4 ОЦЕНКА РЕЗУЛЬТАТОВ ВЫЧИСЛИТЕЛЬНЫХ ЭКСПЕРИМЕНТОВ
5 ЭКОНОМИЧЕСКАЯ ОЦЕНКА РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ
1 АНАЛИЗ ПРИЗНАКОВЫХ ПРОСТРАНСТВ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕЧИ
2 МЕРЫ БЛИЗОСТИ, ПРИМЕНЯЕМЫЕ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕЧИ
3 МЕТОДИКА ПРОВЕДЕНИЯ ВЫЧИСЛИТЕЛЬНЫХ ЭКСПЕРИМЕНТОВ
4 ОЦЕНКА РЕЗУЛЬТАТОВ ВЫЧИСЛИТЕЛЬНЫХ ЭКСПЕРИМЕНТОВ
5 ЭКОНОМИЧЕСКАЯ ОЦЕНКА РЕЗУЛЬТАТОВ ИССЛЕДОВАНИЯ
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
ПРИЛОЖЕНИЕ
Под понятием распознавания речи скрывается огромная сфера инженерной и научной деятельности. Распознавание речи является одной из современных наук. Суть процедуры распознавания речи заключается в понимании речи и преобразовании ее текстовой вид. Системы распознавания речи разрабатываются с целью использования новых и современных методов ввода данных, которые позволят избавить пользователя от использования классических методов введения данных, что в свою очередь приведет к упрощению, улучшению, ускорению процесса ввода команд и данных. Важность разработки эффективных систем распознавания речи заключается в возможности упрощения жизни человека. В настоящее время существует множество систем распознавания речи, имеющие различные параметры и характеристики.
Развитие компьютеров и их совершенствование является главным фактором, который вызвал быстрое развитие программ распознавания речи. Программы распознавания речи требуют значительных объемов памяти, и большой вычислительной мощности.
Потребность в большой мощностью, требуемой для систем распознавания речи, обусловлена необходимостью выполнения сложных операций. В общем виде процедура распознавания речи состоит из нескольких этапов. Сначала осуществляется регистрация речи микрофоном. Затем результаты эта речи оцифруется звуковой картой. После оцифровки записанная речь сохраняется в цифровом виде с разрядностью 16 бит и частотой дискретизации 48000 Гц для дальнейшей обработки. После этого осуществляется анализ речевого сигнала с целью выделения высокочастотных (согласных) и низкочастотных (гласных) частей речи. На заключительном этапе осуществляется сравнение полученных фрагментов с фонемами с целью определения наиболее точного эквивалента [9].
До сих пор использование систем распознавания речи ещё сталкивается со многими препятствиями. Программы распознавания речи применяются во многих областях современного мира: умный дом, бытовые технические устройства, навигационная система автомобилей, для задания команд ноутбукам и телефонам, предоставление социальных сервисов для инвалидов, в системах телефонии «интерактивные голосовые меню», автоматический перевод, в отчётах судов, голосовая почта и голосовой поиск в интернете и т.д.
Нет идеальной системы распознавания речи, которая работает с точностью 100%, потому что есть много факторов, уменьшающих точность. Это могут быть технические факторы, и факторы, связанные с пользователем. К основным факторам снижения точности распознавания речи относится:
1. Слабость звука по сравнению с шумом. В ситуациях, когда возникают посторонние шумы помещения, улицы и т.д., возникают помехи и интерференция звуков, что приводит к ошибкам системы распознавания речи.
2. Интерференционный разговор. Речь идет об одновременном разговоре двух и более человек. В этом случае при работе системы возникают ошибки, так как она не может выделить речь только одного человека.
3. Необходимость использования современных компьютеров для выполнения длительных статических процессов [26].
Для того чтобы программы распознавания речи выполняли ожидаемые от них требования, с начала необходимо преодолеть препятствия, которые мешают им работать. Для этого необходимо развивать словари и алгоритмы этих систем, что должно позволить увеличить точность распознавания. Кроме того необходима разработка алгоритмов позволяющих выделять речь из всех видов шумов, помех, остальных звуков, которые оказывают влияние на качество распознавания речи.
С течением времени становилось более очевидным, что использование технологии общения человека с компьютером голосом расширяется. Управление машиной голосом становится возможным в режиме реальном времени, появилась технология защиты систем голосом, появились системы перевода речи в текст. Все это благодаря, технологии распознавания речи.
Много из исследований в настоящее время посвящены процессу распознавания речи. Эти работы ищут более естественные средств общения человека с машиной, среди которых первое место занимает речевой ввод информации в компьютер. Компания google добилась хорошие результаты в этой области, но подробности использованных технологий компанией google еще неизвестны. Распознавание речи встречается с множеством проблем, которые ограничивает быстрое развитие и осложняют процесс и уменьшают производительность этой технологии, и до сих пор, учёные и исследователи еще не нашли точные решения им. Из этих проблем: различие языков, спецификация произношения, шумы, акценты, ударения и т.п.
Голосовое управление машиной человеком основано на технологии распознавания речи. Системы распознавания речи получают колебания воздуха при вводе через микрофон, и сравнивают их с записанными словами в сохраненной в системе базе данных. Чем больше записанные слов в базе, Тем лучше результаты распознавания [14].
Существуют два вида технологий распознавания голоса: распознавание, зависящее от диктора, и распознавания не зависящее от диктора, т.е. система способна распознавать речи не в зависимость от диктора.
Интеллектуальные системы распознавания речи используются в операторах связи. И эти системы позволяют снизить нагрузки на операторов и секретарей, сократить расходы на оплату труда и повысить производительность систем обслуживания [19].
В настоящее время, всё системы распознавания речи основаны на сборе информации, необходимой для осуществления процесса распознавания. Задача распознавания речи зависит от качества, записанной речи. Но даже при распознавании небольших сигналов, еще невозможно осуществлять прямую трансформацию этих сигналов в лингвистические символы, что является желательным результатом.
И поэтому, осуществляется процесс сокращения объёма информацию, путём, выполнения процесс, в котором осуществляется первоначальное трансформирование информации для сокращения, чтобы подвергать ее анализу с помощью компьютера.
Целью данной ВКР является исследованию эффективности применения существующих признаков речи и мер близости в процессе распознавания речи.
Для достижения цели надо решить задачи:
1) Исследовать подходы получения признаков для отрезков речевых сигналов;
2) разработать алгоритмы получения время-частотных признаков отрезков звуковых сигналов и алгоритмов нахождения мер близости;
3) провести вычислительные эксперименты.
Пояснительная записка состоит из введения, пяти глав, заключения, списка литературы, приложения А, и приложения Б. В первой главе рассмотрены анализ признаковых пространств в задачах распознавания речи. Во второй главе составляется меры близости, применяемые в задачах распознавания речи. В третьей главе описывается методика проведения вычислительных экспериментов. В четвёртой главе предлагается оценка результатов вычислительных экспериментов. В пятой главе представлена экономическая часть.
Развитие компьютеров и их совершенствование является главным фактором, который вызвал быстрое развитие программ распознавания речи. Программы распознавания речи требуют значительных объемов памяти, и большой вычислительной мощности.
Потребность в большой мощностью, требуемой для систем распознавания речи, обусловлена необходимостью выполнения сложных операций. В общем виде процедура распознавания речи состоит из нескольких этапов. Сначала осуществляется регистрация речи микрофоном. Затем результаты эта речи оцифруется звуковой картой. После оцифровки записанная речь сохраняется в цифровом виде с разрядностью 16 бит и частотой дискретизации 48000 Гц для дальнейшей обработки. После этого осуществляется анализ речевого сигнала с целью выделения высокочастотных (согласных) и низкочастотных (гласных) частей речи. На заключительном этапе осуществляется сравнение полученных фрагментов с фонемами с целью определения наиболее точного эквивалента [9].
До сих пор использование систем распознавания речи ещё сталкивается со многими препятствиями. Программы распознавания речи применяются во многих областях современного мира: умный дом, бытовые технические устройства, навигационная система автомобилей, для задания команд ноутбукам и телефонам, предоставление социальных сервисов для инвалидов, в системах телефонии «интерактивные голосовые меню», автоматический перевод, в отчётах судов, голосовая почта и голосовой поиск в интернете и т.д.
Нет идеальной системы распознавания речи, которая работает с точностью 100%, потому что есть много факторов, уменьшающих точность. Это могут быть технические факторы, и факторы, связанные с пользователем. К основным факторам снижения точности распознавания речи относится:
1. Слабость звука по сравнению с шумом. В ситуациях, когда возникают посторонние шумы помещения, улицы и т.д., возникают помехи и интерференция звуков, что приводит к ошибкам системы распознавания речи.
2. Интерференционный разговор. Речь идет об одновременном разговоре двух и более человек. В этом случае при работе системы возникают ошибки, так как она не может выделить речь только одного человека.
3. Необходимость использования современных компьютеров для выполнения длительных статических процессов [26].
Для того чтобы программы распознавания речи выполняли ожидаемые от них требования, с начала необходимо преодолеть препятствия, которые мешают им работать. Для этого необходимо развивать словари и алгоритмы этих систем, что должно позволить увеличить точность распознавания. Кроме того необходима разработка алгоритмов позволяющих выделять речь из всех видов шумов, помех, остальных звуков, которые оказывают влияние на качество распознавания речи.
С течением времени становилось более очевидным, что использование технологии общения человека с компьютером голосом расширяется. Управление машиной голосом становится возможным в режиме реальном времени, появилась технология защиты систем голосом, появились системы перевода речи в текст. Все это благодаря, технологии распознавания речи.
Много из исследований в настоящее время посвящены процессу распознавания речи. Эти работы ищут более естественные средств общения человека с машиной, среди которых первое место занимает речевой ввод информации в компьютер. Компания google добилась хорошие результаты в этой области, но подробности использованных технологий компанией google еще неизвестны. Распознавание речи встречается с множеством проблем, которые ограничивает быстрое развитие и осложняют процесс и уменьшают производительность этой технологии, и до сих пор, учёные и исследователи еще не нашли точные решения им. Из этих проблем: различие языков, спецификация произношения, шумы, акценты, ударения и т.п.
Голосовое управление машиной человеком основано на технологии распознавания речи. Системы распознавания речи получают колебания воздуха при вводе через микрофон, и сравнивают их с записанными словами в сохраненной в системе базе данных. Чем больше записанные слов в базе, Тем лучше результаты распознавания [14].
Существуют два вида технологий распознавания голоса: распознавание, зависящее от диктора, и распознавания не зависящее от диктора, т.е. система способна распознавать речи не в зависимость от диктора.
Интеллектуальные системы распознавания речи используются в операторах связи. И эти системы позволяют снизить нагрузки на операторов и секретарей, сократить расходы на оплату труда и повысить производительность систем обслуживания [19].
В настоящее время, всё системы распознавания речи основаны на сборе информации, необходимой для осуществления процесса распознавания. Задача распознавания речи зависит от качества, записанной речи. Но даже при распознавании небольших сигналов, еще невозможно осуществлять прямую трансформацию этих сигналов в лингвистические символы, что является желательным результатом.
И поэтому, осуществляется процесс сокращения объёма информацию, путём, выполнения процесс, в котором осуществляется первоначальное трансформирование информации для сокращения, чтобы подвергать ее анализу с помощью компьютера.
Целью данной ВКР является исследованию эффективности применения существующих признаков речи и мер близости в процессе распознавания речи.
Для достижения цели надо решить задачи:
1) Исследовать подходы получения признаков для отрезков речевых сигналов;
2) разработать алгоритмы получения время-частотных признаков отрезков звуковых сигналов и алгоритмов нахождения мер близости;
3) провести вычислительные эксперименты.
Пояснительная записка состоит из введения, пяти глав, заключения, списка литературы, приложения А, и приложения Б. В первой главе рассмотрены анализ признаковых пространств в задачах распознавания речи. Во второй главе составляется меры близости, применяемые в задачах распознавания речи. В третьей главе описывается методика проведения вычислительных экспериментов. В четвёртой главе предлагается оценка результатов вычислительных экспериментов. В пятой главе представлена экономическая часть.
Цель данной работы была достигнута и ожидаемые результаты были получены. Исследовали параметры входных речевых сигналов в частотной области и выполнили процесс нахождения сходства этих параметров мерами близости и получили результаты вычислительных экспериментов.
Были получены следующие результаты:
• Разработали методику оценки для процесса сравнения признаков речевых сигналов;
• Провели сравнение признаков речи (спектр, кепстр и мел-кепстр) по мерам близости: евклидово расстояние, среднеквадратическое отклонение, ковариация, расстояние Махланобиса и корреляция;
• Графики сравнения речевых звуков, на которых отображается гипотеза принятая решающей функцией; порогов ошибок первого и второго рода, и индивидуальных порогов;
• Таблицы вероятности ошибок первого и второго рода при распознавании русских и арабских звуков.
По результатам вычислительных экспериментов можно сделать вывод, что мел-кепстральные коэффициенты речевых сигналов с использованием среднеквадратического отклонения в качестве меры близости даёт самый лучший результат сходства речевых сигналов. И количество точек Фурье при вычислении частотных признаков речевых сигналов слабо влияет на результат. И большее количество частотных интервалов мел-кепстра улучшает результат распознавания.
Самые лучшие результаты получили арабские звуки: «&» «с» «э» «£» «л», и русские звуки: «ф» «у» «э» «ю». А самые худшие результаты получили арабские звуки: «-» «j», «£» «Ф>, «J» «о», и русские звуки: «в» «г» «д» «м» «ы».
Были получены следующие результаты:
• Разработали методику оценки для процесса сравнения признаков речевых сигналов;
• Провели сравнение признаков речи (спектр, кепстр и мел-кепстр) по мерам близости: евклидово расстояние, среднеквадратическое отклонение, ковариация, расстояние Махланобиса и корреляция;
• Графики сравнения речевых звуков, на которых отображается гипотеза принятая решающей функцией; порогов ошибок первого и второго рода, и индивидуальных порогов;
• Таблицы вероятности ошибок первого и второго рода при распознавании русских и арабских звуков.
По результатам вычислительных экспериментов можно сделать вывод, что мел-кепстральные коэффициенты речевых сигналов с использованием среднеквадратического отклонения в качестве меры близости даёт самый лучший результат сходства речевых сигналов. И количество точек Фурье при вычислении частотных признаков речевых сигналов слабо влияет на результат. И большее количество частотных интервалов мел-кепстра улучшает результат распознавания.
Самые лучшие результаты получили арабские звуки: «&» «с» «э» «£» «л», и русские звуки: «ф» «у» «э» «ю». А самые худшие результаты получили арабские звуки: «-» «j», «£» «Ф>, «J» «о», и русские звуки: «в» «г» «д» «м» «ы».
Подобные работы
- ИССЛЕДОВАНИЕ ПРОСТРАНСТВ ПРИЗНАКОВ И МЕР БЛИЗОСТИ В ЗАДАЧАХ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СИГНАЛОВ
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 4280 р. Год сдачи: 2018 - СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД ДЛЯ ПАРАЛЛЕЛЬНЫХ АРХИТЕКТУР
Диссертации (РГБ), технология конструкционных материалов. Язык работы: Русский. Цена: 500 р. Год сдачи: 2005 - Распознавание речи с использованием алгоритмов глубокого обучения
Магистерская диссертация, физика. Язык работы: Русский. Цена: 4960 р. Год сдачи: 2020 - РАЗРАБОТКА И ИССЛЕДОВАНИЕ АЛГОРИТМА СКРЫТОЙ ПЕРЕДАЧИ
СИГНАЛА
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 4760 р. Год сдачи: 2018 - АУТЕНТИФИКАЦИЯ ПОЛЬЗОВАТЕЛЯ С ПОМОЩЬЮ СИСТЕМЫ РАСПОЗНАВАНИЯ ГОЛОСА
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4900 р. Год сдачи: 2018 - РАЗРАБОТКА АЛГОРИТМА СКРЫТНОЙ ПЕРЕДАЧИ РЕЧЕВОГО СИГНАЛА
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 4265 р. Год сдачи: 2016 - ИСПОЛЬЗОВАНИЕ РАСПОЗНАВАНИЯ ОБРАЗОВ ДЛЯ ОБРАБОТКИ И ВОССТАНОВЛЕНИЯ МУЗЫКАЛЬНЫХ СИГНАЛОВ
Диссертации (РГБ), радиотехника. Язык работы: Русский. Цена: 500 р. Год сдачи: 2003 - ВЫЯВЛЕНИЕ УЧАСТКОВ АКТИВНОСТИ РЕЧИ В ЗАДАЧАХ СТЕГАНОГРАФИИ
Магистерская диссертация, информационные системы. Язык работы: Русский. Цена: 4870 р. Год сдачи: 2017 - СУБПОЛОСНАЯ ИДЕНТИФИКАЦИЯ ДИКТОРОВ
Магистерская диссертация, информационные системы. Язык работы: Русский. Цена: 4830 р. Год сдачи: 2017



