ВВЕДЕНИЕ 3
ГЛАВА 1 ОСНОВНЫЕ ПОЛОЖЕНИЯ ТЕОРИИ ОБНАРУЖЕНИЯ АКТИВНОСТИ РЕЧИ 5
ГЛАВА 2 ОБЗОР МЕТОДОВ КОДИРОВАНИЯ РЕЧЕВОГО СИГНАЛА
2.1 VAD на основе сравнения с энергетическим порогом 10
2.2 VAD на основе коэффициентов линейного предсказания 12
2.3 Метод обнаружения пауз на основе субполосного анализа 14
ГЛАВА 3 ИССЛЕДОВАНИЕ АЛГОРИТМОВ ВЫЯВЛЕНИЯ АКТИВНОСТИ РЕЧИ 18
3.1 Сравнительная оценка работоспособности методов
обнаружения пауз 18
3.2 Оценка выявления исключения пауз на ёмкость речевого
материала 27
3.3 Оценка выявления точности определения границы пауза/речь
на вероятность ошибки декодирования 29
ЗАКЛЮЧЕНИЕ 33
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 35
ПРИЛОЖЕНИЕ А 40
ПРИЛОЖЕНИЕ Б 42
ПРИЛОЖЕНИЕ В 43
ПРИЛОЖЕНИЕ Г 45
ПРИЛОЖЕНИЕ Д 47
ПРИЛОЖЕНИЕ Е 49
ПРИЛОЖЕНИЕ Ж 53
ПРИЛОЖЕНИЕ З
Задача защиты информации от несанкционированного доступа решалась во все времена на протяжении истории человечества. Одним из решений таковой задачи является маскировка информации. Этим занимаются две науки - криптография и стеганография. Целью первой является скрытие информации за счёт шифрования, а второй - передача информации путём сохранения в тайне самого факта передачи. Доминирующую роль среди средств защиты информации играет шифрование сообщений с использованием методов криптографии, хоть они и не могут обеспечить необходимую защищенность каналов связи от несанкционированного доступа к информации со стороны третьих лиц. Поэтому в этих условиях защита информации, основанная на применении средств стеганографии, является целесообразной.
Развитие средств вычислительной техники дало новый толчок для развития стеганографии. Так одним из направлений современной стеганографии является цифровая стеганография [1,11,22], под которой подразумевают скрытие одних данных в другие посредством методов цифровой обработки сигналов. В качестве исходного материала используются цифровые данные, удобные для обмена, хранения и передачи. К таковым относятся речевые данные, которые являются наиболее удобной и естественной формой информационного обмена.
В голосовой связи речь может быть охарактеризована как прерывистый носитель информации из-за пауз, которые в режиме диалога могут занимать до 60% длительности исходных звукозаписей. В причину того, что внедрение информации при использовании стеганографических методов целесообразно осуществлять только в те отрезки речевых данных, где присутствует активная речь [1,11,22,31,36], то задача выявления участков активности речи является актуальной.
Поэтому целью данной работы является оценка эффективности методов выявления активности речи, позволяющих определять границы «активная речь/пауза» (т.е. осуществлять кодирование сигнала).
Для достижения цели научно-исследовательской работы поставлены следующие задачи:
1) обзор основных методов кодирования речевого сигнала;
2) сравнительная оценка работоспособности методов кодирования речевого сигнала;
3) оценка выявления исключения пауз на ёмкость речевого материала;
4) оценка выявления точности определения границ активная речь/пауза на вероятность ошибки декодирования.
Объектом исследования являются методы кодирования речевого сигнала, а предметом исследования - речевые данные.
В работе использованы методы статистического анализа, цифровой обработки речевых данных, линейной алгебры, субполосного анализа/синтеза и вычислительных экспериментов.
Данная работа состоит из Введения, трёх глав, Заключения и Приложений. Работа изложена на 64 страницах машинописного текста, включая 31 рисунок, 7 таблиц и список литературных источников из 47 наименований.
В данной исследовательской работе проведён сопоставительный анализ эффективности нескольких наиболее распространённых методов кодирования речевого сигнала. Данные методы должны быть способны обнаружить границу «активная речь/сигнал», и являются первым шагом в алгоритмах внедрения информации в речь посредством методов стеганографии.
В работе были реализованы алгоритмы VAD на основе сравнения с энергетическим порогом, VAD на основе коэффициентов линейного предсказания, а также метод обнаружения пауз на основе субполосного анализа. Эффективность методов оценивалась с помощью следующих характеристик:
- на основе Ксж - коэффициент сжатия, который характеризует
насколько исключение пауз влияет на общий объём речевого материала
- на основе определения вероятностей ошибок декодирования I и II рода, а именно сколько отсчётов сигнала отсчётов активной речи было воспринято как пауза и наоборот.
В результате сопоставительного анализа были сформулированы следующие выводы:
• методы VAD являются работоспособными только при эмпирической подстройке параметров во время обучения, т.е. не являются адаптивными, в отличии от метода обнаружения пауз на основе субполосного анализа.
• метод обнаружения пауз на основе субполосного анализа является оптимальным с точки зрения сжатия речевого материала при исключении пауз. Это обосновывается тем, что значения К при подобном методе наиболее близки к значению коэффициента сжатия, рассчитанного вручную. В методе VAD на основе сравнения с энергетическим порогом активная речь была воспринята как пауза и информация в сообщении утеряна, а в методе VAD на основе коэффициентов линейного предсказания Ксж слишком мал, что означает, что сжатие за счёт удаления пауз происходит не эффективно.
• Несмотря на то, что минимальное значение вероятности ошибки
II рода соответствует методу VAD на основе сравнения с энергетическим порогом, его нельзя назвать оптимальным, т.к. значение вероятности ошибки I рода достаточно велико, что свидетельствует о том, что в некоторых случаях активная речь была воспринята как пауза. Поэтому с точки зрения минимального значения ошибок I и II рода оптимальным является метод обнаружения пауз на основе субполосного анализа.
Таким образом, выявление участков активности речи наиболее эффективно осуществляется на основе метода обнаружения пауз на основе субполосного анализа, который учитывает основное свойство речевых сигналов, а именно концентрацию энергии сигнала в узкой полосе частот. Поэтому его использование обосновано в задачах поиска активной речи при использовании методов стеганографии.