ГРАФИЧЕСКИЙ СПОСОБ ВЫДЕЛЕНИЯ УЧАСТКОВ, СОСТОЯЩИХ ИЗ ШУМА, В РЕЧЕВОМ ФАЙЛЕ
|
ВВЕДЕНИЕ
1. ИССЛЕДОВАНИЕ ПРОБЛЕМЫ ВЫДЕЛЕНИЯ УЧАСТКОВ,СОСТОЯЩИХ ИЗ ШУМА, В РЕЧЕВОМ ФАЙЛЕ б
1.1. Общие сведения б
1.2. Ключевые понятия
1.2.1. Фильтрация и фильтры
1.2.2. Преобразование Фурье 8
1.2.3. Преобразование Гильберта 10
1.3. Общая структура алгоритма обнаружения участков, состоящих из шума в речевом файле 10
1.4. Методы обнаружения участков шума в сигнале 12
1.4.1. Анализ сигнала во временной области 12
1.4.2. Анализ сигнала в частотной области 15
2. РАЗРАБОТКА ГРАФИЧЕСКОГО СПОСОБА ВЫДЕЛЕНИЯ УЧАСТКОВ,СОСТОЯЩИХ ИЗ ШУМА, В РЕЧЕВОМ ФАЙЛЕ. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ. ЭКСПЕРИМЕНТЫ
2.1. Разработка графического способа обнаружения участков, состоящих из шума, в речевом файле
2.2. Разработка и создание программного обеспечения системы, позволяющего графически обнаружить участки, состоящие из шума, в речевом файле 24
2.2.1. Выбор состава технических и программных средств24
2.2.2. Описание системы25
2.3. Исследование качества графического способа выделения участков, состоящих из шума, в речевом файле 28
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА
ПРИЛОЖЕНИЕ
1. ИССЛЕДОВАНИЕ ПРОБЛЕМЫ ВЫДЕЛЕНИЯ УЧАСТКОВ,СОСТОЯЩИХ ИЗ ШУМА, В РЕЧЕВОМ ФАЙЛЕ б
1.1. Общие сведения б
1.2. Ключевые понятия
1.2.1. Фильтрация и фильтры
1.2.2. Преобразование Фурье 8
1.2.3. Преобразование Гильберта 10
1.3. Общая структура алгоритма обнаружения участков, состоящих из шума в речевом файле 10
1.4. Методы обнаружения участков шума в сигнале 12
1.4.1. Анализ сигнала во временной области 12
1.4.2. Анализ сигнала в частотной области 15
2. РАЗРАБОТКА ГРАФИЧЕСКОГО СПОСОБА ВЫДЕЛЕНИЯ УЧАСТКОВ,СОСТОЯЩИХ ИЗ ШУМА, В РЕЧЕВОМ ФАЙЛЕ. РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ. ЭКСПЕРИМЕНТЫ
2.1. Разработка графического способа обнаружения участков, состоящих из шума, в речевом файле
2.2. Разработка и создание программного обеспечения системы, позволяющего графически обнаружить участки, состоящие из шума, в речевом файле 24
2.2.1. Выбор состава технических и программных средств24
2.2.2. Описание системы25
2.3. Исследование качества графического способа выделения участков, состоящих из шума, в речевом файле 28
ЗАКЛЮЧЕНИЕ
ЛИТЕРАТУРА
ПРИЛОЖЕНИЕ
Любой речевой файл помимо основного контента (речи), как правило, содержит также участки, состоящие только из шума. Сегментация сигнала с целью выделения участков, содержащих речь, и участков, состоящих из шума, (далее - шумовые участки) является важным этапом в предварительной обработке звуковых сигналов. Обнаружение шумовых участков сигнала востребовано в качестве первого шага во многих задачах цифровой обработки сигналов, таких как задача улучшения качества речевого сигнала, задача распознавания речи и т.п., а также в программных комплексах, нацеленных на редактирование аудиоматериалов (например, Adobe Audition). В телекоммуникационных системах сегментация сигнала используется для уменьшения объема передаваемых данных благодаря исключению шумовых участков. В частности, она широко применяется в технологиях VoIP, ISDN, в сотовых системах связи [1]. Таким образом, на сегодняшний день проблема детектирования участков шума является достаточно актуальной и выбрана предметом настоящего исследования.
Предложено множество методов, решающих поставленную задачу. Ранние алгоритмы основывались на оценке таких характеристик сигнала, как кратковременная энергия сигнала (англ. short-term energy) [2], число переходов через ноль (англ. zero-krossing rate) [3]. Эти характеристики широко использовались в виду своей низкой вычислительной сложности. Однако у них был серьезный недостаток - они сильно зависели от уровня шума. Поэтому на смену им пришли алгоритмы, построенные на основе оценок спектральной энтропии [4], статистик высших порядков [5] и др. Предлагаются также решения с использованием алгоритмов машинного обучения с учителем, требующие достаточно больших вычислительных ресурсов: CART (Classification and Regression Tree) [6], ANN (Artificial Neural-Network) [7]. Помимо этого, некоторые методы используют модели шумов или вообще представляют собой объединение нескольких простых алгоритмов [8], [9].
Мотивацией данного исследования послужило отсутствие точного решения поднятой проблемы. Согласно [8], идеальный алгоритм обнаружения участков, состоящих из шума, должен иметь следующие характеристики:
• точность. Алгоритм должен давать как можно меньшую ошибку в классификации участков сигнала на шум и речь. Для оценки точности используются значения вероятности принятия участка речи за шумовой участок (ошибка первого рода) и вероятности принятия шумового участка за речевой (ошибка второго рода), а также значение отношения общей длины неправильно классифицированных участков к длине правильно классифицированных участков.
• низкая оценка сложности. Алгоритм должен быть прост в вычислительном смысле с целью возможности применения в реальном времени, т.е. алгоритм должен выполняться за минимально возможное время.
• возможность применения без информации о присутствующем шуме. Фоновый шум может быть различной формы и мощности, однако при работе алгоритма эти и другие характеристики шума не известны.
• устойчивость к ОСШ (отношение сигнал/шум - безразмерная величина, равная отношению мощности полезного сигнала к мощности шума [10]). Алгоритм должен одинаково хорошо работать как в случае высокого ОСШ, когда средняя амплитуда шума значительно меньше средней амплитуды речевого сигнала, так и в случае низкого ОСШ.
Несмотря на множественность предлагаемых алгоритмов, решения, удовлетворяющего всем указанным требованиям, нет. Это связано, в первую очередь, с некоторой противоречивостью выдвинутых критериев. Так, к примеру, при повышении уровня устойчивости к ОСШ и точности алгоритм неуклонно усложняется и становится более вычислительно затратным. И наоборот: простые методы сегментации обычно недостаточно точны и надежны, хотя порой они и дают лучший результат, нежели сложные алгоритмы. Поэтому в работе в качестве объекта исследования рассматривается новый способ обнаружения участков шума в речевом сигнале - графический. Предлагаемый метод основывается на предположении о том, что во временной области участки сигнала, состоящие только из шума, имеют прямоугольную форму, тогда как участки с речью, как правило, более неправильной формы. Предполагается, что такой метод даст результаты не хуже известных алгоритмов детектирования шума, таких как алгоритм на основе оценки энтропии («Robust entropy based endpoint detection for speech recognition in noisy environments» [4]), и алгоритм, построенный на базе MULSE («A new robust voice activity detection method based on genetic algorithm» [11]).
Цель работы - разработка и создание системы, позволяющей в речевом файле обнаружить графически участки чистого шума и выделить их. Поставленная цель предполагает выполнение следующих задач:
I. исследование проблемы выделения участков, состоящих из шума, в речевом файле;
II. разработка графического способа выделения участков, состоящих из шума, в речевом файле.
Таким образом, в первой главе работы исследуется проблема обнаружения участков, состоящих из шума, в речевом файле, и проводится ее комплексный анализ.
Во второй главе осуществляется разработка и создание программного обеспечения системы, позволяющего графически обнаружить участки, состоящие из шума, в речевом файле, а также исследуется качество графического способа в сравнении с методами [4] и [11].
Предложено множество методов, решающих поставленную задачу. Ранние алгоритмы основывались на оценке таких характеристик сигнала, как кратковременная энергия сигнала (англ. short-term energy) [2], число переходов через ноль (англ. zero-krossing rate) [3]. Эти характеристики широко использовались в виду своей низкой вычислительной сложности. Однако у них был серьезный недостаток - они сильно зависели от уровня шума. Поэтому на смену им пришли алгоритмы, построенные на основе оценок спектральной энтропии [4], статистик высших порядков [5] и др. Предлагаются также решения с использованием алгоритмов машинного обучения с учителем, требующие достаточно больших вычислительных ресурсов: CART (Classification and Regression Tree) [6], ANN (Artificial Neural-Network) [7]. Помимо этого, некоторые методы используют модели шумов или вообще представляют собой объединение нескольких простых алгоритмов [8], [9].
Мотивацией данного исследования послужило отсутствие точного решения поднятой проблемы. Согласно [8], идеальный алгоритм обнаружения участков, состоящих из шума, должен иметь следующие характеристики:
• точность. Алгоритм должен давать как можно меньшую ошибку в классификации участков сигнала на шум и речь. Для оценки точности используются значения вероятности принятия участка речи за шумовой участок (ошибка первого рода) и вероятности принятия шумового участка за речевой (ошибка второго рода), а также значение отношения общей длины неправильно классифицированных участков к длине правильно классифицированных участков.
• низкая оценка сложности. Алгоритм должен быть прост в вычислительном смысле с целью возможности применения в реальном времени, т.е. алгоритм должен выполняться за минимально возможное время.
• возможность применения без информации о присутствующем шуме. Фоновый шум может быть различной формы и мощности, однако при работе алгоритма эти и другие характеристики шума не известны.
• устойчивость к ОСШ (отношение сигнал/шум - безразмерная величина, равная отношению мощности полезного сигнала к мощности шума [10]). Алгоритм должен одинаково хорошо работать как в случае высокого ОСШ, когда средняя амплитуда шума значительно меньше средней амплитуды речевого сигнала, так и в случае низкого ОСШ.
Несмотря на множественность предлагаемых алгоритмов, решения, удовлетворяющего всем указанным требованиям, нет. Это связано, в первую очередь, с некоторой противоречивостью выдвинутых критериев. Так, к примеру, при повышении уровня устойчивости к ОСШ и точности алгоритм неуклонно усложняется и становится более вычислительно затратным. И наоборот: простые методы сегментации обычно недостаточно точны и надежны, хотя порой они и дают лучший результат, нежели сложные алгоритмы. Поэтому в работе в качестве объекта исследования рассматривается новый способ обнаружения участков шума в речевом сигнале - графический. Предлагаемый метод основывается на предположении о том, что во временной области участки сигнала, состоящие только из шума, имеют прямоугольную форму, тогда как участки с речью, как правило, более неправильной формы. Предполагается, что такой метод даст результаты не хуже известных алгоритмов детектирования шума, таких как алгоритм на основе оценки энтропии («Robust entropy based endpoint detection for speech recognition in noisy environments» [4]), и алгоритм, построенный на базе MULSE («A new robust voice activity detection method based on genetic algorithm» [11]).
Цель работы - разработка и создание системы, позволяющей в речевом файле обнаружить графически участки чистого шума и выделить их. Поставленная цель предполагает выполнение следующих задач:
I. исследование проблемы выделения участков, состоящих из шума, в речевом файле;
II. разработка графического способа выделения участков, состоящих из шума, в речевом файле.
Таким образом, в первой главе работы исследуется проблема обнаружения участков, состоящих из шума, в речевом файле, и проводится ее комплексный анализ.
Во второй главе осуществляется разработка и создание программного обеспечения системы, позволяющего графически обнаружить участки, состоящие из шума, в речевом файле, а также исследуется качество графического способа в сравнении с методами [4] и [11].
В работе изучена проблема обнаружения участков шума в речевом файле, проведен анализ ее условий и требований. Разработан и теоретически обоснован новый способ детектирования шумовых участков сигнала - графический, - а также создана открытая система, реализующая его. Рассмотрены и проанализированы основные методы решения поднятой проблемы, а также сформулированы основные критерии их оценки. Выявлены основные сложности, которые необходимо было учесть при разработке метода выделения в речевом файле участков, состоящих из шума.
Графический способ был протестирован на базе чистых от шума речевых сигналов, микшированных с шумом различной мощности, и сравнен с традиционными алгоритмами детектирования шума: алгоритмом, использующим контраст энтропии и алгоритмом, построенным на базе оценки MULSE.
Исследование показало возможность применения графического способа на практике. Разработанный метод по качеству работы не уступает алгоритмам на базе оценке энтропии и оценке MULSE, в некоторых случаях (уровень ОСШ 10-25) показывая лучшие результаты. Графический способ обнаружения участков шума речевого сигнала показал хорошие результаты даже в условиях низкого уровня ОСШ (<1), когда алгоритм на базе MULSE стал неприменим.
Таким образом, графический способ обнаружения участков шума достаточно точен, а также устойчив к относительно низкому уровню ОСШ. При этом среднее время работы метода составило всего 0.307 с., что делает возможным использование алгоритма на практике.
Графический способ был протестирован на базе чистых от шума речевых сигналов, микшированных с шумом различной мощности, и сравнен с традиционными алгоритмами детектирования шума: алгоритмом, использующим контраст энтропии и алгоритмом, построенным на базе оценки MULSE.
Исследование показало возможность применения графического способа на практике. Разработанный метод по качеству работы не уступает алгоритмам на базе оценке энтропии и оценке MULSE, в некоторых случаях (уровень ОСШ 10-25) показывая лучшие результаты. Графический способ обнаружения участков шума речевого сигнала показал хорошие результаты даже в условиях низкого уровня ОСШ (<1), когда алгоритм на базе MULSE стал неприменим.
Таким образом, графический способ обнаружения участков шума достаточно точен, а также устойчив к относительно низкому уровню ОСШ. При этом среднее время работы метода составило всего 0.307 с., что делает возможным использование алгоритма на практике.



