ВВЕДЕНИЕ 3
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 4
1.1. Описание классификатора 4
1.2. Описание векторов признаков 5
1.2.1. Вычисление MFCC 5
1.2.2. Вычисление FFT 6
1.2.3. Вычисление LPC 6
1.2.4 Критерий Стьюдента для оценки результатов 7
2. ЭКСПЕРИМЕНТЫ 9
2.1. Общие параметры 9
2.2. Реализация в среде разработки 9
2.3. Промежуточные результаты 9
3. АНАЛИЗ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ 24
4. ЗАКЛЮЧЕНИЕ 26
СПИСОК ЛИТЕРАТУРЫ 27
ПРИЛОЖЕНИЕ
Развитие информационных технологий повлекло за собой развитие такой сферы, как обработка сигналов. Цифровая обработка сигналов является основным инструментом обработки звука и изображений.
Сегодня речевые технологии развиваются с большой скоростью. Технология распознавания диктора позволяет использовать голос диктора для его идентификации, например для предоставления доступа к услугам. Сюда же можно отнести: управление удаленным доступом компьютера, голосовая почта, управление личным счетом, покупки по телефону, доступ к конфиденциальной базе данных. Эта новая технология безопасности. Идентификация диктора способна заменить пароли, кодовые фразы, ключи, то есть все то, что может быть потеряно.
Для того чтобы идентифицировать диктора важной задачей является то, что система должна находить неизменные особенности голоса. Сравнение голоса с исходным на прямую не дает точных результатов, поэтому будут использоваться векторы признаков. В этой работе будет рассмотрены три вида коэффициентов и для каждого коэффициента будет определена точность идентификации.
Идентификация диктора — процесс определения личности говорящего по образцу голоса путём сравнения данного образца с шаблонами, занесенными в базу данных.
Целью работы является построение алгоритма идентификации дикторов на основе деревьев решений (CART). Должно быть определено исследование достоверности алгоритма в зависимости от параметров классификатора, длины и типа входных файлов. По результатам исследования будут даны рекомендации по использованию предложенного алгоритма.
Для оценки результатов были выбраны следующие параметры:
а = 10%
toy = 2.093, где а - уровень значимости, toy - квантиль распределения Стьюдента.
Поскольку критическое значение превышает статистику для каждой пары коэффициентов, то среднее значение ошибки можно считать одинаковой для всех коэффициентов.
Однако поскольку время работы MFCC и LPC меньше времени работы FFT, то они желательны для использования в распознавании голоса.
Из параметров машинного обучения показали более точные результаты:
1. Критерий качества разделения: примеси Гини.
2. Количество функций при поиске: n (None).