РАСПОЗНАВАНИЕ ГОЛОСА ДЛЯ ЗАДАЧ ИДЕНТИФИКАЦИИ И АУТЕНТИФИКАЦИИ С ПОМОЩЬЮ НЕЙРОННОЙ СЕТИ
|
Введение 3
1. Принципы распознавания голоса и аутентификации на их основе 5
1.1. Общие принципы биометрии 5
1.2. Общие принципы обработки голоса 8
1.3. Общие принципы распознавания голоса 13
1.4. Нейросетевой анализ голоса 14
1.5. Аутентификация на основе систем распознавания голоса 18
2. Алгоритм обработки и распознавания голоса 21
2.1. Алгоритм обработки 21
2.1.1. Разбиение сигнала на фреймы 21
2.1.2. Использование весовой функции 22
2.1.3. Получение спектра 22
2.1.4. Фильтрация 23
2.1.5. Косинусное преобразование 25
2.2. Алгоритм распознавания 26
3. Разработанное программное обеспечение 30
3.1. Функциональные возможности и алгоритм работы программы 30
3.1.1. Чтение структуры входного файла 32
3.1.2. Основные функции программы обработки 33
3.1.3. Построение нейросети для аутентификации 35
3.2. Результаты работы и тестирования программы 36
Заключение 40
Список литературы
1. Принципы распознавания голоса и аутентификации на их основе 5
1.1. Общие принципы биометрии 5
1.2. Общие принципы обработки голоса 8
1.3. Общие принципы распознавания голоса 13
1.4. Нейросетевой анализ голоса 14
1.5. Аутентификация на основе систем распознавания голоса 18
2. Алгоритм обработки и распознавания голоса 21
2.1. Алгоритм обработки 21
2.1.1. Разбиение сигнала на фреймы 21
2.1.2. Использование весовой функции 22
2.1.3. Получение спектра 22
2.1.4. Фильтрация 23
2.1.5. Косинусное преобразование 25
2.2. Алгоритм распознавания 26
3. Разработанное программное обеспечение 30
3.1. Функциональные возможности и алгоритм работы программы 30
3.1.1. Чтение структуры входного файла 32
3.1.2. Основные функции программы обработки 33
3.1.3. Построение нейросети для аутентификации 35
3.2. Результаты работы и тестирования программы 36
Заключение 40
Список литературы
В современном мире информация имеет большую ценность. Поэтому вопрос защиты персональных данных, личных или корпоративных документов, либо иной информации особенно важен. Для получения доступа к данным существует процедуры идентификации и аутентификации, в первом случае система устанавливает пользователя, а во втором, на основе полученного идентификатора решает предоставлять доступ пользователю или нет.
Для защиты данных чаще всего используются системы вида: логин-пароль. Пароль - комбинация различных символов, не является надёжным способом защиты информации, а тем более методом предоставления доступа. Такие системы можно обмануть, используя чужое имя - логин. Но одного логина недостаточно, необходимо знать некую идентифицирующую информацию - пароль, которым, обладает конкретный пользователь. Узнав пароль, злоумышленник, выдав себя за сотрудника организации, может получить ресурсы, доступные пользователю в соответствии с его полномочиями. В результате могут быть предприняты разные противоправные действия, вплоть до кражи или уничтожения информации, либо вывода из строя информационной системы.
На данный момент существует множество вариантов идентификации и аутентификации пользователей с помощью биометрических параметров. Данный способ позволяет максимально точно можно идентифицировать человека, в его основе лежит принцип распознавания и сравнения уникальных характеристик человеческого организма. В качестве источников биометрических характеристик можно использовать: отпечатки пальцев, сетчатку и радужную оболочку глаз, голос, лицо, подпись или походка. Главным преимуществом является то, что их нельзя потерять или забыть, в отличии от пароля, так как они являются неотъемлемой частью каждого человека.
Одним из перспективных направлений в биометрической идентификации выделяют распознавание пользователя по голосу. Преимуществом таких систем является низкая стоимость и простота использования, так как для получения
доступа необходимо произнести контрольную или произвольную фразу. С другой стороны, количество ошибок больше и точность данного метода меньше, по сравнению с системами, использующими иные биометрические параметры, а также высокая сложность в процессе распознавания пользователей. Для распознавания пользователей, в настоящее время, всё чаще используют нейронные сети, в результате работы которых существенно повышается точность системы. Нейронные сети обладают большими преимуществами, по сравнению со стандартными алгоритмами распознавания голоса. Одним из главных плюсов является высокое быстродействие, а также возможность настраивать большое количество пороговых параметров, что также позволяет повысить точность распознавания диктора.
Цель данной работы - разработка программы для обработки голоса и создание нейронной сети для распознавания пользователей по звуковой фонограмме. Для достижения поставленной цели, необходимо решить следующие задачи:
1) изучить основные методы обработки голоса и работу с нейронными сетями для распознавания голоса;
2) создать базу фонограмм дикторов для обучения и тестирования нейронной сети;
3) разработать программу для обработки звуковых фонограмм;
4) создать и обучить нейронную сеть для распознавания диктора;
5) выполнить тестирование работы нейросетевого алгоритма и провести анализ полученных результата
Для защиты данных чаще всего используются системы вида: логин-пароль. Пароль - комбинация различных символов, не является надёжным способом защиты информации, а тем более методом предоставления доступа. Такие системы можно обмануть, используя чужое имя - логин. Но одного логина недостаточно, необходимо знать некую идентифицирующую информацию - пароль, которым, обладает конкретный пользователь. Узнав пароль, злоумышленник, выдав себя за сотрудника организации, может получить ресурсы, доступные пользователю в соответствии с его полномочиями. В результате могут быть предприняты разные противоправные действия, вплоть до кражи или уничтожения информации, либо вывода из строя информационной системы.
На данный момент существует множество вариантов идентификации и аутентификации пользователей с помощью биометрических параметров. Данный способ позволяет максимально точно можно идентифицировать человека, в его основе лежит принцип распознавания и сравнения уникальных характеристик человеческого организма. В качестве источников биометрических характеристик можно использовать: отпечатки пальцев, сетчатку и радужную оболочку глаз, голос, лицо, подпись или походка. Главным преимуществом является то, что их нельзя потерять или забыть, в отличии от пароля, так как они являются неотъемлемой частью каждого человека.
Одним из перспективных направлений в биометрической идентификации выделяют распознавание пользователя по голосу. Преимуществом таких систем является низкая стоимость и простота использования, так как для получения
доступа необходимо произнести контрольную или произвольную фразу. С другой стороны, количество ошибок больше и точность данного метода меньше, по сравнению с системами, использующими иные биометрические параметры, а также высокая сложность в процессе распознавания пользователей. Для распознавания пользователей, в настоящее время, всё чаще используют нейронные сети, в результате работы которых существенно повышается точность системы. Нейронные сети обладают большими преимуществами, по сравнению со стандартными алгоритмами распознавания голоса. Одним из главных плюсов является высокое быстродействие, а также возможность настраивать большое количество пороговых параметров, что также позволяет повысить точность распознавания диктора.
Цель данной работы - разработка программы для обработки голоса и создание нейронной сети для распознавания пользователей по звуковой фонограмме. Для достижения поставленной цели, необходимо решить следующие задачи:
1) изучить основные методы обработки голоса и работу с нейронными сетями для распознавания голоса;
2) создать базу фонограмм дикторов для обучения и тестирования нейронной сети;
3) разработать программу для обработки звуковых фонограмм;
4) создать и обучить нейронную сеть для распознавания диктора;
5) выполнить тестирование работы нейросетевого алгоритма и провести анализ полученных результата
1. Изучен метод обработки голоса с использованием mel-частотных кепстральных коэффициентов и работа с нейронными сетями для задачи распознавания голоса диктора.
2. Разработано программное обеспечение для получения mel-частотных кепстральных коэффициентов на основе обработки звуковых фонограмм. Программа выполняет следующие функции:
1) считывание фонограммы из wav-файла длительностью 500 мс;
2) обработка фонограммы, включающая следующие этапы:
a) деление фонограммы на фреймы по 10 мс;
b) нахождение спектра каждого фрейма с помощью БПФ;
3) нахождение mel-частотных кепстральных коэффициентов, состоящее из следующих этапов:
a) наложение mel-фильтра на спектр каждого фрейма;
b) получение mel-частотных кепстральных коэффициентов с помощью дискретного косинусного преобразования;
4) запись полученных mel-частотных кепстральных коэффициентов в файл для дальнейшей обработки в нейронной сети.
3. Разработана и обучена нейронная сеть для задачи распознавания диктора по голосу. Обучение проводилось от 1 до 50 тысяч итераций. Размерность нейросети изменялась с 20 до 100 нейронов.
4. Создано две базы данных звуковых фонограмм. Длительность каждой фонограммы 500 мс, частота дискретизации 16 кГц, разрядность 16 бит.
1) База данных для обучения нейросети состоит из 100 фонограмм пяти пользователей.
2) База данных для тестирования содержит 56 фонограмм семи
пользователей среди которых двое являются неизвестными.
5. Выявлены оптимальные параметры для распознавания: размерность нейросети 100 нейронов и количество итераций в обучении 10 тысяч. Для данных параметров рассчитаны значения FAR = 3,6% и FRR = 7,1%.
2. Разработано программное обеспечение для получения mel-частотных кепстральных коэффициентов на основе обработки звуковых фонограмм. Программа выполняет следующие функции:
1) считывание фонограммы из wav-файла длительностью 500 мс;
2) обработка фонограммы, включающая следующие этапы:
a) деление фонограммы на фреймы по 10 мс;
b) нахождение спектра каждого фрейма с помощью БПФ;
3) нахождение mel-частотных кепстральных коэффициентов, состоящее из следующих этапов:
a) наложение mel-фильтра на спектр каждого фрейма;
b) получение mel-частотных кепстральных коэффициентов с помощью дискретного косинусного преобразования;
4) запись полученных mel-частотных кепстральных коэффициентов в файл для дальнейшей обработки в нейронной сети.
3. Разработана и обучена нейронная сеть для задачи распознавания диктора по голосу. Обучение проводилось от 1 до 50 тысяч итераций. Размерность нейросети изменялась с 20 до 100 нейронов.
4. Создано две базы данных звуковых фонограмм. Длительность каждой фонограммы 500 мс, частота дискретизации 16 кГц, разрядность 16 бит.
1) База данных для обучения нейросети состоит из 100 фонограмм пяти пользователей.
2) База данных для тестирования содержит 56 фонограмм семи
пользователей среди которых двое являются неизвестными.
5. Выявлены оптимальные параметры для распознавания: размерность нейросети 100 нейронов и количество итераций в обучении 10 тысяч. Для данных параметров рассчитаны значения FAR = 3,6% и FRR = 7,1%.
Подобные работы
- Сравнительный анализ методов извлечения признаков аудио сигнала с
помощью нейронных сетей
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 4100 р. Год сдачи: 2023 - ИДЕНТИФИКАЦИЯ ЛИЧНОСТИ НА ОСНОВЕ АЛГОРИТМОВ, ЗАИМСТВОВАННЫХ ИЗ БИОЛОГИИ
Дипломные работы, ВКР, математика. Язык работы: Русский. Цена: 4260 р. Год сдачи: 2018 - Разработка способа повышения безопасности при допуске личного состава к локальной сети.
Дипломные работы, ВКР, информатика. Язык работы: Русский. Цена: 6000 р. Год сдачи: 2012 - Применение биометрических систем идентификации личности
Дипломные работы, ВКР, безопасность жизнедеятельности (БЖД). Язык работы: Русский. Цена: 6700 р. Год сдачи: 2012 - АУТЕНТИФИКАЦИЯ ПОЛЬЗОВАТЕЛЯ ПО ИНДИВИДУАЛЬНОМУ
ЭЛЕКТРОННОМУ ПОЧЕРКУ
Магистерская диссертация, информационные системы. Язык работы: Русский. Цена: 5630 р. Год сдачи: 2017 - Метод идентификации человека по голосу
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4255 р. Год сдачи: 2019 - РАЗРАБОТКА БЕЗОПАСНОГО БИОМЕТРИЧЕСКОГО ДОСТУПА К
КИБЕРФИЗИЧЕСКИМ СИСТЕМАМ
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4800 р. Год сдачи: 2018 - Применение подходов к распознаванию лиц при разработке приложения для учета посещаемости занятий и эмоционального состояния обучающихся
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4285 р. Год сдачи: 2020 - Разработка приложения для биометрической оценки фото и видео
изображений
Дипломные работы, ВКР, информационные системы. Язык работы: Русский. Цена: 4500 р. Год сдачи: 2023



