Тема: РАСПОЗНАВАНИЕ ГОЛОСА ДЛЯ ЗАДАЧ ИДЕНТИФИКАЦИИ И АУТЕНТИФИКАЦИИ С ПОМОЩЬЮ НЕЙРОННОЙ СЕТИ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Принципы распознавания голоса и аутентификации на их основе 5
1.1. Общие принципы биометрии 5
1.2. Общие принципы обработки голоса 8
1.3. Общие принципы распознавания голоса 13
1.4. Нейросетевой анализ голоса 14
1.5. Аутентификация на основе систем распознавания голоса 18
2. Алгоритм обработки и распознавания голоса 21
2.1. Алгоритм обработки 21
2.1.1. Разбиение сигнала на фреймы 21
2.1.2. Использование весовой функции 22
2.1.3. Получение спектра 22
2.1.4. Фильтрация 23
2.1.5. Косинусное преобразование 25
2.2. Алгоритм распознавания 26
3. Разработанное программное обеспечение 30
3.1. Функциональные возможности и алгоритм работы программы 30
3.1.1. Чтение структуры входного файла 32
3.1.2. Основные функции программы обработки 33
3.1.3. Построение нейросети для аутентификации 35
3.2. Результаты работы и тестирования программы 36
Заключение 40
Список литературы
📖 Введение
Для защиты данных чаще всего используются системы вида: логин-пароль. Пароль - комбинация различных символов, не является надёжным способом защиты информации, а тем более методом предоставления доступа. Такие системы можно обмануть, используя чужое имя - логин. Но одного логина недостаточно, необходимо знать некую идентифицирующую информацию - пароль, которым, обладает конкретный пользователь. Узнав пароль, злоумышленник, выдав себя за сотрудника организации, может получить ресурсы, доступные пользователю в соответствии с его полномочиями. В результате могут быть предприняты разные противоправные действия, вплоть до кражи или уничтожения информации, либо вывода из строя информационной системы.
На данный момент существует множество вариантов идентификации и аутентификации пользователей с помощью биометрических параметров. Данный способ позволяет максимально точно можно идентифицировать человека, в его основе лежит принцип распознавания и сравнения уникальных характеристик человеческого организма. В качестве источников биометрических характеристик можно использовать: отпечатки пальцев, сетчатку и радужную оболочку глаз, голос, лицо, подпись или походка. Главным преимуществом является то, что их нельзя потерять или забыть, в отличии от пароля, так как они являются неотъемлемой частью каждого человека.
Одним из перспективных направлений в биометрической идентификации выделяют распознавание пользователя по голосу. Преимуществом таких систем является низкая стоимость и простота использования, так как для получения
доступа необходимо произнести контрольную или произвольную фразу. С другой стороны, количество ошибок больше и точность данного метода меньше, по сравнению с системами, использующими иные биометрические параметры, а также высокая сложность в процессе распознавания пользователей. Для распознавания пользователей, в настоящее время, всё чаще используют нейронные сети, в результате работы которых существенно повышается точность системы. Нейронные сети обладают большими преимуществами, по сравнению со стандартными алгоритмами распознавания голоса. Одним из главных плюсов является высокое быстродействие, а также возможность настраивать большое количество пороговых параметров, что также позволяет повысить точность распознавания диктора.
Цель данной работы - разработка программы для обработки голоса и создание нейронной сети для распознавания пользователей по звуковой фонограмме. Для достижения поставленной цели, необходимо решить следующие задачи:
1) изучить основные методы обработки голоса и работу с нейронными сетями для распознавания голоса;
2) создать базу фонограмм дикторов для обучения и тестирования нейронной сети;
3) разработать программу для обработки звуковых фонограмм;
4) создать и обучить нейронную сеть для распознавания диктора;
5) выполнить тестирование работы нейросетевого алгоритма и провести анализ полученных результата
✅ Заключение
2. Разработано программное обеспечение для получения mel-частотных кепстральных коэффициентов на основе обработки звуковых фонограмм. Программа выполняет следующие функции:
1) считывание фонограммы из wav-файла длительностью 500 мс;
2) обработка фонограммы, включающая следующие этапы:
a) деление фонограммы на фреймы по 10 мс;
b) нахождение спектра каждого фрейма с помощью БПФ;
3) нахождение mel-частотных кепстральных коэффициентов, состоящее из следующих этапов:
a) наложение mel-фильтра на спектр каждого фрейма;
b) получение mel-частотных кепстральных коэффициентов с помощью дискретного косинусного преобразования;
4) запись полученных mel-частотных кепстральных коэффициентов в файл для дальнейшей обработки в нейронной сети.
3. Разработана и обучена нейронная сеть для задачи распознавания диктора по голосу. Обучение проводилось от 1 до 50 тысяч итераций. Размерность нейросети изменялась с 20 до 100 нейронов.
4. Создано две базы данных звуковых фонограмм. Длительность каждой фонограммы 500 мс, частота дискретизации 16 кГц, разрядность 16 бит.
1) База данных для обучения нейросети состоит из 100 фонограмм пяти пользователей.
2) База данных для тестирования содержит 56 фонограмм семи
пользователей среди которых двое являются неизвестными.
5. Выявлены оптимальные параметры для распознавания: размерность нейросети 100 нейронов и количество итераций в обучении 10 тысяч. Для данных параметров рассчитаны значения FAR = 3,6% и FRR = 7,1%.



