Тип работы:
Предмет:
Язык работы:


РАСПОЗНАВАНИЕ ГОЛОСА ДЛЯ ЗАДАЧ ИДЕНТИФИКАЦИИ И АУТЕНТИФИКАЦИИ С ПОМОЩЬЮ НЕЙРОННОЙ СЕТИ

Работа №46594

Тип работы

Дипломные работы, ВКР

Предмет

информационная безопасность

Объем работы42
Год сдачи2018
Стоимость4200 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
506
Не подходит работа?

Узнай цену на написание


Введение 3
1. Принципы распознавания голоса и аутентификации на их основе 5
1.1. Общие принципы биометрии 5
1.2. Общие принципы обработки голоса 8
1.3. Общие принципы распознавания голоса 13
1.4. Нейросетевой анализ голоса 14
1.5. Аутентификация на основе систем распознавания голоса 18
2. Алгоритм обработки и распознавания голоса 21
2.1. Алгоритм обработки 21
2.1.1. Разбиение сигнала на фреймы 21
2.1.2. Использование весовой функции 22
2.1.3. Получение спектра 22
2.1.4. Фильтрация 23
2.1.5. Косинусное преобразование 25
2.2. Алгоритм распознавания 26
3. Разработанное программное обеспечение 30
3.1. Функциональные возможности и алгоритм работы программы 30
3.1.1. Чтение структуры входного файла 32
3.1.2. Основные функции программы обработки 33
3.1.3. Построение нейросети для аутентификации 35
3.2. Результаты работы и тестирования программы 36
Заключение 40
Список литературы

В современном мире информация имеет большую ценность. Поэтому вопрос защиты персональных данных, личных или корпоративных документов, либо иной информации особенно важен. Для получения доступа к данным существует процедуры идентификации и аутентификации, в первом случае система устанавливает пользователя, а во втором, на основе полученного идентификатора решает предоставлять доступ пользователю или нет.
Для защиты данных чаще всего используются системы вида: логин-пароль. Пароль - комбинация различных символов, не является надёжным способом защиты информации, а тем более методом предоставления доступа. Такие системы можно обмануть, используя чужое имя - логин. Но одного логина недостаточно, необходимо знать некую идентифицирующую информацию - пароль, которым, обладает конкретный пользователь. Узнав пароль, злоумышленник, выдав себя за сотрудника организации, может получить ресурсы, доступные пользователю в соответствии с его полномочиями. В результате могут быть предприняты разные противоправные действия, вплоть до кражи или уничтожения информации, либо вывода из строя информационной системы.
На данный момент существует множество вариантов идентификации и аутентификации пользователей с помощью биометрических параметров. Данный способ позволяет максимально точно можно идентифицировать человека, в его основе лежит принцип распознавания и сравнения уникальных характеристик человеческого организма. В качестве источников биометрических характеристик можно использовать: отпечатки пальцев, сетчатку и радужную оболочку глаз, голос, лицо, подпись или походка. Главным преимуществом является то, что их нельзя потерять или забыть, в отличии от пароля, так как они являются неотъемлемой частью каждого человека.
Одним из перспективных направлений в биометрической идентификации выделяют распознавание пользователя по голосу. Преимуществом таких систем является низкая стоимость и простота использования, так как для получения
доступа необходимо произнести контрольную или произвольную фразу. С другой стороны, количество ошибок больше и точность данного метода меньше, по сравнению с системами, использующими иные биометрические параметры, а также высокая сложность в процессе распознавания пользователей. Для распознавания пользователей, в настоящее время, всё чаще используют нейронные сети, в результате работы которых существенно повышается точность системы. Нейронные сети обладают большими преимуществами, по сравнению со стандартными алгоритмами распознавания голоса. Одним из главных плюсов является высокое быстродействие, а также возможность настраивать большое количество пороговых параметров, что также позволяет повысить точность распознавания диктора.
Цель данной работы - разработка программы для обработки голоса и создание нейронной сети для распознавания пользователей по звуковой фонограмме. Для достижения поставленной цели, необходимо решить следующие задачи:
1) изучить основные методы обработки голоса и работу с нейронными сетями для распознавания голоса;
2) создать базу фонограмм дикторов для обучения и тестирования нейронной сети;
3) разработать программу для обработки звуковых фонограмм;
4) создать и обучить нейронную сеть для распознавания диктора;
5) выполнить тестирование работы нейросетевого алгоритма и провести анализ полученных результата

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


1. Изучен метод обработки голоса с использованием mel-частотных кепстральных коэффициентов и работа с нейронными сетями для задачи распознавания голоса диктора.
2. Разработано программное обеспечение для получения mel-частотных кепстральных коэффициентов на основе обработки звуковых фонограмм. Программа выполняет следующие функции:
1) считывание фонограммы из wav-файла длительностью 500 мс;
2) обработка фонограммы, включающая следующие этапы:
a) деление фонограммы на фреймы по 10 мс;
b) нахождение спектра каждого фрейма с помощью БПФ;
3) нахождение mel-частотных кепстральных коэффициентов, состоящее из следующих этапов:
a) наложение mel-фильтра на спектр каждого фрейма;
b) получение mel-частотных кепстральных коэффициентов с помощью дискретного косинусного преобразования;
4) запись полученных mel-частотных кепстральных коэффициентов в файл для дальнейшей обработки в нейронной сети.
3. Разработана и обучена нейронная сеть для задачи распознавания диктора по голосу. Обучение проводилось от 1 до 50 тысяч итераций. Размерность нейросети изменялась с 20 до 100 нейронов.
4. Создано две базы данных звуковых фонограмм. Длительность каждой фонограммы 500 мс, частота дискретизации 16 кГц, разрядность 16 бит.
1) База данных для обучения нейросети состоит из 100 фонограмм пяти пользователей.
2) База данных для тестирования содержит 56 фонограмм семи
пользователей среди которых двое являются неизвестными.
5. Выявлены оптимальные параметры для распознавания: размерность нейросети 100 нейронов и количество итераций в обучении 10 тысяч. Для данных параметров рассчитаны значения FAR = 3,6% и FRR = 7,1%.



1. Sussman J., Dalston E., Gumbert S. The effect of speaking style on a locus equation characterization of stop place articulation. - Phonetica, 1998 г.. - 4 : Т. 55.
2. Vyas G., Kumari B. Speaker Recognition System Based on MFCC and DCT // Int. Journ. of Engineering and Advanced Technology. - 2013 г.. - 5 : Т. 2.
3. Wasserman F. Neurocomputer technology: Theory and practice. - 1992.
4. Xuedong H., Acero A., Hsiao-Wuen Hon. Spoken Langage Processing: a guide to theory, algoryithm and system development. - New Jersey : Prentice Hall, 2001.
5. Ахтёров А.В., Кирильченко А.А. Основы теоретической робототехники. Искусственные нейронные сети. - Москва : 2007.
6. Сорокин В.Н., Вьюгин В.В., Тананыкин А.А. Распознавание личности по
голосу: аналитический обзор // Информационные процессы. - Москва : 2012. -1 : Т 12.
7. Вагин В.Н., Ганишев В.А. Клестеризация пользователей по голосу с
помощью улучшенных самоорганизующихся растущих нейронных сетей // Программные продукты и системы. - Москва : Национальный
исследовательский университет «Московский энергетический институт», 2015.¬- С. 136-142.
8. Вагин В.Н., Головина Е.Ю., Загорянская А.А., Фомина М.В. Достоверный и правдоподобный вывод в интеллектуальных системах. - Москва : Физматлит, 2008. - 2-е : 712 с.
9. Ворона В.А., Костенко В.О. Биометрические технологии идентификации в системах контроля и управления доступом // Computational nanotechnology. - 2016. - 3. - С. 224-241.
10. ГОСТ Р ИСО/МЭК 17799 Информационная технология. Практические правила управления информационной безопасностью. - 2005.
11. Евдокимова В.В. Системный подход к определению параметров речевого тракта // Вестник Санкт-Петербургского университета. Серия 9. Филология. Востоковедение. Журналистика. - Москва : 2007. - 2. - С. 144-147.
12. Информационный сайт по радиоэлектронике. - 26 05 2018 г.. -http://microsin.net/programming/PC/wav-format.html.
13. Меньшаков П.А., Мурашко И.А. Методика голосовой идентификации на основе нейронных сетей. - Гомель : 2017. - 106 : Т 4.
14. Сорокин В.Н., Вьюгин В.В., Тананыкин А.А. Расопзнавание личности по голосу: аналитический обзор // Информационные процессы. - Москва : Институт проблем передачи информации, 2012. - Российская академия наук. - 1 : Т 12. - С. 1-30.
15. Филичева Т.Б., Чевелева Н.А. Логопедическая работа в специальном детском саду. - Москва : 1987.
16. Фролов А., Фролов Г Синтез и распознавание речи. Современные решения. - 2013.
17. Чистович Л.А., Венцов А.В, Гранстрем М.П. Физиология речи. Восприятие речи человеком. - Ленинград : "Наука", 1976. - 388 с.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ