Тема: Разработка алгоритмического обеспечения идентификации личности по голосу для санкционирования доступа к информации
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Глава 1. Обзор существующих моделей авто- распознавания голоса 7
1.1 Структура систем распознавания дикторов 7
1.2 Dynamic Time Warping 12
1.3 Hidden Markov Model 14
1.4 Vector Quantization 18
1.5 Support Vector Machine 20
1.6 Gaussian Mixture Model 23
1.7 Выводы 27
Глава 2. Компьютерное моделирование модели идентификации личности по
голосу 30
2.1 Предварительная обработка 30
2.2 Признаки речевого сигнала 35
2.3 Определение алгоритма инициализации и оценки параметров модели 46
2.4 Определение числа компонентов модели гауссовых смесей 50
2.5 Тестирование модели личности по голосу 50
2.6 Выводы 51
Глава 3. Результаты компьютерного моделирования модели идентификации личности по голосу 53
3.1 Схема работы модели идентификации личности по голосу 53
3.2 Листинг программы 57
3.3 Результат работы программы 57
3.4 Расчет затрат на программно - аппаратную часть 62
3.5 Выводы 66
Глава 4. Безопасность жизнедеятельности 67
4.1 Общие требования 67
4.2 Неблагоприятные факторы и средства защиты от них 67
4.3 Выводы 70
Заключение 71
Список используемой литературы 72
Приложение А 75
📖 Введение
Любой человек имеет свои особенные голосовые характеристики, определяющиеся индивидуальным строением его голосовых органов. В процессе общения человек способен на подсознательном уровне различать голоса любых людей, но тем не менее, эта задача для вычислительной техники является нетривиальной.
Известно, что задача распознавания личности по голосу была поставлена более 40 лет назад, но до сих пор продолжаются исследования в данной области. За последние годы качество распознавания речевой информации значительно возросло, однако главная проблема автоматического распознавания диктора в любой среде до сих пор далека от идеального решения. Поэтому актуальны не только исследования уже существующих алгоритмов, но и поиск новых решений в данной области.
Задачей распознавания личности по голосу является выделение, классифицирование и реагирование на речь человека из входного звукового потока. При этом обычно выделяется две подзадачи: идентификация и верификация.
Кроме этого, система распознавания может быть разделена на текстозависимую и текстонезависимую. При текстозависимом распознавании используются как фиксированные фразы, так и фразы, которые были сгенерированы системой и были предложены пользователю. Текстонезависимые системы нужны для обработки произвольной речи.
В данной работе рассматривается задача автоматической идентификации диктора и реализуется алгоритм, который решает задачу текстонезависимой идентификации.
Распознавание личности по голосу может найти применение во многих сферах: криминалистика и судебная экспертиза, безопасность, банковские технологии, электронная коммерция.
Речь представляет собой сложный сигнал, который образуется в результате преобразований, происходящих на разных уровнях: семантическом, языковом, артикуляционном (уровень голосового аппарата человека) и акустическом (уровень физических свойств звука). Различия в этих преобразованиях приводят к различиям в свойствах речевого сигнала. При решении задачи распознавания диктора по голосу данные отличия могут использоваться с целью выделения индивидуальных характеристик голоса человека.
Целью данной работы является разработка программного средства идентификации личности по голосу. Для достижения указанной цели в работе решаются следующие задачи:
— Исследуются существующие методы решения задачи идентификации личности по голосу, способы оценки их качества, а также существующие проблемы и ограничения;
— Реализовывается один из лучших алгоритмов идентификации личности по голосу;
— Разрабатывается обучающая и тестовая выборки, позволяющие наиболее полно оценить все преимущества и недостатки реализованного алгоритма.
✅ Заключение
В работе был проведен полный обзор предметной области. Реализовался один из лучших алгоритмов, который можно использовать для решения поставленной задачи, основанный на применении модели гауссовых смесей. Данная модель считается передовой в виду того, что компоненты гауссовых смесей могут моделировать особенности голоса, индивидуальные для каждого человека, это позволяет отличать голоса людей с высочайшей точностью.
Было установлено, что использование алгоритма K-means++ для инициализации начальных параметров модели приводит к существенному увеличению скорости обучения и повышению точности идентификации. Помимо проверки точности идентификации проводилась оценка времени обучения модели гауссовых смесей. На полной выборке, при использовании кластеризации K-means для инициализации начальных параметров модели при числе компонентов модели, равном 5, время обучения равнялось 7 минутам 35 секундам. При использовании K-means++ время обучения равнялось 5 минутам 3 секундам, это говорит о преимуществе использованного алгоритма. Для тестирования программы были составлены шаблоны пользователей, которые состояли из голосов 20 человек.
В результате тестирования было определено оптимальное число компонент модели гауссовых смесей для решения поставленной задачи, оно равняется 5. При данном числе компонент система идентификации показывает точность распознавания, равную 95%, что говорит о применимости модели гауссовых смесей для решения задачи автоматической идентификации диктора по голосу.



