Тема: Применение глубоких нейронных сетей к задаче текстонезависимой идентификации диктора по голосу
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Обзор литературы 6
Глава 1. Подготовка данных 7
1.1 Описание используемых баз 7
1.2 Предварительная обработка сигнала 10
1.3 Извлечение признаков 13
1.4 Предварительная обработка признаков 18
Глава 2. Классическая базовая система 21
2.1 Универсальная фоновая модель 21
2.2 Извлечение i-векторов 21
2.3 Сравнение i-векторов 21
Глава 3. Система на основе глубоких нейронных сетей 24
3.1 Свёрточные нейронные сети 24
3.2 Residual отображения 28
3.3 Глубокая архитектура 31
3.4 Извлечение высокоуровневых признаков 33
3.5 Сравнение высокоуровневых признаков 35
Глава 4. Эксперименты и результаты 36
4.1 Проведение экспериментов 36
4.2 Результаты 38
4.3 Анализ результатов 41
Выводы 42
Заключение 43
Список литературы 44
📖 Введение
1. Поиск определённого диктора в потоке голосовых данных.
Эта задача может возникнуть, например, в сфере поддержки, когда необходимо среди записей телефонных разговоров call-центра найти записи всех диалогов с недавно звонившим клиентом с целью анализа и улучшения качества работы центра. С применением средств идентификации диктора по голосу такое возможно даже если клиент звонил с телефонов с разными номерами. Аналогичная задача возникает и в сфере безопасности, где поиск записей телефонных разговоров потенциально опасных личностей может производиться среди всевозможных записей определённой телефонной станции.
2. Биометрическая аутентификация по голосу
Путём сравнения текущего диктора со списком заранее заданных автоматическая система может принимать решение о разрешении или запрете авторизации. Такой способ аутентификации может быть использован как замена или дополнение к паролю при разблокировке смартфона или при попытке доступа к банковскому приложению. Благодаря средствам верификации диктора по голосу никогда не слышавший прежде своего собеседника пользователь сможет в автоматическом режиме удостовериться, что собеседник не выдаёт себя за другую личность, а автоматическая система, распознающая и исполняющая голосовые команды, сможет удостовериться, что выполняет команды авторизованного пользователя.
В современном мире потоки информации достигли объёмов, не подвластных ручному анализу. Именно поэтому внимание исследователей сконцентрировано в основном на автоматических подходах к решению задач. Исключением не является и данная работа.
Подходы, основанные на классических методах машинного обучения и статистики, долгое время оставались и остаются главенствующими при решении задачи автоматической идентификации диктора по голосу. В то же время, активно развивающиеся в последнее десятилетие подходы, основанные на глубоких нейронных сетях, достигли непревзойдённых успехов во многих задачах классификации, распознавания образов, идентификации по лицу. Преимущества подобных подходов очевидны: они просты в разработке и использовании, требуют минимального количества вносимой извне априорной информации и зачастую превосходят традиционные методы по качеству.
В данной работе рассматривается возможность применения глубоких нейронных сетей к задаче автоматической идентификации диктора по голосу в текстозависимых и текстонезависимых условиях, исследуются преимущества и недостатки подобного подхода и проводится сравнение с классическим методом, показывающим лучшие результаты на рассматриваемых базах.





