📄Работа №125116

Тема: Применение глубоких нейронных сетей к задаче текстонезависимой идентификации диктора по голосу

Характеристики работы

◩

Тип работы Бакалаврская работа

Предмет Нейронные сети

📄

Объем: 47 листов

📅

Год: 2017

👁️

4800 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 3
Постановка задачи 5
Обзор литературы 6
Глава 1. Подготовка данных 7
1.1 Описание используемых баз 7
1.2 Предварительная обработка сигнала 10
1.3 Извлечение признаков 13
1.4 Предварительная обработка признаков 18
Глава 2. Классическая базовая система 21
2.1 Универсальная фоновая модель 21
2.2 Извлечение i-векторов 21
2.3 Сравнение i-векторов 21
Глава 3. Система на основе глубоких нейронных сетей 24
3.1 Свёрточные нейронные сети 24
3.2 Residual отображения 28
3.3 Глубокая архитектура 31
3.4 Извлечение высокоуровневых признаков 33
3.5 Сравнение высокоуровневых признаков 35
Глава 4. Эксперименты и результаты 36
4.1 Проведение экспериментов 36
4.2 Результаты 38
4.3 Анализ результатов 41
Выводы 42
Заключение 43
Список литературы 44

📖 Введение

Задача идентификации диктора по голосу, носящая в англоязычной литературе название «speaker identification task», позволяет определить по записи голоса его принадлежность определённому диктору. Другими словами, она отвечает на вопрос «Кто это говорит?». Умение отвечать на подобный вопрос открывает дорогу к решению множества прикладных задач из различных областей человеческой деятельности. Среди таких задач можно выделить следующие.
1. Поиск определённого диктора в потоке голосовых данных.
Эта задача может возникнуть, например, в сфере поддержки, когда необходимо среди записей телефонных разговоров call-центра найти записи всех диалогов с недавно звонившим клиентом с целью анализа и улучшения качества работы центра. С применением средств идентификации диктора по голосу такое возможно даже если клиент звонил с телефонов с разными номерами. Аналогичная задача возникает и в сфере безопасности, где поиск записей телефонных разговоров потенциально опасных личностей может производиться среди всевозможных записей определённой телефонной станции.
2. Биометрическая аутентификация по голосу
Путём сравнения текущего диктора со списком заранее заданных автоматическая система может принимать решение о разрешении или запрете авторизации. Такой способ аутентификации может быть использован как замена или дополнение к паролю при разблокировке смартфона или при попытке доступа к банковскому приложению. Благодаря средствам верификации диктора по голосу никогда не слышавший прежде своего собеседника пользователь сможет в автоматическом режиме удостовериться, что собеседник не выдаёт себя за другую личность, а автоматическая система, распознающая и исполняющая голосовые команды, сможет удостовериться, что выполняет команды авторизованного пользователя.
В современном мире потоки информации достигли объёмов, не подвластных ручному анализу. Именно поэтому внимание исследователей сконцентрировано в основном на автоматических подходах к решению задач. Исключением не является и данная работа.
Подходы, основанные на классических методах машинного обучения и статистики, долгое время оставались и остаются главенствующими при решении задачи автоматической идентификации диктора по голосу. В то же время, активно развивающиеся в последнее десятилетие подходы, основанные на глубоких нейронных сетях, достигли непревзойдённых успехов во многих задачах классификации, распознавания образов, идентификации по лицу. Преимущества подобных подходов очевидны: они просты в разработке и использовании, требуют минимального количества вносимой извне априорной информации и зачастую превосходят традиционные методы по качеству.
В данной работе рассматривается возможность применения глубоких нейронных сетей к задаче автоматической идентификации диктора по голосу в текстозависимых и текстонезависимых условиях, исследуются преимущества и недостатки подобного подхода и проводится сравнение с классическим методом, показывающим лучшие результаты на рассматриваемых базах.

✅ Заключение

В рамках исследования были выполнены все поставленные задачи и подтверждены выдвинутые гипотезы. Система распознавания диктора по голосу действительно может быть построена на основе глубоких свёрточных нейронных сетей и использовать спектрограммы в качестве входных низкоуровневых признаков. Не смотря на то, что такая модель проявляет себя хуже базовой, их композиция позволяет улучшить результат базовой модели на 19% и 4% относительно в текстозависимой и текстонезависимой задачах соответственно. Также было замечено, что увеличение объёма обучающей выборки улучшает результат в текстозависимой задаче. Предполагается, что, имея базу с достаточно высокой дикторской и внутридикторской вариативностями, возможно построить систему на основе глубоких свёрточных нейронных сетей, которая превзойдёт базовую систему по качеству. Проверка этого предположения может стать темой дальнейших исследований. По результатам работы была написана и предложена к публикации на международной конференции SPECOM 2017 научная статья [39].

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

[1] Reynolds D. A., Quatieri T. F., Dunn R. B. Speaker verification using adapted Gaussian mixture models //Digital signal processing. - 2000. - Т. 10. - №. 1-3. - С. 19-41.
[2] Larcher A. et al. RSR2015: Database for Text-Dependent Speaker Verification using Multiple Pass-Phrases //INTERSPEECH. - 2012. - С. 1580-1583.
[3] Garofolo J. S. et al. DARPA TIMIT acoustic-phonetic continous speech corpus CD-ROM. NIST speech disc 1-1.1 //NASA STI/Recon technical report n. - 1993. - Т. 93.
[4] NIST Speaker Recognition Evaluation // National Institute of Standards and Technology URL: National Institute of Standards and Technology | NIST (дата обращения: 01.04.2017).
[5] Cieri C., Miller D., Walker K. The Fisher Corpus: a Resource for the Next Generations of Speech-to-Text //LREC. - 2004. - Т. 4. - С. 69-71.
[6] Welch P. The use of fast Fourier transform for the estimation of power spectra: a method based on time averaging over short, modified periodograms //IEEE Transactions on audio and electroacoustics. - 1967. - Т. 15. - №. 2. • С. 70-73.
[7] Freeman R. L. Telecommunication transmission handbook. - Wiley- Interscience, 1981. - Т. 100.
[8] LeCun Y. et al. Gradient-based learning applied to document recognition //Proceedings of the IEEE. - 1998. - Т. 86. - №. 11. - С. 2278-2324.
[9] He K. et al. Deep residual learning for image recognition //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. - 2016. • С. 770-778.
[10] He K. et al. Identity mappings in deep residual networks //European Conference on Computer Vision. - Springer International Publishing, 2016. • С. 630-645.
[11] Jones E., Oliphant T., Peterson P. SciPy: open source scientific tools for Python. - 2014.
[12] He K. et al. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification //Proceedings of the IEEE international conference on computer vision. - 2015. - С. 1026-1034.
[13] Nair V., Hinton G. E. Rectified linear units improve restricted boltzmann machines //Proceedings of the 27th international conference on machine learning (ICML-10). - 2010. - С. 807-814.
[14] Maas A. L., Hannun A. Y., Ng A. Y. Rectifier nonlinearities improve neural network acoustic models //Proc. ICML. - 2013. - Т. 30. - №. 1.
[15] Zeiler M. D. et al. On rectified linear units for speech processing //Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. - IEEE, 2013. - С. 3517-3521.
...

🖼 Скриншоты

Содержание с началом введения

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (211120)

Статьи

»» Все статьи

Вход в личный кабинет