Тема: ПОСТРОЕНИЕ И ИССЛЕДОВАНИЕ АЛГОРИТМА РАСПОЗНАВАНИЯ ДИКТОРОВ НА ОСНОВЕ ОГРАНИЧЕННОЙ МАШИНЫ БОЛЬЦМАНА
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Постановка задачи 6
2 Извлечение признаков 7
2.1 Коэффициенты Фурье 8
2.2 Мел-частотные кепстральные коэффициенты 9
2.3 Коэффициенты линейного предсказания 11
2.4 Перцептивные коэффициенты линейного предсказания 12
2.5 Дополнительная обработка 13
2.6 Ограниченная машина Больцмана 13
3 Дискриминативная модель 19
3.1 Метод опорных векторов 19
3.2 Random Forest 22
3.3 AdaBoost 24
3.4 Улучшение качества классификации 27
4 Эксперименты 28
4.1 Сравнение векторов-признаков 31
4.2 Сравнение алгоритмов классификации 36
4.3 Влияние шума на качество идентификации 41
4.4 Сравнение алгоритмов классификации при небольшой длине
обучающих файлов 43
4.5 Сравнение качества распознавания от длительности обучающего
файла 47
4.6 Сравнение качества распознавания от количества дикторов 51
5 Выводы 53
Заключение 54
Список литературы 55
Приложение 57
📖 Введение
Распознавание личности объединяет два класса задач: идентификацию и верификацию дикторов по голосу [5].
1. Целью идентификации является определение принадлежности исследуемого голосового сигнала к одному из дикторов, заранее предъявленных системе. Если процедуру распознавания проходят только пользователи, речевые образцы которых имеются в базе, говорят об идентификации на замкнутом множестве. Если же возникают ситуации, когда пользователь неизвестен системе, встает задача идентификации на открытом множестве [5]. Данная задача может быть сведена к предыдущей путем выбора порога принятия решения в соответствии с требованиями к системе.
2. В процессе верификации подтверждается либо опровергается принадлежность исследуемого голосового сигнала его предъявителю [5]. Данную задачу можно считать частным случаем идентификации на открытом множестве, предполагая, что система обучена только на речевых образцах рассматриваемого диктора.
В соответствии с категорией, системы распознавания делятся на текстозависимые и текстонезависимые [11]. При текстозависимом анализе 3
речи производится сравнение предложенной системой фразы с произнесенной. При текстонезависимом- распознавание по произвольной речи.
Эта технология уже нашла свое применение в таких задачах, как [8]:
• Предоставление доступа. Так как определение диктора по голосу- один из наименее ресурсоемких и простых в использовании методов идентификации, когда нет необходимости запоминать какие-либо комбинации и использовать дорогостоящие устройства. В настоящее время такая система защиты используется лишь как дополнение к имеющейся, либо, когда безопасность системы не критична:
■ Доступ к информации по телефону (информация о состоянии банковского счета, информация из баз данных и т.п.).
■ Доступ сотрудников в служебные помещения.
• Анализ диалогов, записей переговоров во время аварийных ситуаций, телефонных разговоров и др., используемых в криминалистике и судебной экспертизе.
Однако вопрос получения систем с высокоточным распознаванием дикторов до сих пор остается открытым. Продолжается поиск таких моделей, которые способны повысить качество распознавания с сохранением или увеличением скорости идентификации. Аналогичные цели ставятся в данной исследовательской работе. Проводится анализ существующих методов и предлагается новый для данной задачи подход, заключающийся в выделении речевых признаков, полученных с помощью ограниченной машины Больцмана. Также проводится сравнение зависимости качества распознавания и скорости обучения в указанных условиях от поступающих на вход ограниченной машины Больцмана векторов-признаков, уровня шума, количества идентифицируемых дикторов, классификаторов и их параметров обучения. В результате работы ожидается получение алгоритма распознавания дикторов на основе ограниченной машины Больцмана (GBRBM), составление рекомендаций по его использованию по результатам экспериментов.
✅ Заключение
При необходимости, в продолжении работы могут быть рассмотрены и другие векторы-признаков. Возможно усложнение классификаторов, а также рассмотрение поведения системы при использовании глубоких нейронных сетей и ограниченный машины Больцмана, как их основы.



