Тема: РАЗВИТИЕ АВТОМАТИЧЕСКОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ДИКТОРА ПО ГОЛОСУ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ГЛАВА 1. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ РАСПОЗНАВАНИЯ ЭМОЦИЙ ПО АУДИО ЗАПИСЯМ ГОЛОСА 7
1.1 Проблема распознавания эмоционального состояния диктора по голосу 7
1.2 Классические методы классификации 8
1.3 Методы распознавания на основе нейронных сетей 12
Выводы к главе 1 17
ГЛАВА 2. ПОСТРОЕНИЕ АЛГОРИТМА ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ЭМОЦИЙ ДИКТОРА ПО ГОЛОСУ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ
СЕТЕЙ 19
2.1 Выделение признаков речевого сигнала 19
2.2 Архитектура нейросетевой системы распознавания 20
Выводы к главе 2 28
ГЛАВА 3. ОБУЧЕНИЕ И ТЕСТИРОВАНИЕ РАЗРАБОТАННОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ 30
3.1 Подготовка базы данных для обучения и тестирования 30
3.2 Результаты тестирования системы 34
Выводы к главе 3 37
ГЛАВА 4. СОЗДАНИЕ ГРАФИЧЕСКОГО ИНТЕРФЕЙСА ПОЛЬЗОВАТЕЛЯ ДЛЯ ТЕСТИРОВАНИЯ АЛГОРИТМА В РЕЖИМЕ РЕАЛЬНОГО ВРЕМЕНИ 38
4.1 Графический интерфейс в среде MATLAB 38
4.2 Реализация графического интерфейса 39
Выводы к главе 4 42
ЗАКЛЮЧЕНИЕ 44
СПИСОК ЛИТЕРАТУРЫ
Приложение 1 49
Приложение 2 52
📖 Введение
Эмоции — сильные психические состояния, связанные с возбуждением или высоким уровнем энергии и дающие начало чувствам и страстям. Также эмоциями называют переживание человеком своего отношения к тому, что он познает и делает, к другим людям и к самому себе. Эмоции бывают положительными или отрицательными. Удивление, эйфория, страх, гнев различаются по степени положительности либо отрицательности. Эмоции дают информацию о том, как говорящий оценивает ситуацию и какие ответные реакции можно от него ожидать [1].
Эмоции могут выражаться по разным каналам. Это может быть зрительный канал, выражение лица, жесты и так далее. Важным каналом для идентификации эмоционального состояния человека также является его речь, иначе говоря голосовой набор сигналов.
Задача распознавания эмоционального состояния по голосу сводится к тому, чтобы выделить, классифицировать и соответствующим образом отреагировать на человеческую речь, представляющая собой входной звуковой поток. При этом, как правило, выделяют две подзадачи: идентификация и верификация.
Идентификация - процесс определения эмоционального состояния диктора по образцу голоса путём сравнения данного образца с шаблонами, уже имеющимися в базе. Результатом идентификации обычно является эмоция человека, зарегистрированного в системе, шаблон которого наиболее вероятно соответствует входному образцу голоса.
Верификация - процесс, при котором с помощью сравнения представленного образца с хранимым в базе шаблоном проверяется запрошенная идентичность. Из определения следует, что при верификации вместе с образцом голоса передается идентификатор пользователя, зарегистрированного в системе. Результатом является подтверждение конкретного эмоционального состояния или отрицательный ответ системы.
В процессе распознавания работает предположение того, что никакой признак не привязан жестко к определенной эмоции, а её определение происходит на основе вычисленных вероятностей. При идентификации, конечно, следует учитывать факторы, которые предшествует проявленной эмоций: ситуация в ее взаимодействии с имеющейся у человека целью. Однако учёт таких обстоятельств не всегда возможен, и, вообще говоря, не особо распространён в широко используемых системах. Тем не менее, его всегда можно учесть при необходимости, пользуясь специально вводимыми константами.
Эмоции и речь тесно взаимосвязаны и являются важными элементами общения. Поэтому, автоматическая и объективная диагностика эмоционального состояния человека по его речи представляет большой практический интерес. Распознавание эмоций в речи имеет большое значение как для исследования самой речи и эмоций, так и для улучшения качества обслуживания клиентов, например, в call-центрах, для специального оборудования, а также для обеспечения общественной безопасности. Различные научные и коммерческие организации занимаются исследованием этого феномена [3].
В данной работе рассматривается задача автоматического распознавания эмоционального состояния диктора и реализуется алгоритм, решающий эту задачу. Существуют следующие проблемы и ограничения задачи распознавания личности по голосу, которые следует учитывать при построении решения:
• Сложная акустическая обстановка (шумы и помехи);
• Разные каналы связи при обучении и распознавании;
• Естественные изменения голоса.
Целью настоящей работы является повышение эффективности автоматической системы распознавания агрессивного эмоционального состояния диктора по голосу, благодаря использованию методов глубокого машинного обучения.
При этом необходимо решить следующие задачи:
1. Улучшить существующую систему идентификации с использованием нейронных сетей.
2. Подобрать оптимальную архитектуру сети, провести тестирование.
3. Разработать графический интерфейс пользователя для демонстрации работы алгоритма в режиме реального времени. Данная задача подразумевает также создание обучающих и тестовых наборов, позволяющих наиболее полно оценить все преимущества и недостатки реализованного алгоритма.
✅ Заключение
Среда Matlab хорошо подходит для создания алгоритмов распознавания: она не требует применять дополнительные библиотеки, а также позволяет настроить обучение для минимизации ошибки вручную. Это помогает экономить время и средства.
Можно утверждать, что разработанная система автоматического распознавания эмоционального состояния диктора представляет собой готовое для использования программное приложение с возможностью дальнейшей модификации.
В конце хотелось бы отметить, что развитие систем распознавания эмоций упростит не только работу так называемых «call» - центров, но и в целом позволит повысить безопасность общественной жизни.



