РАЗВИТИЕ АВТОМАТИЧЕСКОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ДИКТОРА ПО ГОЛОСУ
|
ВВЕДЕНИЕ 4
ГЛАВА 1. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ РАСПОЗНАВАНИЯ ЭМОЦИЙ ПО АУДИО ЗАПИСЯМ ГОЛОСА 7
1.1 Проблема распознавания эмоционального состояния диктора по голосу 7
1.2 Классические методы классификации 8
1.3 Методы распознавания на основе нейронных сетей 12
Выводы к главе 1 17
ГЛАВА 2. ПОСТРОЕНИЕ АЛГОРИТМА ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ЭМОЦИЙ ДИКТОРА ПО ГОЛОСУ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ
СЕТЕЙ 19
2.1 Выделение признаков речевого сигнала 19
2.2 Архитектура нейросетевой системы распознавания 20
Выводы к главе 2 28
ГЛАВА 3. ОБУЧЕНИЕ И ТЕСТИРОВАНИЕ РАЗРАБОТАННОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ 30
3.1 Подготовка базы данных для обучения и тестирования 30
3.2 Результаты тестирования системы 34
Выводы к главе 3 37
ГЛАВА 4. СОЗДАНИЕ ГРАФИЧЕСКОГО ИНТЕРФЕЙСА ПОЛЬЗОВАТЕЛЯ ДЛЯ ТЕСТИРОВАНИЯ АЛГОРИТМА В РЕЖИМЕ РЕАЛЬНОГО ВРЕМЕНИ 38
4.1 Графический интерфейс в среде MATLAB 38
4.2 Реализация графического интерфейса 39
Выводы к главе 4 42
ЗАКЛЮЧЕНИЕ 44
СПИСОК ЛИТЕРАТУРЫ
Приложение 1 49
Приложение 2 52
ГЛАВА 1. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ РАСПОЗНАВАНИЯ ЭМОЦИЙ ПО АУДИО ЗАПИСЯМ ГОЛОСА 7
1.1 Проблема распознавания эмоционального состояния диктора по голосу 7
1.2 Классические методы классификации 8
1.3 Методы распознавания на основе нейронных сетей 12
Выводы к главе 1 17
ГЛАВА 2. ПОСТРОЕНИЕ АЛГОРИТМА ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ЭМОЦИЙ ДИКТОРА ПО ГОЛОСУ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ
СЕТЕЙ 19
2.1 Выделение признаков речевого сигнала 19
2.2 Архитектура нейросетевой системы распознавания 20
Выводы к главе 2 28
ГЛАВА 3. ОБУЧЕНИЕ И ТЕСТИРОВАНИЕ РАЗРАБОТАННОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ 30
3.1 Подготовка базы данных для обучения и тестирования 30
3.2 Результаты тестирования системы 34
Выводы к главе 3 37
ГЛАВА 4. СОЗДАНИЕ ГРАФИЧЕСКОГО ИНТЕРФЕЙСА ПОЛЬЗОВАТЕЛЯ ДЛЯ ТЕСТИРОВАНИЯ АЛГОРИТМА В РЕЖИМЕ РЕАЛЬНОГО ВРЕМЕНИ 38
4.1 Графический интерфейс в среде MATLAB 38
4.2 Реализация графического интерфейса 39
Выводы к главе 4 42
ЗАКЛЮЧЕНИЕ 44
СПИСОК ЛИТЕРАТУРЫ
Приложение 1 49
Приложение 2 52
Распознавание эмоций - очень востребованная на сегодняшний день тема не только для сферы искусственного интеллекта, но и для общественной жизни в целом. К наиболее интересным областям применения подобных технологий можно отнести: системы видеоаналитики, распознавание состояния водителя, маркетинговые исследования, человеко-машинное взаимодействие, мониторинг учащихся, проходящих online-курсы и др.
Эмоции — сильные психические состояния, связанные с возбуждением или высоким уровнем энергии и дающие начало чувствам и страстям. Также эмоциями называют переживание человеком своего отношения к тому, что он познает и делает, к другим людям и к самому себе. Эмоции бывают положительными или отрицательными. Удивление, эйфория, страх, гнев различаются по степени положительности либо отрицательности. Эмоции дают информацию о том, как говорящий оценивает ситуацию и какие ответные реакции можно от него ожидать [1].
Эмоции могут выражаться по разным каналам. Это может быть зрительный канал, выражение лица, жесты и так далее. Важным каналом для идентификации эмоционального состояния человека также является его речь, иначе говоря голосовой набор сигналов.
Задача распознавания эмоционального состояния по голосу сводится к тому, чтобы выделить, классифицировать и соответствующим образом отреагировать на человеческую речь, представляющая собой входной звуковой поток. При этом, как правило, выделяют две подзадачи: идентификация и верификация.
Идентификация - процесс определения эмоционального состояния диктора по образцу голоса путём сравнения данного образца с шаблонами, уже имеющимися в базе. Результатом идентификации обычно является эмоция человека, зарегистрированного в системе, шаблон которого наиболее вероятно соответствует входному образцу голоса.
Верификация - процесс, при котором с помощью сравнения представленного образца с хранимым в базе шаблоном проверяется запрошенная идентичность. Из определения следует, что при верификации вместе с образцом голоса передается идентификатор пользователя, зарегистрированного в системе. Результатом является подтверждение конкретного эмоционального состояния или отрицательный ответ системы.
В процессе распознавания работает предположение того, что никакой признак не привязан жестко к определенной эмоции, а её определение происходит на основе вычисленных вероятностей. При идентификации, конечно, следует учитывать факторы, которые предшествует проявленной эмоций: ситуация в ее взаимодействии с имеющейся у человека целью. Однако учёт таких обстоятельств не всегда возможен, и, вообще говоря, не особо распространён в широко используемых системах. Тем не менее, его всегда можно учесть при необходимости, пользуясь специально вводимыми константами.
Эмоции и речь тесно взаимосвязаны и являются важными элементами общения. Поэтому, автоматическая и объективная диагностика эмоционального состояния человека по его речи представляет большой практический интерес. Распознавание эмоций в речи имеет большое значение как для исследования самой речи и эмоций, так и для улучшения качества обслуживания клиентов, например, в call-центрах, для специального оборудования, а также для обеспечения общественной безопасности. Различные научные и коммерческие организации занимаются исследованием этого феномена [3].
В данной работе рассматривается задача автоматического распознавания эмоционального состояния диктора и реализуется алгоритм, решающий эту задачу. Существуют следующие проблемы и ограничения задачи распознавания личности по голосу, которые следует учитывать при построении решения:
• Сложная акустическая обстановка (шумы и помехи);
• Разные каналы связи при обучении и распознавании;
• Естественные изменения голоса.
Целью настоящей работы является повышение эффективности автоматической системы распознавания агрессивного эмоционального состояния диктора по голосу, благодаря использованию методов глубокого машинного обучения.
При этом необходимо решить следующие задачи:
1. Улучшить существующую систему идентификации с использованием нейронных сетей.
2. Подобрать оптимальную архитектуру сети, провести тестирование.
3. Разработать графический интерфейс пользователя для демонстрации работы алгоритма в режиме реального времени. Данная задача подразумевает также создание обучающих и тестовых наборов, позволяющих наиболее полно оценить все преимущества и недостатки реализованного алгоритма.
Эмоции — сильные психические состояния, связанные с возбуждением или высоким уровнем энергии и дающие начало чувствам и страстям. Также эмоциями называют переживание человеком своего отношения к тому, что он познает и делает, к другим людям и к самому себе. Эмоции бывают положительными или отрицательными. Удивление, эйфория, страх, гнев различаются по степени положительности либо отрицательности. Эмоции дают информацию о том, как говорящий оценивает ситуацию и какие ответные реакции можно от него ожидать [1].
Эмоции могут выражаться по разным каналам. Это может быть зрительный канал, выражение лица, жесты и так далее. Важным каналом для идентификации эмоционального состояния человека также является его речь, иначе говоря голосовой набор сигналов.
Задача распознавания эмоционального состояния по голосу сводится к тому, чтобы выделить, классифицировать и соответствующим образом отреагировать на человеческую речь, представляющая собой входной звуковой поток. При этом, как правило, выделяют две подзадачи: идентификация и верификация.
Идентификация - процесс определения эмоционального состояния диктора по образцу голоса путём сравнения данного образца с шаблонами, уже имеющимися в базе. Результатом идентификации обычно является эмоция человека, зарегистрированного в системе, шаблон которого наиболее вероятно соответствует входному образцу голоса.
Верификация - процесс, при котором с помощью сравнения представленного образца с хранимым в базе шаблоном проверяется запрошенная идентичность. Из определения следует, что при верификации вместе с образцом голоса передается идентификатор пользователя, зарегистрированного в системе. Результатом является подтверждение конкретного эмоционального состояния или отрицательный ответ системы.
В процессе распознавания работает предположение того, что никакой признак не привязан жестко к определенной эмоции, а её определение происходит на основе вычисленных вероятностей. При идентификации, конечно, следует учитывать факторы, которые предшествует проявленной эмоций: ситуация в ее взаимодействии с имеющейся у человека целью. Однако учёт таких обстоятельств не всегда возможен, и, вообще говоря, не особо распространён в широко используемых системах. Тем не менее, его всегда можно учесть при необходимости, пользуясь специально вводимыми константами.
Эмоции и речь тесно взаимосвязаны и являются важными элементами общения. Поэтому, автоматическая и объективная диагностика эмоционального состояния человека по его речи представляет большой практический интерес. Распознавание эмоций в речи имеет большое значение как для исследования самой речи и эмоций, так и для улучшения качества обслуживания клиентов, например, в call-центрах, для специального оборудования, а также для обеспечения общественной безопасности. Различные научные и коммерческие организации занимаются исследованием этого феномена [3].
В данной работе рассматривается задача автоматического распознавания эмоционального состояния диктора и реализуется алгоритм, решающий эту задачу. Существуют следующие проблемы и ограничения задачи распознавания личности по голосу, которые следует учитывать при построении решения:
• Сложная акустическая обстановка (шумы и помехи);
• Разные каналы связи при обучении и распознавании;
• Естественные изменения голоса.
Целью настоящей работы является повышение эффективности автоматической системы распознавания агрессивного эмоционального состояния диктора по голосу, благодаря использованию методов глубокого машинного обучения.
При этом необходимо решить следующие задачи:
1. Улучшить существующую систему идентификации с использованием нейронных сетей.
2. Подобрать оптимальную архитектуру сети, провести тестирование.
3. Разработать графический интерфейс пользователя для демонстрации работы алгоритма в режиме реального времени. Данная задача подразумевает также создание обучающих и тестовых наборов, позволяющих наиболее полно оценить все преимущества и недостатки реализованного алгоритма.
В настоящей работе представлен подход к распознаванию эмоционального состояния диктора по голосу с использованием нейронной сети - автокодировщик. Обучение и тестирование представленного подхода на примере базы данных RAVDESS показало, что использование данной системы существенно улучшает качество распознавания по отношению ко многим известным алгоритмам. Было проведено сравнение точности распознавания с подходом на основе метода опорных векторов, используемым в предыдущей работе. Вероятность ложного срабатывания системы Autoencoder+Softmax layer не превышает 9.7%, тогда как для SVM она составила 15.1%. Вероятность неправильного детектирования для Autoencoder+Softmax layer составила 10.1%, для SVM - 22.1%. Также отметим, что точность распознавания мужских голосов составила 90.7%, женских - 92.3%, то есть качество распознавания практически не зависит от гендерной принадлежности диктора. Стоит учесть ещё и тот факт, что все данные в процессе предобработки были отнормированы, громкость сказанного также не влияла на результат распознавания.
Среда Matlab хорошо подходит для создания алгоритмов распознавания: она не требует применять дополнительные библиотеки, а также позволяет настроить обучение для минимизации ошибки вручную. Это помогает экономить время и средства.
Можно утверждать, что разработанная система автоматического распознавания эмоционального состояния диктора представляет собой готовое для использования программное приложение с возможностью дальнейшей модификации.
В конце хотелось бы отметить, что развитие систем распознавания эмоций упростит не только работу так называемых «call» - центров, но и в целом позволит повысить безопасность общественной жизни.
Среда Matlab хорошо подходит для создания алгоритмов распознавания: она не требует применять дополнительные библиотеки, а также позволяет настроить обучение для минимизации ошибки вручную. Это помогает экономить время и средства.
Можно утверждать, что разработанная система автоматического распознавания эмоционального состояния диктора представляет собой готовое для использования программное приложение с возможностью дальнейшей модификации.
В конце хотелось бы отметить, что развитие систем распознавания эмоций упростит не только работу так называемых «call» - центров, но и в целом позволит повысить безопасность общественной жизни.
Подобные работы
- ИССЛЕДОВАНИЕ ВЛИЯНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА НА ХАРАКТЕРИСТИКИ РЕЧЕВОГО СИГНАЛА
Бакалаврская работа, информатика. Язык работы: Русский. Цена: 4610 р. Год сдачи: 2019 - МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И ПРОГРАММНОЕ РАСПОЗНАВАНИЕ НОТ В ВОКАЛЬНОМ ИСПОЛНЕНИИ
Магистерская диссертация, информатика. Язык работы: Русский. Цена: 4820 р. Год сдачи: 2020 - КРИМИНАЛИСТИЧЕСКИЕ ОСНОВЫ ФОНОСКОПИИ
Бакалаврская работа, юриспруденция. Язык работы: Русский. Цена: 3750 р. Год сдачи: 2018 - Распознавание негативных эмоций с использованием нейросетевых технологий
Магистерская диссертация, лингвистика. Язык работы: Русский. Цена: 4850 р. Год сдачи: 2022



