ВВЕДЕНИЕ 4
ГЛАВА 1. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ РАСПОЗНАВАНИЯ ЭМОЦИЙ ПО АУДИО ЗАПИСЯМ ГОЛОСА 7
1.1 Проблема распознавания эмоционального состояния диктора по голосу 7
1.2 Классические методы классификации 8
1.3 Методы распознавания на основе нейронных сетей 12
Выводы к главе 1 17
ГЛАВА 2. ПОСТРОЕНИЕ АЛГОРИТМА ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ЭМОЦИЙ ДИКТОРА ПО ГОЛОСУ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ
СЕТЕЙ 19
2.1 Выделение признаков речевого сигнала 19
2.2 Архитектура нейросетевой системы распознавания 20
Выводы к главе 2 28
ГЛАВА 3. ОБУЧЕНИЕ И ТЕСТИРОВАНИЕ РАЗРАБОТАННОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ 30
3.1 Подготовка базы данных для обучения и тестирования 30
3.2 Результаты тестирования системы 34
Выводы к главе 3 37
ГЛАВА 4. СОЗДАНИЕ ГРАФИЧЕСКОГО ИНТЕРФЕЙСА ПОЛЬЗОВАТЕЛЯ ДЛЯ ТЕСТИРОВАНИЯ АЛГОРИТМА В РЕЖИМЕ РЕАЛЬНОГО ВРЕМЕНИ 38
4.1 Графический интерфейс в среде MATLAB 38
4.2 Реализация графического интерфейса 39
Выводы к главе 4 42
ЗАКЛЮЧЕНИЕ 44
СПИСОК ЛИТЕРАТУРЫ
Приложение 1 49
Приложение 2 52
Распознавание эмоций - очень востребованная на сегодняшний день тема не только для сферы искусственного интеллекта, но и для общественной жизни в целом. К наиболее интересным областям применения подобных технологий можно отнести: системы видеоаналитики, распознавание состояния водителя, маркетинговые исследования, человеко-машинное взаимодействие, мониторинг учащихся, проходящих online-курсы и др.
Эмоции — сильные психические состояния, связанные с возбуждением или высоким уровнем энергии и дающие начало чувствам и страстям. Также эмоциями называют переживание человеком своего отношения к тому, что он познает и делает, к другим людям и к самому себе. Эмоции бывают положительными или отрицательными. Удивление, эйфория, страх, гнев различаются по степени положительности либо отрицательности. Эмоции дают информацию о том, как говорящий оценивает ситуацию и какие ответные реакции можно от него ожидать [1].
Эмоции могут выражаться по разным каналам. Это может быть зрительный канал, выражение лица, жесты и так далее. Важным каналом для идентификации эмоционального состояния человека также является его речь, иначе говоря голосовой набор сигналов.
Задача распознавания эмоционального состояния по голосу сводится к тому, чтобы выделить, классифицировать и соответствующим образом отреагировать на человеческую речь, представляющая собой входной звуковой поток. При этом, как правило, выделяют две подзадачи: идентификация и верификация.
Идентификация - процесс определения эмоционального состояния диктора по образцу голоса путём сравнения данного образца с шаблонами, уже имеющимися в базе. Результатом идентификации обычно является эмоция человека, зарегистрированного в системе, шаблон которого наиболее вероятно соответствует входному образцу голоса.
Верификация - процесс, при котором с помощью сравнения представленного образца с хранимым в базе шаблоном проверяется запрошенная идентичность. Из определения следует, что при верификации вместе с образцом голоса передается идентификатор пользователя, зарегистрированного в системе. Результатом является подтверждение конкретного эмоционального состояния или отрицательный ответ системы.
В процессе распознавания работает предположение того, что никакой признак не привязан жестко к определенной эмоции, а её определение происходит на основе вычисленных вероятностей. При идентификации, конечно, следует учитывать факторы, которые предшествует проявленной эмоций: ситуация в ее взаимодействии с имеющейся у человека целью. Однако учёт таких обстоятельств не всегда возможен, и, вообще говоря, не особо распространён в широко используемых системах. Тем не менее, его всегда можно учесть при необходимости, пользуясь специально вводимыми константами.
Эмоции и речь тесно взаимосвязаны и являются важными элементами общения. Поэтому, автоматическая и объективная диагностика эмоционального состояния человека по его речи представляет большой практический интерес. Распознавание эмоций в речи имеет большое значение как для исследования самой речи и эмоций, так и для улучшения качества обслуживания клиентов, например, в call-центрах, для специального оборудования, а также для обеспечения общественной безопасности. Различные научные и коммерческие организации занимаются исследованием этого феномена [3].
В данной работе рассматривается задача автоматического распознавания эмоционального состояния диктора и реализуется алгоритм, решающий эту задачу. Существуют следующие проблемы и ограничения задачи распознавания личности по голосу, которые следует учитывать при построении решения:
• Сложная акустическая обстановка (шумы и помехи);
• Разные каналы связи при обучении и распознавании;
• Естественные изменения голоса.
Целью настоящей работы является повышение эффективности автоматической системы распознавания агрессивного эмоционального состояния диктора по голосу, благодаря использованию методов глубокого машинного обучения.
При этом необходимо решить следующие задачи:
1. Улучшить существующую систему идентификации с использованием нейронных сетей.
2. Подобрать оптимальную архитектуру сети, провести тестирование.
3. Разработать графический интерфейс пользователя для демонстрации работы алгоритма в режиме реального времени. Данная задача подразумевает также создание обучающих и тестовых наборов, позволяющих наиболее полно оценить все преимущества и недостатки реализованного алгоритма.
В настоящей работе представлен подход к распознаванию эмоционального состояния диктора по голосу с использованием нейронной сети - автокодировщик. Обучение и тестирование представленного подхода на примере базы данных RAVDESS показало, что использование данной системы существенно улучшает качество распознавания по отношению ко многим известным алгоритмам. Было проведено сравнение точности распознавания с подходом на основе метода опорных векторов, используемым в предыдущей работе. Вероятность ложного срабатывания системы Autoencoder+Softmax layer не превышает 9.7%, тогда как для SVM она составила 15.1%. Вероятность неправильного детектирования для Autoencoder+Softmax layer составила 10.1%, для SVM - 22.1%. Также отметим, что точность распознавания мужских голосов составила 90.7%, женских - 92.3%, то есть качество распознавания практически не зависит от гендерной принадлежности диктора. Стоит учесть ещё и тот факт, что все данные в процессе предобработки были отнормированы, громкость сказанного также не влияла на результат распознавания.
Среда Matlab хорошо подходит для создания алгоритмов распознавания: она не требует применять дополнительные библиотеки, а также позволяет настроить обучение для минимизации ошибки вручную. Это помогает экономить время и средства.
Можно утверждать, что разработанная система автоматического распознавания эмоционального состояния диктора представляет собой готовое для использования программное приложение с возможностью дальнейшей модификации.
В конце хотелось бы отметить, что развитие систем распознавания эмоций упростит не только работу так называемых «call» - центров, но и в целом позволит повысить безопасность общественной жизни.
1 Джеймс У. Психология. Ч.2. / У.Джеймс - Спб: К.Л.Риккер, 1911 г. - 3 с., 323 - 325 с.
2 Мерков А.Б. Введение в методы статистического обучения / А.Б.Мерков.
— М.: Едиториал УРСС, 2014 г. — 8 с., 19 с., 34 с., 56-57 с.
3 Киселев В.И. Автоматическое определение эмоций по речи / В.И. Киселев
- Минск: Образовательные технологии № 3, 2012 г. - 85-86 с., 87 с.
4 Сидоров К.В. Автоматическое распознавание эмоций человека на основе реконструкции аттракторов образцов речи / К.В. Сидоров, Н.Н. Филатова // журнал «Программные и вычислительные методы №1(1)» - М.: «НБ - Медиа», 2012 г., 67-77 с.
5 Nwe T.L. Speech recognition using hidden Markov models / Nwe T.L., Foo S. W., De Silva L.C. - Singapore: Speech Communication, 2003 г. - p. 604-607
6 El Ayadi M. Survey on speech emotion recognition: Features, classification schemes and databases/ El Ayadi M., Kamel M.S., Karray F. - Амстердам: Elsevier, 2010 г. - 573-575 с., 583-584 с.
7 Хуршудов А. А. Обучение многослойного разреженного автокодировщика на изображениях большого масштаба / Хуршудов А. А. // журнал "Вестник компьютерных и информационных технологий", 2014 г. - 27-30 с.
8 Вьюгин В.В. Математические основы теории машинного обучения/ В.В. Вьюгин - М.: МЦМНО, 2013 г. - 386-390 с.
9 Интернет-ресурс: DataReview - URL: http://datareview.info/ (дата
обращения: 29.04.2019).
10 Moller, M. F. “A Scaled Conjugate Gradient Algorithm for Fast Supervised Learning”, Neural Networks, Vol. 6, 1993, 525-533 с.
11 Интернет-ресурс: база данных RAVDESS - URL:
https://doi.org/10.1371/journal.pone.0196391 (дата обращения: 29.04.2019).
12 Интернет-ресурс: Nuance - URL: https://www.nuance.com/ (дата
обращения: 29.04.2019).
13 Интернет-ресурс: Центр речевых технологий - URL:
https://www.speechpro.ru/ (дата обращения: 29.04.2019).
14 Бадриев И.Б. Разработка графического пользовательского интерфейса в среде MATLAB// И.Б.Бадриев, В.В.Бандеров, О.А.Задворнов - Казань: Казанский государственный университет им. В.И.Ульянова-Ленина, 2010 г., 7-11 с.
15 Нуссбаумер Г. Быстрое преобразование Фурье и алгоритмы вычисления сверток/ Нуссбаумер Г. — М.: Радио и связь, 1985 г., 150-153 с.
16 Cheng C.-Y. Autoencoder for Words / Liou, C.-Y., Cheng, C.-W., Liou, J.-W., and Liou, D.-R., Neurocomputing, Volume 2014 г., p. 139, p. 84-96
17 Olshausen. B. A. “Sparse Coding with an Overcomplete Basis Set: A Strategy Employed by V1.”/ Olshausen, B. A Vision Research, Vol.37, 1997 г., p. 33113325
18 Бонч-Брусневич А.М. Анализ результатов схемотехнического моделирования в пакете MATLAB// А.М. Бонч-Брусневич - М.: МГТУ им Н.Э. Баумана, 2012 г.,13-18 с.
19 Павлейно М.А. Спектральные преобразования в MATLAB// М.А. Павлейно, В.М. Ромаданов - СПб: СПбГУ, 2007 г., 5-24 с.
20 Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных// П. Флах - М.: ДМК Пресс, 2015 г., 215-230 с.
21 Миркин Б.Г. Введение в анализ данных. // Б.Г. Миркин - М.: Юрайт, 2015 г., 96-99 с.
22 Аппалонов А.М. Автоматическая система распознавания эмоционального состояния диктора по голосу. // А.М. Аппалонов - Казань: Сборник статей итоговой научной конференции студентов КФУ, 2019 г. [в печати]
23 Интернет - ресурс: Индикатор - URL: https://indicator.ru/tags/nejroset/ (дата обращения 3.05.2019)
24 Царегородцев В.Г. Оптимизация предобработки признаков выборки
данных: критерий оптимальности. // Журнал "Нейрокомпьютеры:
разработка, применение."- 2005 г, №4, 3-12 c.
25 Степанов П. П. Искусственные нейронные сети //П.П. Степанов: журнал "Молодой ученый". — 2017 г. — №4. — 185-187 c. — URL https://moluch.ru/archive/138/38781/ (дата обращения: 03.06.2019).
26 Интернет - ресурс: Neurohive - URL: https://neurohive.io/ru/ (дата обращения: 3.05.2019)
27 Бочкарев В.В. Начальная инициализация многослойных прогностических искусственных нейронных сетей. // В.В. Бочкарев, Ю.С. Масленникова: Журнал "Ученые записки Казанского государственного университета". - том 152, 2010 г., 7 -14 c.
28 Интернет - ресурс: URL: https://www.mathworks.com/ (дата обращения:
3.05.2019)
29 Интернет - ресурс: URL: https://towardsdatascience.com/ (дата обращения:
10.05.2019)