Тип работы:	Предмет:	Язык работы:

РАЗВИТИЕ АВТОМАТИЧЕСКОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ДИКТОРА ПО ГОЛОСУ

Работа №	34930
Тип работы	Дипломные работы, ВКР
Предмет	физика
Объем работы	59
Год сдачи	2019
Стоимость	6500 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	402

Не подходит работа?

Узнай цену на написание

Содержание

ВВЕДЕНИЕ 4
ГЛАВА 1. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ РАСПОЗНАВАНИЯ ЭМОЦИЙ ПО АУДИО ЗАПИСЯМ ГОЛОСА 7
1.1 Проблема распознавания эмоционального состояния диктора по голосу 7
1.2 Классические методы классификации 8
1.3 Методы распознавания на основе нейронных сетей 12
Выводы к главе 1 17
ГЛАВА 2. ПОСТРОЕНИЕ АЛГОРИТМА ДЛЯ ЗАДАЧИ РАСПОЗНАВАНИЯ ЭМОЦИЙ ДИКТОРА ПО ГОЛОСУ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ
СЕТЕЙ 19
2.1 Выделение признаков речевого сигнала 19
2.2 Архитектура нейросетевой системы распознавания 20
Выводы к главе 2 28
ГЛАВА 3. ОБУЧЕНИЕ И ТЕСТИРОВАНИЕ РАЗРАБОТАННОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ 30
3.1 Подготовка базы данных для обучения и тестирования 30
3.2 Результаты тестирования системы 34
Выводы к главе 3 37
ГЛАВА 4. СОЗДАНИЕ ГРАФИЧЕСКОГО ИНТЕРФЕЙСА ПОЛЬЗОВАТЕЛЯ ДЛЯ ТЕСТИРОВАНИЯ АЛГОРИТМА В РЕЖИМЕ РЕАЛЬНОГО ВРЕМЕНИ 38
4.1 Графический интерфейс в среде MATLAB 38
4.2 Реализация графического интерфейса 39
Выводы к главе 4 42
ЗАКЛЮЧЕНИЕ 44
СПИСОК ЛИТЕРАТУРЫ
Приложение 1 49
Приложение 2 52

Введение

Распознавание эмоций - очень востребованная на сегодняшний день тема не только для сферы искусственного интеллекта, но и для общественной жизни в целом. К наиболее интересным областям применения подобных технологий можно отнести: системы видеоаналитики, распознавание состояния водителя, маркетинговые исследования, человеко-машинное взаимодействие, мониторинг учащихся, проходящих online-курсы и др.
Эмоции — сильные психические состояния, связанные с возбуждением или высоким уровнем энергии и дающие начало чувствам и страстям. Также эмоциями называют переживание человеком своего отношения к тому, что он познает и делает, к другим людям и к самому себе. Эмоции бывают положительными или отрицательными. Удивление, эйфория, страх, гнев различаются по степени положительности либо отрицательности. Эмоции дают информацию о том, как говорящий оценивает ситуацию и какие ответные реакции можно от него ожидать [1].
Эмоции могут выражаться по разным каналам. Это может быть зрительный канал, выражение лица, жесты и так далее. Важным каналом для идентификации эмоционального состояния человека также является его речь, иначе говоря голосовой набор сигналов.
Задача распознавания эмоционального состояния по голосу сводится к тому, чтобы выделить, классифицировать и соответствующим образом отреагировать на человеческую речь, представляющая собой входной звуковой поток. При этом, как правило, выделяют две подзадачи: идентификация и верификация.
Идентификация - процесс определения эмоционального состояния диктора по образцу голоса путём сравнения данного образца с шаблонами, уже имеющимися в базе. Результатом идентификации обычно является эмоция человека, зарегистрированного в системе, шаблон которого наиболее вероятно соответствует входному образцу голоса.
Верификация - процесс, при котором с помощью сравнения представленного образца с хранимым в базе шаблоном проверяется запрошенная идентичность. Из определения следует, что при верификации вместе с образцом голоса передается идентификатор пользователя, зарегистрированного в системе. Результатом является подтверждение конкретного эмоционального состояния или отрицательный ответ системы.
В процессе распознавания работает предположение того, что никакой признак не привязан жестко к определенной эмоции, а её определение происходит на основе вычисленных вероятностей. При идентификации, конечно, следует учитывать факторы, которые предшествует проявленной эмоций: ситуация в ее взаимодействии с имеющейся у человека целью. Однако учёт таких обстоятельств не всегда возможен, и, вообще говоря, не особо распространён в широко используемых системах. Тем не менее, его всегда можно учесть при необходимости, пользуясь специально вводимыми константами.
Эмоции и речь тесно взаимосвязаны и являются важными элементами общения. Поэтому, автоматическая и объективная диагностика эмоционального состояния человека по его речи представляет большой практический интерес. Распознавание эмоций в речи имеет большое значение как для исследования самой речи и эмоций, так и для улучшения качества обслуживания клиентов, например, в call-центрах, для специального оборудования, а также для обеспечения общественной безопасности. Различные научные и коммерческие организации занимаются исследованием этого феномена [3].
В данной работе рассматривается задача автоматического распознавания эмоционального состояния диктора и реализуется алгоритм, решающий эту задачу. Существуют следующие проблемы и ограничения задачи распознавания личности по голосу, которые следует учитывать при построении решения:
• Сложная акустическая обстановка (шумы и помехи);
• Разные каналы связи при обучении и распознавании;
• Естественные изменения голоса.
Целью настоящей работы является повышение эффективности автоматической системы распознавания агрессивного эмоционального состояния диктора по голосу, благодаря использованию методов глубокого машинного обучения.
При этом необходимо решить следующие задачи:
1. Улучшить существующую систему идентификации с использованием нейронных сетей.
2. Подобрать оптимальную архитектуру сети, провести тестирование.
3. Разработать графический интерфейс пользователя для демонстрации работы алгоритма в режиме реального времени. Данная задача подразумевает также создание обучающих и тестовых наборов, позволяющих наиболее полно оценить все преимущества и недостатки реализованного алгоритма.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

Курсовые Статьи Диплом Рязань

Заключение

В настоящей работе представлен подход к распознаванию эмоционального состояния диктора по голосу с использованием нейронной сети - автокодировщик. Обучение и тестирование представленного подхода на примере базы данных RAVDESS показало, что использование данной системы существенно улучшает качество распознавания по отношению ко многим известным алгоритмам. Было проведено сравнение точности распознавания с подходом на основе метода опорных векторов, используемым в предыдущей работе. Вероятность ложного срабатывания системы Autoencoder+Softmax layer не превышает 9.7%, тогда как для SVM она составила 15.1%. Вероятность неправильного детектирования для Autoencoder+Softmax layer составила 10.1%, для SVM - 22.1%. Также отметим, что точность распознавания мужских голосов составила 90.7%, женских - 92.3%, то есть качество распознавания практически не зависит от гендерной принадлежности диктора. Стоит учесть ещё и тот факт, что все данные в процессе предобработки были отнормированы, громкость сказанного также не влияла на результат распознавания.
Среда Matlab хорошо подходит для создания алгоритмов распознавания: она не требует применять дополнительные библиотеки, а также позволяет настроить обучение для минимизации ошибки вручную. Это помогает экономить время и средства.
Можно утверждать, что разработанная система автоматического распознавания эмоционального состояния диктора представляет собой готовое для использования программное приложение с возможностью дальнейшей модификации.
В конце хотелось бы отметить, что развитие систем распознавания эмоций упростит не только работу так называемых «call» - центров, но и в целом позволит повысить безопасность общественной жизни.

Литература

1 Джеймс У. Психология. Ч.2. / У.Джеймс - Спб: К.Л.Риккер, 1911 г. - 3 с., 323 - 325 с.
2 Мерков А.Б. Введение в методы статистического обучения / А.Б.Мерков.
— М.: Едиториал УРСС, 2014 г. — 8 с., 19 с., 34 с., 56-57 с.
3 Киселев В.И. Автоматическое определение эмоций по речи / В.И. Киселев
- Минск: Образовательные технологии № 3, 2012 г. - 85-86 с., 87 с.
4 Сидоров К.В. Автоматическое распознавание эмоций человека на основе реконструкции аттракторов образцов речи / К.В. Сидоров, Н.Н. Филатова // журнал «Программные и вычислительные методы №1(1)» - М.: «НБ - Медиа», 2012 г., 67-77 с.
5 Nwe T.L. Speech recognition using hidden Markov models / Nwe T.L., Foo S. W., De Silva L.C. - Singapore: Speech Communication, 2003 г. - p. 604-607
6 El Ayadi M. Survey on speech emotion recognition: Features, classification schemes and databases/ El Ayadi M., Kamel M.S., Karray F. - Амстердам: Elsevier, 2010 г. - 573-575 с., 583-584 с.
7 Хуршудов А. А. Обучение многослойного разреженного автокодировщика на изображениях большого масштаба / Хуршудов А. А. // журнал "Вестник компьютерных и информационных технологий", 2014 г. - 27-30 с.
8 Вьюгин В.В. Математические основы теории машинного обучения/ В.В. Вьюгин - М.: МЦМНО, 2013 г. - 386-390 с.
9 Интернет-ресурс: DataReview - URL: http://datareview.info/ (дата
обращения: 29.04.2019).
10 Moller, M. F. “A Scaled Conjugate Gradient Algorithm for Fast Supervised Learning”, Neural Networks, Vol. 6, 1993, 525-533 с.
11 Интернет-ресурс: база данных RAVDESS - URL:
https://doi.org/10.1371/journal.pone.0196391 (дата обращения: 29.04.2019).
12 Интернет-ресурс: Nuance - URL: https://www.nuance.com/ (дата
обращения: 29.04.2019).
13 Интернет-ресурс: Центр речевых технологий - URL:
https://www.speechpro.ru/ (дата обращения: 29.04.2019).
14 Бадриев И.Б. Разработка графического пользовательского интерфейса в среде MATLAB// И.Б.Бадриев, В.В.Бандеров, О.А.Задворнов - Казань: Казанский государственный университет им. В.И.Ульянова-Ленина, 2010 г., 7-11 с.
15 Нуссбаумер Г. Быстрое преобразование Фурье и алгоритмы вычисления сверток/ Нуссбаумер Г. — М.: Радио и связь, 1985 г., 150-153 с.
16 Cheng C.-Y. Autoencoder for Words / Liou, C.-Y., Cheng, C.-W., Liou, J.-W., and Liou, D.-R., Neurocomputing, Volume 2014 г., p. 139, p. 84-96
17 Olshausen. B. A. “Sparse Coding with an Overcomplete Basis Set: A Strategy Employed by V1.”/ Olshausen, B. A Vision Research, Vol.37, 1997 г., p. 33113325
18 Бонч-Брусневич А.М. Анализ результатов схемотехнического моделирования в пакете MATLAB// А.М. Бонч-Брусневич - М.: МГТУ им Н.Э. Баумана, 2012 г.,13-18 с.
19 Павлейно М.А. Спектральные преобразования в MATLAB// М.А. Павлейно, В.М. Ромаданов - СПб: СПбГУ, 2007 г., 5-24 с.
20 Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных// П. Флах - М.: ДМК Пресс, 2015 г., 215-230 с.
21 Миркин Б.Г. Введение в анализ данных. // Б.Г. Миркин - М.: Юрайт, 2015 г., 96-99 с.
22 Аппалонов А.М. Автоматическая система распознавания эмоционального состояния диктора по голосу. // А.М. Аппалонов - Казань: Сборник статей итоговой научной конференции студентов КФУ, 2019 г. [в печати]
23 Интернет - ресурс: Индикатор - URL: https://indicator.ru/tags/nejroset/ (дата обращения 3.05.2019)
24 Царегородцев В.Г. Оптимизация предобработки признаков выборки
данных: критерий оптимальности. // Журнал "Нейрокомпьютеры:
разработка, применение."- 2005 г, №4, 3-12 c.
25 Степанов П. П. Искусственные нейронные сети //П.П. Степанов: журнал "Молодой ученый". — 2017 г. — №4. — 185-187 c. — URL https://moluch.ru/archive/138/38781/ (дата обращения: 03.06.2019).
26 Интернет - ресурс: Neurohive - URL: https://neurohive.io/ru/ (дата обращения: 3.05.2019)
27 Бочкарев В.В. Начальная инициализация многослойных прогностических искусственных нейронных сетей. // В.В. Бочкарев, Ю.С. Масленникова: Журнал "Ученые записки Казанского государственного университета". - том 152, 2010 г., 7 -14 c.
28 Интернет - ресурс: URL: https://www.mathworks.com/ (дата обращения:
3.05.2019)
29 Интернет - ресурс: URL: https://towardsdatascience.com/ (дата обращения:
10.05.2019)

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Подобные работы

КРИМИНАЛИСТИЧЕСКИЕ ОСНОВЫ ФОНОСКОПИИ
Бакалаврская работа, юриспруденция. Язык работы: Русский. Цена: 3750 р. Год сдачи: 2018

Заказать работу

Заявка на оценку стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (130372)

Новости

06.01.2018

Помощь студентам и аспирантам в выполнении работ от наших партнеров

Помощь в выполнении учебных и научных работ на заказ ОФОРМИТЬ ЗАКАЗ

дальше

»» Все новости

Статьи

»» Все статьи

Заказать работу

Заявка на оценку стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Логин
Пароль

РАЗВИТИЕ АВТОМАТИЧЕСКОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ДИКТОРА ПО ГОЛОСУ

Тип работы

Дипломные работы, ВКР

Предмет

физика

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

402

Подобные работы

Заказать работу

Каталог работ (130372)

Новости

Статьи

Заказать работу