Введение 4
Глава 1. Задача автоматического распознавания эмоций: обзор существующих подходов 6
1.1. Задача распознавания эмоций: подходы и решения 6
1.2. Обзор научной литературы 7
1.3. Выводы по главе 1 24
Глава 2. Получение речевого материала для задачи автоматического распознавания эмоций 25
2.1. Обоснование выбора перечня эмоций 25
2.2. Обоснование списка фраз 31
2.3. Описание изначального набора данных 36
2.4. Перцептивный эксперимент 38
2.4.1. Результаты перцептивного эксперимента 41
2.5. Предобработка 45
2.5.1. Алгоритм преобразования аудио-файла в спектрограмму 45
2.5.2. Алгоритм преобразования аудио-файла в мел-спектрограмму 46
2.5.3. Предобработка аудио-файла. Графики Основного тона 48
2.5.3.1. Предобработка изображения 57
2.5.4. Организация и хранение фалов 58
2.6. Описание набора данных 62
2.7. Выводы по главе 2 64
Глава 3. Реализация сверточной нейронной сети 65
3.1. Теория и топология сверточной нейронной сети 65
3.2. Средства реализации и окружение 66
3.3. Реализация и обучение нейронной сети 66
3.4. Реализация системы классификации эмоций 68
3.5. Выводы по главе 3 72
Заключение 73
Список литературы 75
Приложения 83
Приложение А. Список фраз 83
Приложение Б. Списки фраз для дикторов 88
Приложение В. Тест по методике Н. Холла 93
Данная работа посвящена вопросам создания систем распознавания эмоций по голосу с использованием нейросетевых технологий.
Системы распознавания эмоций по голосу и речи с использованием нейросетевых технологий набирают популярность, поскольку данные технологии направлены на разработку систем, совершенствующих человеко-машинное взаимодействие. При проектировании подобных систем разработчики и исследователи сталкиваются с рядом проблем: какую выбрать модель и структуру нейронной сети; какие данные подавать на вход. Главное отличие человека от машины заключается в том, что человеку информация подается по нескольким каналам: изображение, звук, текст. Также, важную роль для интерпретации эмоции играет контекст. Мультимодальные системы, получающие на вход информацию по нескольким каналам, позволяют более точно распознавать и классифицировать эмоции. На данный момент высокой точности достигла обработка визуальных данных, например, распознавание лиц и распознавание эмоций по лицу.
Задачу распознавания эмоций можно отнести к задаче классификации, которая на данный момент является важной областью применения нейронных сетей.
Объектом данного исследования является распознавание негативных эмоций по голосу с использованием нейросетевых технологий.
Предмет исследования - особенности реализации системы по распознаванию эмоций с использованием нейросетевых технологий.
Целью исследования является разработка системы распознавания негативных эмоций с использованием нейросетевых технологий.
Для достижения цели были поставлены и решены следующие задачи, перечисленные ниже.
1. Определение перечня эмоций для данной задачи на основе научной литературы и составление списка фраз, соответствующих данным эмоциям.
2. Проведение записи дикторов.
3. Формирование обучающего набора данных.
4. Проведение перцептивного эксперимента.
5. Определение основных нейросетевых подходов, которые применяются для решения задач распознавания эмоций по речи, и выбор подходящей методики.
6. Реализация алгоритма предобработки исходных файлов, т.е. преобразования исходного аудиофайла в изображение для подачи на вход нейронной сети.
7. Подготовка обучающей и тестовой выборки.
8. Реализация, обучение и тестирование нейронной сети.
Выпускная квалификационная работа состоит из введения, трех глав, заключения, библиографии и приложений. Объем работы составляет 96 страниц, объем библиографии - 80 наименований.
В первой главе приведено описание предметной области, в рамках которой выполнена данная работа. Проводится обзор аналогичных разработок и способов решения поставленной задачи.
Во второй главе описана теоретическая составляющая: рассмотрены классификации эмоций, и обозначен перечень эмоций, включенный в исследование. Описан процесс записи набора данных и предобработка полученного материала. Представлена организация и результаты перцептивного эксперимента.
В третьей главе описаны топология нейронной сети, средства разработки, тестирование нейронной сети и полученные результаты.
В заключении представлены основные результаты выполненной работы.
В рамках данной работы была разработана система, которая позволяет классифицировать негативные эмоции с использованием нейросетевых технологий. При этом были решены следующие задачи:
1. Записан уникальный набор речевых данных. Были записаны 72 диктора мужского пола, в возрасте от 20 до 60 лет. После обработки записанного материала в общий корпус вошли 1 442 аудио-фрагмента общей продолжительностью 1 час 17 минут. В общий перечень эмоций данного исследования вошли: страх, раздражение, удивление, печаль, отвращение, радость, презрение, нейтральность, ехидство.
2. Проведен перцептивный эксперимент. Участие приняли 14 респондентов в возрасте от 23 до 74 лет. В результате перцептивного эксперимента начальный набор данных сократился до 646 аудио-фрагментов, общей продолжительностью 30 минут 43 секунды.
3. На основе исследования научной литературы выбрана методика обработки речевых данных. В связи с тем, что было принято решение о реализации сверточной нейронной сети, на вход которой подаются изображения, необходимо было преобразовать аудио-фрагменты в изображения. Было принято решение преобразовать каждый аудио-фрагмент в три типа изображений: изображение графика основного тона, спектрограмму и мел-спектрограмму.
4. Разработаны и реализованы алгоритмы предобработки данных. В результате аудио-фрагменты были преобразованы в спектрограммы и мел- спектрограммы. Изображения графиков основного тона извлекались вручную.
5. Сформированы обучающие и тестовые выборки. В общей сложности на данный момент сформированы 4 набора данных. Временная продолжительность каждого представлена ниже:
1) начальный набор данных с разбалансировкой - 1 час 17 минут;
2) начальный набор данных без разбалансировки - 39 минут 15 секунд;
3) начальный набор данных для бинарной классификации - 1 час 9 минут;
4) набор данных после ПЭ для бинарной классификации - 26 минут 21 секунда.
6. Реализована, обучена и протестирована нейронная сеть.
Максимальные показатели, которых удалось достичь, представлены ниже.
Графики основного тона: 0.725663 - набор данных после перцептивного эксперимента для бинарной классификации.
Спектрограммы: 0.964601 - набор данных после перцептивного эксперимента для бинарной классификации.
Мел-спектрограммы: 0.821428 - набор данных после перцептивного эксперимента для бинарной классификации.
Дальнейшая работа может быть направлена на улучшение точности классификации. Для этого в первую очередь необходимо существенно расширить размер наборов данных, рассмотреть другие форматы предобработки аудио-материала и, возможно, изменить топологию нейронной сети.
1. Алдошина И. Связь акустических параметров с эмоциональной выразительностью речи и пения // Звукорежиссёр. 2003. № 2. С. 17 - 25.
2. Бабенко Л.Г. Лексические обозначения эмоций в русском языке. Свердловск: Из-во Урал. Ун-та. 1989. 184 с. ISBN 5-7525-0061-3.
3. Беляев А. (2019) Мультимодальное распознавание эмоций [видеозапись презентации мультимодального корпуса для распознавания эмоций на конференции Moscow Data Science Major (31.08.2019), секция Fail/Success story] // YouTube. 7.10.2019 (https://www.youtube.com/watch?v=UJKqls7RsuY).
4. Бондарко Л.В., Вербицкая Л.А., Гордина М.В. Основы общей фонетики: Учеб. пособие для студ. филол. и лингв. фак. высш. учеб. заведений. - 4-е издание., испр. - СПб.: Филологический факультет СПбГУ; М.: Издательский центр “Академия”, 2004. - 160с. ISBN 5-8465-0177-X (Филол.фак. СПбГУ), ISBN 5-7695-1658-5 (Изд.центр “Академия”).
5. Бэн А. Психология. М., 1906. Т. 2 (Кн. 3 - 4).
6. Вундт В. Основы физиологической психологии: Чувства и аффекты. СПб., 1880. Вып. 55 (Т. 3, гл. XVI). 216 с.
7. Гиноян Р.В., Хомутов А.Е. Физиология эмоций. Учебно-методическое пособие. Изд-во Нижегородского госуниверситета. 2010. 66 с.
8. Додонов Б.И. Эмоция как ценность. - М.: Политиздат, 1978. - 272 с.
9. Жерон О. Прикладное машинное обучение с помощью Scikit-Learn и TensorFlow: концепции, инструменты и техники для создания интеллектуальных систем. - Пер. с англ. - СпБ.: ООО "Альфа-книга', 2018. - 688 с. ISBN 978-5-9500296-2-2.
10. Изард К. Эмоции человека. - Изд-во Питер, 2002, 464 с.
11. Ильин Е. П. Эмоции и чувства. 2-е изд. — СПб.: Питер, 2011. - 783 с. ISBN 978-5-4237-0059-1.
12. Карабущенко Н.Б., Сунгурова Н.Л., Чхиквадзе Т.В., Пилишвили Т.С. Особенности распознавания эмоций студентами из России и стран Азии (интеллектуальные основания) // Вестник ТвГУ. Серия "Педагогика и психология". 2020. № 1 (50). С. 104-113. DOI: 10.26456/vtpsyped/2020.1.104
13. Карелина И.О. Развитие понимания эмоций в период дошкольного детства: психологический ракурс : монография. - Прага : Vedecko vydavatelske centrum «Sociosfera-CZ», 2017. - 178 с. ISBN 978-80-7526-2288.
14. Кислова О.О., Русалова М.Н. Восприятие эмоций в речи. Обзор исследований в психологии и физиологии // Успехи физиологических наук. - 2013. - том 44, № 2. - С. 41 - 61.
15. Кодзасов С.В., Кривнова О.Ф. Общая фонетика: Учебник. М.:Рос. гос. гуманит. ун-т, 2001. 592 с. ISBN 5-7281-0347-2.
...