Распознавание негативных эмоций с использованием нейросетевых технологий
|
Введение 4
Глава 1. Задача автоматического распознавания эмоций: обзор существующих подходов 6
1.1. Задача распознавания эмоций: подходы и решения 6
1.2. Обзор научной литературы 7
1.3. Выводы по главе 1 24
Глава 2. Получение речевого материала для задачи автоматического распознавания эмоций 25
2.1. Обоснование выбора перечня эмоций 25
2.2. Обоснование списка фраз 31
2.3. Описание изначального набора данных 36
2.4. Перцептивный эксперимент 38
2.4.1. Результаты перцептивного эксперимента 41
2.5. Предобработка 45
2.5.1. Алгоритм преобразования аудио-файла в спектрограмму 45
2.5.2. Алгоритм преобразования аудио-файла в мел-спектрограмму 46
2.5.3. Предобработка аудио-файла. Графики Основного тона 48
2.5.3.1. Предобработка изображения 57
2.5.4. Организация и хранение фалов 58
2.6. Описание набора данных 62
2.7. Выводы по главе 2 64
Глава 3. Реализация сверточной нейронной сети 65
3.1. Теория и топология сверточной нейронной сети 65
3.2. Средства реализации и окружение 66
3.3. Реализация и обучение нейронной сети 66
3.4. Реализация системы классификации эмоций 68
3.5. Выводы по главе 3 72
Заключение 73
Список литературы 75
Приложения 83
Приложение А. Список фраз 83
Приложение Б. Списки фраз для дикторов 88
Приложение В. Тест п методике Н. Холла 93
Глава 1. Задача автоматического распознавания эмоций: обзор существующих подходов 6
1.1. Задача распознавания эмоций: подходы и решения 6
1.2. Обзор научной литературы 7
1.3. Выводы по главе 1 24
Глава 2. Получение речевого материала для задачи автоматического распознавания эмоций 25
2.1. Обоснование выбора перечня эмоций 25
2.2. Обоснование списка фраз 31
2.3. Описание изначального набора данных 36
2.4. Перцептивный эксперимент 38
2.4.1. Результаты перцептивного эксперимента 41
2.5. Предобработка 45
2.5.1. Алгоритм преобразования аудио-файла в спектрограмму 45
2.5.2. Алгоритм преобразования аудио-файла в мел-спектрограмму 46
2.5.3. Предобработка аудио-файла. Графики Основного тона 48
2.5.3.1. Предобработка изображения 57
2.5.4. Организация и хранение фалов 58
2.6. Описание набора данных 62
2.7. Выводы по главе 2 64
Глава 3. Реализация сверточной нейронной сети 65
3.1. Теория и топология сверточной нейронной сети 65
3.2. Средства реализации и окружение 66
3.3. Реализация и обучение нейронной сети 66
3.4. Реализация системы классификации эмоций 68
3.5. Выводы по главе 3 72
Заключение 73
Список литературы 75
Приложения 83
Приложение А. Список фраз 83
Приложение Б. Списки фраз для дикторов 88
Приложение В. Тест п методике Н. Холла 93
Данная работа посвящена вопросам создания систем распознавания эмоций по голосу с использованием нейросетевых технологий.
Системы распознавания эмоций по голосу и речи с использованием нейросетевых технологий набирают популярность, поскольку данные технологии направлены на разработку систем, совершенствующих человеко-машинное взаимодействие. При проектировании подобных систем разработчики и исследователи сталкиваются с рядом проблем: какую выбрать модель и структуру нейронной сети; какие данные подавать на вход. Главное отличие человека от машины заключается в том, что человеку информация подается по нескольким каналам: изображение, звук, текст. Также, важную роль для интерпретации эмоции играет контекст. Мультимодальные системы, получающие на вход информацию по нескольким каналам, позволяют более точно распознавать и классифицировать эмоции. На данный момент высокой точности достигла обработка визуальных данных, например, распознавание лиц и распознавание эмоций по лицу.
Задачу распознавания эмоций можно отнести к задаче классификации, которая на данный момент является важной областью применения нейронных сетей.
Объектом данного исследования является распознавание негативных эмоций по голосу с использованием нейросетевых технологий.
Предмет исследования - особенности реализации системы по распознаванию эмоций с использованием нейросетевых технологий .
Целью исследования является разработка системы распознавания негативных эмоций с использованием нейросетевых технологий.
Для достижения цели были поставлены и решены следующие задачи, перечисленные ниже.
1. Определение перечня эмоций для данной задачи на основе научной литературы и составление списка фраз, соответствующих данным эмоциям.
2. Проведение записи дикторов.
3. Формирование обучающего набора данных.
4. Проведение перцептивного эксперимента.
5. Определение основных нейросетевых подходов, которые применяются для решения задач распознавания эмоций по речи, и выбор подходящей методики.
6. Реализация алгоритма предобработки исходных файлов, т.е. преобразования исходного аудиофайла в изображение для подачи на вход нейронной сети.
7. Подготовка обучающей и тестовой выборки.
8. Реализация, обучение и тестирование нейронной сети.
Выпускная квалификационная работа состоит из введения, трех глав, заключения, библиографии и приложений. Объем работы составляет 96 страниц, объем библиографии - 80 наименований.
В первой главе приведено описание предметной области, в рамках которой выполнена данная работа. Проводится обзор аналогичных разработок и способов решения поставленной задачи.
Во второй главе описана теоретическая составляющая: рассмотрены классификации эмоций, и обозначен перечень эмоций, включенный в исследование. Описан процесс записи набора данных и предобработка полученного материала. Представлена организация и результаты перцептивного эксперимента.
В третьей главе описаны топология нейронной сети, средства разработки, тестирование нейронной сети и полученные результаты.
В заключении представлены основные результаты выполненной работы.
Системы распознавания эмоций по голосу и речи с использованием нейросетевых технологий набирают популярность, поскольку данные технологии направлены на разработку систем, совершенствующих человеко-машинное взаимодействие. При проектировании подобных систем разработчики и исследователи сталкиваются с рядом проблем: какую выбрать модель и структуру нейронной сети; какие данные подавать на вход. Главное отличие человека от машины заключается в том, что человеку информация подается по нескольким каналам: изображение, звук, текст. Также, важную роль для интерпретации эмоции играет контекст. Мультимодальные системы, получающие на вход информацию по нескольким каналам, позволяют более точно распознавать и классифицировать эмоции. На данный момент высокой точности достигла обработка визуальных данных, например, распознавание лиц и распознавание эмоций по лицу.
Задачу распознавания эмоций можно отнести к задаче классификации, которая на данный момент является важной областью применения нейронных сетей.
Объектом данного исследования является распознавание негативных эмоций по голосу с использованием нейросетевых технологий.
Предмет исследования - особенности реализации системы по распознаванию эмоций с использованием нейросетевых технологий .
Целью исследования является разработка системы распознавания негативных эмоций с использованием нейросетевых технологий.
Для достижения цели были поставлены и решены следующие задачи, перечисленные ниже.
1. Определение перечня эмоций для данной задачи на основе научной литературы и составление списка фраз, соответствующих данным эмоциям.
2. Проведение записи дикторов.
3. Формирование обучающего набора данных.
4. Проведение перцептивного эксперимента.
5. Определение основных нейросетевых подходов, которые применяются для решения задач распознавания эмоций по речи, и выбор подходящей методики.
6. Реализация алгоритма предобработки исходных файлов, т.е. преобразования исходного аудиофайла в изображение для подачи на вход нейронной сети.
7. Подготовка обучающей и тестовой выборки.
8. Реализация, обучение и тестирование нейронной сети.
Выпускная квалификационная работа состоит из введения, трех глав, заключения, библиографии и приложений. Объем работы составляет 96 страниц, объем библиографии - 80 наименований.
В первой главе приведено описание предметной области, в рамках которой выполнена данная работа. Проводится обзор аналогичных разработок и способов решения поставленной задачи.
Во второй главе описана теоретическая составляющая: рассмотрены классификации эмоций, и обозначен перечень эмоций, включенный в исследование. Описан процесс записи набора данных и предобработка полученного материала. Представлена организация и результаты перцептивного эксперимента.
В третьей главе описаны топология нейронной сети, средства разработки, тестирование нейронной сети и полученные результаты.
В заключении представлены основные результаты выполненной работы.
В рамках данной работы была разработана система, которая позволяет классифицировать негативные эмоции с использованием нейросетевых технологий. При этом были решены следующие задачи:
1. Записан уникальный набор речевых данных. Были записаны 72 диктора мужского пола, в возрасте от 20 до 60 лет. После обработки записанного материала в общий корпус вошли 1 442 аудио-фрагмента общей продолжительностью 1 час 17 минут. В общий перечень эмоций данного исследования вошли: страх, раздражение, удивление, печаль, отвращение, радость, презрение, нейтральность, ехидство.
2. Проведен перцептивный эксперимент. Участие приняли 14 респондентов в возрасте от 23 до 74 лет. В результате перцептивного эксперимента начальный набор данных сократился до 646 аудио-фрагментов, общей продолжительностью 30 минут 43 секунды.
3. На основе исследования научной литературы выбрана методика обработки речевых данных. В связи с тем, что было принято решение о реализации сверточной нейронной сети, на вход которой подаются изображения, необходимо было преобразовать аудио-фрагменты в изображения. Было принято решение преобразовать каждый аудио-фрагмент в три типа изображений: изображение графика основного тона, спектрограмму и мел-спектрограмму.
4. Разработаны и реализованы алгоритмы предобработки данных. В результате аудио-фрагменты были преобразованы в спектрограммы и мел- спектрограммы. Изображения графиков основного тона извлекались вручную.
5. Сформированы обучающие и тестовые выборки. В общей сложности на данный момент сформированы 4 набора данных. Временная продолжительность каждого представлена ниже:
1) начальный набор данных с разбалансировкой - 1 час 17 минут;
2) начальный набор данных без разбалансировки - 39 минут
15 секунд;
3) начальный набор данных для бинарной классификации - 1 час 9 минут;
4) набор данных после ПЭ для бинарной классификации - 26 минут 21 секунда.
6. Реализована, обучена и протестирована нейронная сеть.
Максимальные показатели, которых удалось достичь, представлены ниже.
Графики основного тона: 0.725663 - набор данных после перцептивного эксперимента для бинарной классификации.
Спектрограммы: 0.964601 - набор данных после перцептивного эксперимента для бинарной классификации.
Мел-спектрограммы: 0.821428 - набор данных после перцептивного эксперимента для бинарной классификации.
Дальнейшая работа может быть направлена на улучшение точности классификации. Для этого в первую очередь необходимо существенно расширить размер наборов данных, рассмотреть другие форматы предобработки аудио-материала и, возможно, изменить топологию нейронной сети.
1. Записан уникальный набор речевых данных. Были записаны 72 диктора мужского пола, в возрасте от 20 до 60 лет. После обработки записанного материала в общий корпус вошли 1 442 аудио-фрагмента общей продолжительностью 1 час 17 минут. В общий перечень эмоций данного исследования вошли: страх, раздражение, удивление, печаль, отвращение, радость, презрение, нейтральность, ехидство.
2. Проведен перцептивный эксперимент. Участие приняли 14 респондентов в возрасте от 23 до 74 лет. В результате перцептивного эксперимента начальный набор данных сократился до 646 аудио-фрагментов, общей продолжительностью 30 минут 43 секунды.
3. На основе исследования научной литературы выбрана методика обработки речевых данных. В связи с тем, что было принято решение о реализации сверточной нейронной сети, на вход которой подаются изображения, необходимо было преобразовать аудио-фрагменты в изображения. Было принято решение преобразовать каждый аудио-фрагмент в три типа изображений: изображение графика основного тона, спектрограмму и мел-спектрограмму.
4. Разработаны и реализованы алгоритмы предобработки данных. В результате аудио-фрагменты были преобразованы в спектрограммы и мел- спектрограммы. Изображения графиков основного тона извлекались вручную.
5. Сформированы обучающие и тестовые выборки. В общей сложности на данный момент сформированы 4 набора данных. Временная продолжительность каждого представлена ниже:
1) начальный набор данных с разбалансировкой - 1 час 17 минут;
2) начальный набор данных без разбалансировки - 39 минут
15 секунд;
3) начальный набор данных для бинарной классификации - 1 час 9 минут;
4) набор данных после ПЭ для бинарной классификации - 26 минут 21 секунда.
6. Реализована, обучена и протестирована нейронная сеть.
Максимальные показатели, которых удалось достичь, представлены ниже.
Графики основного тона: 0.725663 - набор данных после перцептивного эксперимента для бинарной классификации.
Спектрограммы: 0.964601 - набор данных после перцептивного эксперимента для бинарной классификации.
Мел-спектрограммы: 0.821428 - набор данных после перцептивного эксперимента для бинарной классификации.
Дальнейшая работа может быть направлена на улучшение точности классификации. Для этого в первую очередь необходимо существенно расширить размер наборов данных, рассмотреть другие форматы предобработки аудио-материала и, возможно, изменить топологию нейронной сети.



