Тема: Система распознавания эмоций и аномалий в выражениях лица человека и сгенерированных лиц с помощью методов машинного обучения
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Обзор предметной области 7
1.1. Базовые понятия предметной области 7
1.2. Постановка задачи распознавания лицевых выражений человека .... 7
1.3. Обзор датасетов для распознавания лицевых выражений 7
1.4. Модели для распознавания лицевых выражений 9
1.4.1. Классические алгоритмы компьютерного зрения 9
1.4.2. Нейросетевые модели 11
1.4.3. EfficientNet v1/v2 13
1.4.4. DAN 15
1.4.5. Другие нейросетевые методы 17
1.5. Модели для генерации изображений 17
1.5.1. Модели, основанные на архитектуре генеративно-состязательных нейросетей 18
1.5.2. DualStyleGan 21
1.6. Задача генерации аватаров 23
1.6.1. Применение генеративных моделей для создания аватаров 23
1.7. Детекция аномалий 24
1.7.1. Архитектура ’’Сиамская модель” 24
1.8. Мотивация работы. Формулировка цели и постановка задач 26
2. Разработка моделей распознавания эмоций и генерации аватаров 28
2.1. Выбор датасета для задачи распознавания лицевых выражений людей . 28
2.2. Детали обучения моделей для распознавания лиц людей 28
2.2.1. Предобработка данных 28
2.2.2. EfficientNet 29
2.2.3. DAN 31
2.3. Генерация аватаров с помощью генеративных моделей 34
2.3.1. Выбор целевого стиля для генерации аватаров 34
2.3.2. Технические детали генерации датасета аватаров 35
2.3.3. Примеры несоответствия эмоций исходного изображения и аватара 36
3. Система детектирования аномалий 37
3.1. Подготовка данных и моделей для реализации системы детектирования
аномалий 37
3.1.1. Разметка датасета аватаров 37
3.1.2. Дообучение модели распознавания эмоций на изображениях ава-таров 38
3.2. Разработка системы детектирования аномалий 38
3.2.1. Первая версия пайплайна 39
3.2.2. Вторая версия пайплайна 41
Список литературы 42
Приложение 48
📖 Введение
С развитием проектов, связанных с метавселенными - виртуальными пространствами, где все участники наделены аватарами, - искусственный интеллект становится неотъемлемым инструментом для создания гармоничного и плодотворного общения между людьми и виртуальными сущностями. Особенно можно отметить ряд задач, связанных с моделированием внешности человека. Последние годы множество компаний и исследовательских лабораторий работают над созданием метавселенных - виртуальных миров, в которых люди будут иметь возможность взаимодействовать друг с другом с помощью гарнитур виртуальной реальности (VR) и дополненной реальности (AR) . Внутри метавселенной каждому человеку соответствует аватар - 2D или 3D графическое (цифровое) представление пользователя . Поэтому, высокий интерес вызывает сфера распознавания эмоций лица человека(FER) на основе глубокого анализа изображений и видео, так как одной из самых важных частей человеческого взаимодействие - это общение. При неправильной трансляции эмоции или выражения человеческого лица его аватара, слова человека могут быть восприняты неправильно.
Объем и количество крупных баз данных по задаче распознавания эмоций значительно расширились за последние два десятилетия RAF-DB, Affectnet, что привело к значительному улучшению точности распознавания некоторых моделей сверточных нейронных сетей (CNN). Однако, несмотря на недавние выдающиеся результаты, FER до сих пор считается сложной задачей из-за нескольких причин:
• Глобальные факторы. Существующие методы FER не до конца распознают глобальные факторы входных изображений из-за ограничения сверточных локальных рецептивных полей;
• Межклассовое сходство. Несколько категорий выражений часто включают похожие изображения с небольшими различиями между ними;
• Внутриклассовое неравенство. Изображения из той же категории выражения лица могут существенно отличаться друг от друга, например, цвет лица, пол, фон изображения и возраст человека различается в зависимости от экземпляра;
• Чувствительность моделей. Различия в качестве и разрешении изображения могут часто ставить под угрозу эффективность сетей глубокого обучения при использовании без необходимых мер предосторожности. Изображения из наборов данных, которые похожи на изображения из реальной жизни(т the wild) и других наборов данных FER представлены в широком диапазоне с разными размерами изображений. Следовательно, для FER важно обеспечить стабильную производительность в разных масштабах.
Графическое представление человека можно получить с помощью инструментов для рендеринга или нарисовать вручную. Однако это требует навыков и времени, между тем современные методы глубокого обучения позволяют получать высококачественные изображения, уменьшая затраты по времени и также не имея особых требований к навыкам пользователя.
Задача генерации графического представления людей является весьма сложной задачей, так как достаточно тяжело точно передавать детали лица и его выражение, ведь человеческое лицо представляет собой целую систему из множества мимических мышц. В данных момент нет готовых метавселенных, в которых можно было бы сгенерировать готовые аватары по лицу человека и собрать хороший датасет для обучения и улучшения моделей, которые работают с цифровыми представлениями лица человека. Несмотря на это, в настоящее время существуют генеративные нейросетевые модели, которые достаточно успешно справляются с image-to-image генерацией качественных изображений. Такие модели в том числе используются для создания аватаров по исходному изображению человека. Однако они имеют свои достоинства и недостатки в зависимости от используемой архитектуры: разнообразие генерируемых данных, частота дискретизации, скорость генерации и т.д. Поэтому, многие из них могут недостаточно точно передавать детали выражения эмоций. Однако, такие данные могут помочь построить модель, которую в будущем можно будет активно применить в реальных системах.
Целью данной работы является построение системы, которая будет распознавать несоответствия(аномалии) между выражениями лица человека и лица его сгенерированного аватара используя современные методы машинного обучения.
✅ Заключение
Пусть у нас также имеются парные модели распознавания эмоций и мы удалили из них последние два слоя.
Далее, конкатенируем выходы двух моделей и напишем над ними полносвязную нейронную сеть, которая будет обрабатывать вектора и выдавать метку от 0 до 1 - есть аномалия или нет.
Технически, построим архитектуру, добавив полносвязные слои, как на рисунке 27...





