Тип работы:
Предмет:
Язык работы:


Система распознавания эмоций и аномалий в выражениях лица человека и сгенерированных лиц с помощью методов машинного обучения

Работа №125431

Тип работы

Бакалаврская работа

Предмет

модели данных

Объем работы48
Год сдачи2023
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
83
Не подходит работа?

Узнай цену на написание


Введение 4
1. Обзор предметной области 7
1.1. Базовые понятия предметной области 7
1.2. Постановка задачи распознавания лицевых выражений человека 7
1.3. Обзор датасетов для распознавания лицевых выражений 7
1.4. Модели для распознавания лицевых выражений 9
1.4.1. Классические алгоритмы компьютерного зрения 9
1.4.2. Нейросетевые модели 11
1.4.3. EfficientNet v1/v2 13
1.4.4. DAN 15
1.4.5. Другие нейросетевые методы 17
1.5. Модели для генерации изображений 17
1.5.1. Модели, основанные на архитектуре генеративно-состязательных нейросетей 18
1.5.2. DualStyleGan 21
1.6. Задача генерации аватаров 23
1.6.1. Применение генеративных моделей для создания аватаров 23
1.7. Детекция аномалий 24
1.7.1. Архитектура ’’Сиамская модель” 24
1.8. Мотивация работы. Формулировка цели и постановка задач 26
2. Разработка моделей распознавания эмоций и генерации аватаров 28
2.1. Выбор датасета для задачи распознавания лицевых выражений людей 28
2.2. Детали обучения моделей для распознавания лиц людей 28
2.2.1. Предобработка данных 28
2.2.2. EfficientNet 29
2.2.3. DAN 31
2.3. Генерация аватаров с помощью генеративных моделей 34
2.3.1. Выбор целевого стиля для генерации аватаров 34
2.3.2. Технические детали генерации датасета аватаров 35
2.3.3. Примеры несоответствия эмоций исходного изображения и аватара 36
3. Система детектирования аномалий 37
3.1. Подготовка данных и моделей для реализации системы детектирования аномалий 37
3.1.1. Разметка датасета аватаров 37
3.1.2. Дообучение модели распознавания эмоций на изображениях ава­таров 38
3.2. Разработка системы детектирования аномалий 38
3.2.1. Первая версия пайплайна 39
3.2.2. Вторая версия пайплайна 41
Список литературы 42
Приложение отсутствует

За последние десятилетия технологические достижения оставили глубокий след на нашем образе жизни. Эти достижения все больше проникают в различные сфе­ры жизни человека. В последнее время одним из особенно актуальных направлений является внедрение машинного обучения и искусственного интеллекта (ИИ) в челове­ческие области, которые раньше казались недостижимыми для применения компью­терных алгоритмов.
С развитием проектов, связанных с метавселенными - виртуальными простран­ствами, где все участники наделены аватарами, - искусственный интеллект стано­вится неотъемлемым инструментом для создания гармоничного и плодотворного об­щения между людьми и виртуальными сущностями. Особенно можно отметить ряд задач, связанных с моделированием внешности человека. Последние годы множество компаний и исследовательских лабораторий работают над созданием метавселенных - виртуальных миров, в которых люди будут иметь возможность взаимодействовать друг с другом с помощью гарнитур виртуальной реальности (VR) и дополненной ре­альности (AR)1. Внутри метавселенной каждому человеку соответствует аватар - 2D или 3D графическое (цифровое) представление пользователя2. Поэтому, высокий ин­терес вызывает сфера распознавания эмоций лица человека(FER) на основе глубокого анализа изображений и видео, так как одной из самых важных частей человеческого взаимодействие - это общение. При неправильной трансляции эмоции или выражения человеческого лица его аватара, слова человека могут быть восприняты неправильно.
Объем и количество крупных баз данных по задаче распознавания эмоций зна­чительно расширились за последние два десятилетия RAF-DB [39], Affectnet [2], что привело к значительному улучшению точности распознавания некоторых моделей сверточных нейронных сетей (CNN). Однако, несмотря на недавние выдающиеся ре­зультаты, FER до сих пор считается сложной задачей из-за нескольких причин:
• Глобальные факторы. Существующие методы FER не до конца распознают глобальные факторы входных изображений из-за ограничения сверточных ло­кальных рецептивных полей;
• Межклассовое сходство. Несколько категорий выражений часто включают похожие изображения с небольшими различиями между ними;
• Внутриклассовое неравенство. Изображения из той же категории выраже­ния лица могут существенно отличаться друг от друга, например, цвет лица, пол, фон изображения и возраст человека различается в зависимости от экзем­пляра;
• Чувствительность моделей. Различия в качестве и разрешении изображения могут часто ставить под угрозу эффективность сетей глубокого обучения при использовании без необходимых мер предосторожности. Изображения из набо­ров данных, которые похожи на изображения из реальной жизни(т the wild) и других наборов данных FER представлены в широком диапазоне с разными размерами изображений. Следовательно, для FER важно обеспечить стабиль­ную производительность в разных масштабах.
Графическое представление человека можно получить с помощью инструментов для рендеринга или нарисовать вручную. Однако это требует навыков и времени, между тем современные методы глубокого обучения позволяют получать высокока­чественные изображения, уменьшая затраты по времени и также не имея особых требований к навыкам пользователя.
Задача генерации графического представления людей является весьма сложной задачей, так как достаточно тяжело точно передавать детали лица и его выражение, ведь человеческое лицо представляет собой целую систему из множества мимиче­ских мышц. В данных момент нет готовых метавселенных, в которых можно было бы сгенерировать готовые аватары по лицу человека и собрать хороший датасет для обу­чения и улучшения моделей, которые работают с цифровыми представлениями лица человека. Несмотря на это, в настоящее время существуют генеративные нейросете­вые модели, которые достаточно успешно справляются с image-to-image генерацией качественных изображений. Такие модели в том числе используются для создания аватаров по исходному изображению человека. Однако они имеют свои достоинства и недостатки в зависимости от используемой архитектуры: разнообразие генерируе­мых данных, частота дискретизации, скорость генерации и т.д. Поэтому, многие из них могут недостаточно точно передавать детали выражения эмоций. Однако, такие данные могут помочь построить модель, которую в будущем можно будет активно применить в реальных системах.
Целью данной работы является построение системы, которая будет распознавать несоответствия(аномалии) между выражениями лица человека и лица его сгенериро­ванного аватара используя современные методы машинного обучения.
Структура работы
В главе 1 будет описана постановка задачи распознавания лицевых выражений, постановка задачи генерации аватаров для обучения системы и будет рассказано о пайплайне детекции аномалий между эмоциями реальных и сгенерированных лиц. Также, приводится обзор предметной области, датасетов и существующих решений для подобных задач, их сравнение.
В главе 2 будут описаны детали реализации, особенности и применения моделей FER. Будут приведены использующиеся датасеты, гиперпараметры моделей, метрики во время обучения и валидации, сравнение разных версий моделей. Также, будет опи­сана модель для генерации датасета аватаров, необходимого для построения системы детекции аномалий, с примерами сгенерированных лиц.
В главе 3 будут описаны детали реализации системы детекции аномалий, приве­дены результаты и анализ распознавания.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В работе описаны задачи распознавания лицевых выражений, генерации аватаров для обучения информационной системы, выявления аномалий между эмоциями реальных и сгенерированных лиц. Изучены существующие решения для подобных задач, проведён их сравнительный анализ.
Отдельная глава посвящена описанию нюансов реализации и применения моделей FER. В ней приведены использующиеся датасеты, гиперпараметры моделей, метрики во время обучения и валидации, итоги сравнения разных версий моделей.
Представлена модель для генерации датасета аватаров, необходимого для построения системы детекции аномалий, с примерами сгенерированных лиц. Описаны детали реализации системы определения аномалий, приве­дены результаты и аналитика распознавания.


[1] Buslaev Alexander, Iglovikov Vladimir I., Khvedchenya Eugene, Parinov Alex, Druzhinin Mikhail, and Kalinin Alexandr A. Albumentations: Fast and Flexible Image Augmentations // Information. — 2020. — feb.—Vol. 11, no. 2. — P. 125. — Access mode:
[2] Ali Mollahosseini Behzad Hasani and Mahoor Mohammad. AffectNet: A Database for Facial Expression, Valence, and Arousal Computing in the Wild // arXiv:1708.03985. - 2017.
[3] An F., Liu Z. Facial expression recognition algorithm based on parameter adaptive initialization of CNN and LSTM // Visual Computer. — 2020. —Vol. 36. —P. 483-498.
[4] Karras Tero, Laine Samuli, Aittala Miika, Hellsten Janne, Lehtinen Jaakko, and Aila Timo. Analyzing and Improving the Image Quality of StyleGAN. — 2020. — 1912.04958.
[5] Arjovsky Martin, Chintala Soumith, and Bottou Leon. Wasserstein GAN. — 2017.— 1701.07875.
[6] Vaswani Ashish, Shazeer Noam, Parmar Niki, Uszkoreit Jakob, Jones Llion, Gomez Aidan N., Kaiser Lukasz, and Polosukhin Illia. Attention Is All You Need.— 2017. -1706.03762.
[7] Babu D.R. , Shankar R.S., Manesh G. and Murthy K.V. Facial expression recognition using bezier curves with hausdorff distance // Proc. IEEE International Conference on IoT and Application. — 2017.
[8] Benitez-Quiroz C. Fabian, Srinivasan Ramprakash, and Martinez Aleix M. EmotioNet: An Accurate, Real-Time Algorithm for the Automatic Annotation of a Million Facial Expressions in the Wild // 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).-2016.-P. 5562-5570.
[9] Bobe A., Konyshev D. and Vorotnikov S. Emotion recognition system based on the facial motor units’ analysis. — 2016. — No. 9. — P. 7.
[10] Yun Sangdoo, Han Dongyoon, Oh Seong Joon, Chun Sanghyuk, Choe Junsuk, and Yoo Youngjoon. CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features. — 2019. — 1905.04899.
[11] He Kaiming, Zhang Xiangyu, Ren Shaoqing, and Sun Jian. Deep Residual Learning for Image Recognition. — 2015. — 1512.03385.
[12] Diederik P. Kingma Jimmy Ba. Adam: A Method for Stochastic Optimization. — 2017. —1412.6980.
[13] Dino H.I., Abdulrazzaq M.B. Facial expression classification based on SVM, KNN and MLP classifiers // Proc. International Conference on Advanced Science and Engineering. — 2019. — P. 70-75.
[14] Wen Zhengyao, Lin Wenzhong, Wang Tao, and Xu Ge. Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition. — 2022. — 2109.07270.
[15] Deniz O., Bueno G., Salido J. and De la Torre F. Face recognition using histograms of oriented gradients // Pattern Recognition Letters. — 2011.— Vol. 32. —P. 1598-1603.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ