Введение 4
1. Обзор предметной области 7
1.1. Базовые понятия предметной области 7
1.2. Постановка задачи распознавания лицевых выражений человека .... 7
1.3. Обзор датасетов для распознавания лицевых выражений 7
1.4. Модели для распознавания лицевых выражений 9
1.4.1. Классические алгоритмы компьютерного зрения 9
1.4.2. Нейросетевые модели 11
1.4.3. EfficientNet v1/v2 13
1.4.4. DAN 15
1.4.5. Другие нейросетевые методы 17
1.5. Модели для генерации изображений 17
1.5.1. Модели, основанные на архитектуре генеративно-состязательных нейросетей 18
1.5.2. DualStyleGan 21
1.6. Задача генерации аватаров 23
1.6.1. Применение генеративных моделей для создания аватаров 23
1.7. Детекция аномалий 24
1.7.1. Архитектура ’’Сиамская модель” 24
1.8. Мотивация работы. Формулировка цели и постановка задач 26
2. Разработка моделей распознавания эмоций и генерации аватаров 28
2.1. Выбор датасета для задачи распознавания лицевых выражений людей . 28
2.2. Детали обучения моделей для распознавания лиц людей 28
2.2.1. Предобработка данных 28
2.2.2. EfficientNet 29
2.2.3. DAN 31
2.3. Генерация аватаров с помощью генеративных моделей 34
2.3.1. Выбор целевого стиля для генерации аватаров 34
2.3.2. Технические детали генерации датасета аватаров 35
2.3.3. Примеры несоответствия эмоций исходного изображения и аватара 36
3. Система детектирования аномалий 37
3.1. Подготовка данных и моделей для реализации системы детектирования
аномалий 37
3.1.1. Разметка датасета аватаров 37
3.1.2. Дообучение модели распознавания эмоций на изображениях ава-таров 38
3.2. Разработка системы детектирования аномалий 38
3.2.1. Первая версия пайплайна 39
3.2.2. Вторая версия пайплайна 41
Список литературы 42
Приложение 48
За последние десятилетия технологические достижения оставили глубокий след на нашем образе жизни. Эти достижения все больше проникают в различные сферы жизни человека. В последнее время одним из особенно актуальных направлений является внедрение машинного обучения и искусственного интеллекта (ИИ) в человеческие области, которые раньше казались недостижимыми для применения компьютерных алгоритмов.
С развитием проектов, связанных с метавселенными - виртуальными пространствами, где все участники наделены аватарами, - искусственный интеллект становится неотъемлемым инструментом для создания гармоничного и плодотворного общения между людьми и виртуальными сущностями. Особенно можно отметить ряд задач, связанных с моделированием внешности человека. Последние годы множество компаний и исследовательских лабораторий работают над созданием метавселенных - виртуальных миров, в которых люди будут иметь возможность взаимодействовать друг с другом с помощью гарнитур виртуальной реальности (VR) и дополненной реальности (AR) . Внутри метавселенной каждому человеку соответствует аватар - 2D или 3D графическое (цифровое) представление пользователя . Поэтому, высокий интерес вызывает сфера распознавания эмоций лица человека(FER) на основе глубокого анализа изображений и видео, так как одной из самых важных частей человеческого взаимодействие - это общение. При неправильной трансляции эмоции или выражения человеческого лица его аватара, слова человека могут быть восприняты неправильно.
Объем и количество крупных баз данных по задаче распознавания эмоций значительно расширились за последние два десятилетия RAF-DB, Affectnet, что привело к значительному улучшению точности распознавания некоторых моделей сверточных нейронных сетей (CNN). Однако, несмотря на недавние выдающиеся результаты, FER до сих пор считается сложной задачей из-за нескольких причин:
• Глобальные факторы. Существующие методы FER не до конца распознают глобальные факторы входных изображений из-за ограничения сверточных локальных рецептивных полей;
• Межклассовое сходство. Несколько категорий выражений часто включают похожие изображения с небольшими различиями между ними;
• Внутриклассовое неравенство. Изображения из той же категории выражения лица могут существенно отличаться друг от друга, например, цвет лица, пол, фон изображения и возраст человека различается в зависимости от экземпляра;
• Чувствительность моделей. Различия в качестве и разрешении изображения могут часто ставить под угрозу эффективность сетей глубокого обучения при использовании без необходимых мер предосторожности. Изображения из наборов данных, которые похожи на изображения из реальной жизни(т the wild) и других наборов данных FER представлены в широком диапазоне с разными размерами изображений. Следовательно, для FER важно обеспечить стабильную производительность в разных масштабах.
Графическое представление человека можно получить с помощью инструментов для рендеринга или нарисовать вручную. Однако это требует навыков и времени, между тем современные методы глубокого обучения позволяют получать высококачественные изображения, уменьшая затраты по времени и также не имея особых требований к навыкам пользователя.
Задача генерации графического представления людей является весьма сложной задачей, так как достаточно тяжело точно передавать детали лица и его выражение, ведь человеческое лицо представляет собой целую систему из множества мимических мышц. В данных момент нет готовых метавселенных, в которых можно было бы сгенерировать готовые аватары по лицу человека и собрать хороший датасет для обучения и улучшения моделей, которые работают с цифровыми представлениями лица человека. Несмотря на это, в настоящее время существуют генеративные нейросетевые модели, которые достаточно успешно справляются с image-to-image генерацией качественных изображений. Такие модели в том числе используются для создания аватаров по исходному изображению человека. Однако они имеют свои достоинства и недостатки в зависимости от используемой архитектуры: разнообразие генерируемых данных, частота дискретизации, скорость генерации и т.д. Поэтому, многие из них могут недостаточно точно передавать детали выражения эмоций. Однако, такие данные могут помочь построить модель, которую в будущем можно будет активно применить в реальных системах.
Целью данной работы является построение системы, которая будет распознавать несоответствия(аномалии) между выражениями лица человека и лица его сгенерированного аватара используя современные методы машинного обучения.
В данной версии будет реализована измененная архитектура Сиамской нейронной сети.
Пусть у нас также имеются парные модели распознавания эмоций и мы удалили из них последние два слоя.
Далее, конкатенируем выходы двух моделей и напишем над ними полносвязную нейронную сеть, которая будет обрабатывать вектора и выдавать метку от 0 до 1 - есть аномалия или нет.
Технически, построим архитектуру, добавив полносвязные слои, как на рисунке 27...
[1] Buslaev Alexander, Iglovikov Vladimir I., Khvedchenya Eugene, Parinov Alex, Druzhinin Mikhail, and Kalinin Alexandr A. Albumentations: Fast and Flexible Image Augmentations //Information. — 2020. — feb.—Vol. 11, no. 2. — P. 125. — Access mode:
[2] Ali Mollahosseini Behzad Hasani and Mahoor Mohammad. AffectNet: A Database for Facial Expression, Valence, and Arousal Computing in the Wild // arXiv:1708.03985. - 2017.
[3] An F., Liu Z. Facial expression recognition algorithm based on parameter adaptive initialization of CNN and LSTM // Visual Computer. — 2020. —Vol. 36. —P. 483-498.
[4] Karras Tero, Laine Samuli, Aittala Miika, Hellsten Janne, Lehtinen Jaakko, and Aila Timo. Analyzing and Improving the Image Quality of StyleGAN. — 2020. — 1912.04958.
[5] Arjovsky Martin, Chintala Soumith, and Bottou Leon. Wasserstein GAN. — 2017.— 1701.07875.
[6] Vaswani Ashish, Shazeer Noam, Parmar Niki, Uszkoreit Jakob, Jones Llion, Gomez Aidan N., Kaiser Lukasz, and Polosukhin Illia. Attention Is All You Need.— 2017. -1706.03762.
[7] Babu D.R. , Shankar R.S., Manesh G. and Murthy K.V. Facial expression recognition using bezier curves with hausdorff distance // Proc. IEEE International Conference on IoT and Application. — 2017.
[8] Benitez-Quiroz C. Fabian, Srinivasan Ramprakash, and Martinez Aleix M. EmotioNet:An Accurate, Real-Time Algorithm for the Automatic Annotation of a Million FacialExpressions in the Wild// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).-2016.-P. 5562-5570.
[9] Bobe A., Konyshev D. and Vorotnikov S. Emotion recognition system based on the facial motor units’ analysis. — 2016. — No. 9. — P. 7.
[10] Yun Sangdoo, Han Dongyoon, Oh Seong Joon, Chun Sanghyuk, Choe Junsuk, and Yoo Youngjoon. CutMix: Regularization Strategy to Train Strong Classifiers with Localizable Features. — 2019. — 1905.04899.
[11] He Kaiming, Zhang Xiangyu, Ren Shaoqing, and Sun Jian. Deep Residual Learning for Image Recognition. — 2015. — 1512.03385.
[12] Diederik P. Kingma Jimmy Ba. Adam: A Method for Stochastic Optimization. —
2017. —1412.6980.
[13] Dino H.I., Abdulrazzaq M.B. Facial expression classification based on SVM, KNN and MLP classifiers // Proc. International Conference on Advanced Science and Engineering. — 2019. — P. 70-75.
[14] Wen Zhengyao, Lin Wenzhong, Wang Tao, and Xu Ge. Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition. — 2022. — 2109.07270.
[15] Deniz O., Bueno G., Salido J. and De la Torre F. Face recognition using histograms of oriented gradients // Pattern Recognition Letters. — 2011.— Vol. 32. —P. 1598-1603...(59)