📄Работа №212588

Тема: ТЕХНОЛОГИЯ ЗАХВАТА ДВИЖЕНИЙ И МИМИКИ ЛИЦА С ПОМОЩЬЮ НЕЙРОННОЙ СЕТИ

Характеристики работы

Тип работы Дипломные работы, ВКР
Математика
Предмет Математика
📄
Объем: 85 листов
📅
Год: 2021
👁️
Просмотров: 47
Не подходит эта работа?
Закажите новую по вашим требованиям
Узнать цену на написание
ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание

Аннотация
ВВЕДЕНИЕ 5
1. МЕТОДЫ ЗАХВАТА ДВИЖЕНИЙ И МИМИКИ ЛИЦА 7
1.1. Этапы захвата движений 7
1.2. Определение ключевых точек лица человека на изображении 8
1.2.1. Ранние алгоритмы обнаружения лицевых ориентиров 9
1.2.2. Поиск лицевых ориентиров с помощью ансамбля деревьев
решений 19
1.2.3. Многозадачные каскадные сверточные сети (Multi-task Cascaded
Convolutional Networks) 23
1.2.4. Практичный детектор лицевых ориентиров (Practical Facial
Landmark Detector) 26
1.2.5. Агрегированная по стилям сеть (Style Aggregated Network) .... 28
1.3. Способы переноса мимики в цифровую трехмерную модель 30
1.3.1. Морфируемая модель для синтеза трехмерных лиц (A Morphable
Model For The Synthesis Of 3D Faces) 30
1.3.2. Реконструкция персонализированных черт для лица из
монокулярного видео (Reconstruction of Personalized 3D Face Rigs from Monocular Video) 32
1.3.3. Комбинированная динамическая 3D модель выражений
(Combined dynamic 3D expression model) 34
1.3.4. Метод совмещения детектирования и реконструкции 36
1.4. Выводы по первой главе 39
2. ЗАХВАТ ДВИЖЕНИЙ И МИМИКИ ЛИЦА С ПОМОЩЬЮ НЕЙРОННОЙ
СЕТИ И ПОСЛЕДУЮЩАЯ ИХ РЕКОНСТРУКЦИЯ 41
2.1. Постановка задачи поиска ориентиров на лице человека 41
2.1.1. Архитектура нейронной сети 42
2.1.2. Подготовка данных 43
2.1.3. Метрики качества 45
2.1.4. Функции активации 47
2.1.5. Функция потерь 49
2.1.6. Операция свертки 51
2.1.7. Операция субдискретизации (пулинга) 53
2.1.8. Метод оптимизации функции потерь 54
2.1.9. Метод обратного распространения ошибки 56
2.2. Постановка задачи трехмерной реконструкции лица 59
2.2.1. Общее описание метода 60
2.2.2. Установление проективного соответствия, регистрация данных 60
2.2.3. Вычисление векторов смещений для ключевых вершин 62
2.2.4. Интерполирование векторов смещений для остальных вершин 63
2.3. Выводы по второй главе 65
3. РЕАЛИЗАЦИЯ МОДЕЛЕЙ И ПРОВЕРКА НА ТЕСТОВЫХ ДАННЫХ ... 66
3.1. Конфигурация нейронной сети 66
3.2. Алгоритмы обучения и тестирования нейронной сети 67
3.3. Результаты обучения, полученные метрики 71
3.4. Тестирование алгоритма реконструкции 74
3.5. Выводы по третьей главе 76
ЗАКЛЮЧЕНИЕ 78
ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ 80
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 81

📖 Аннотация

В данной работе представлена разработка и исследование технологии безмаркерного захвата движений и мимики лица с использованием методов глубокого обучения. Актуальность исследования обусловлена растущим спросом на реалистичную лицевую анимацию в киноиндустрии, видеоиграх и системах виртуальной реальности, а также потенциальным применением в медицине и робототехнике, где требуется точный анализ невербальной коммуникации. Основным результатом является создание алгоритма, основанного на нейронной сети архитектуры SBR-CPM для детекции лицевых ориентиров, и авторской методики последующей реконструкции трехмерной мимики. В ходе реализации была составлена математическая модель, выбраны функции потерь и метод оптимизации, а также подготовлен и аугментирован обширный датасет, содержащий более 112 тысяч аннотированных изображений. Экспериментальная часть подтвердила эффективность выбранного подхода для точного отслеживания ключевых точек лица. Научная значимость работы заключается в адаптации и комплексной реализации современных методов компьютерного зрения для задачи FMC, в то время как практическая ценность состоит в создании рабочего прототипа системы, который может быть интегрирован в конвейер производства цифрового контента. Теоретическая основа исследования опирается на классические работы, такие как морфируемая модель для синтеза 3D-лиц (Blanz, Vetter), методы активных моделей внешнего вида (Cootes et al.) и современные исследования в области онлайн-моделирования анимации (Bouaziz et al.), а также на труды, посвященные оптимизационным алгоритмам (Измаилов и др.) и инструментальным средствам, например, языку Python (Маккинни, Федоров).

📖 Введение

Motion Capture (mo-cap) - способ компьютерной анимации персонажей и объектов, при котором анимация создаётся посредством копирования движений реальных объектов, человека. Данным термином обобщают перечень технологий захвата движений, представляющий собой совокупность методов основанных на результатах исследований, экспериментов и инноваций в компьютерной сфере. Данные технологии применяют в криминалистике [32], медицине [21], спорте, робототехнике, но наибольшим успехом захват движений пользуется в игровой и кино индустрии. Например, захват движений используют для экономии затрат человеко-часов при анимировании сложных трёхмерных сцен, создания CGI изображений, а также для создания спецэффектов. Поскольку движения персонажей компьютерной графики основаны на движениях реальных людей, наблюдается более реалистичная и детализированная компьютерная анимация, чем если бы анимация была бы создана вручную.
Выделяют два основных вида mo-cap технологий: Body Motion Capture - применяется для захвата положения тела в пространстве, переноса физики движений актёра на трехмерную модель, и Facial Motion Capture (FMC) - используется для оценки эмоций, мимики лица человека и создания лицевой анимации. С помощью FMC были получены такие персонажи как Голлум из трилогии Властелин колец, герои блокбастера Аватар, Волан-де-Морт в серии Гарри Поттер, дракон Смауг в фильмах Хоббит и многие другие.
Также системы Motion Capture разделяют по подходу к фиксации движений: на маркерную и безмаркерную системы.
Для маркерной системы используется специальная аппаратура, костюм с датчиками, комплекс из камер, на лицо наносят маркеры, для захвата мимики. Данные полученные с оборудования сводятся в общую трехмерную модель, максимально точно воспроизводя движения актёра, на основе которой создаётся анимация персонажа.
Безмаркерная технология базируется на технологиях компьютерного зрения. Актёру не требуется носить специализированные костюмы, нет рисков повредить датчики и маркеры, для фиксации движений достаточно одной камеры. Благодаря росту производительности вычислительной техники, и научному прогрессу растёт качество технологий компьютерного зрения, а с ними развиваются и технологии захвата движений. Несмотря на то что технология исследуется достаточно длительное время, регулярно появляются новые разработки.
Исходя из высокой применимости и не совершенности текущих безмаркерных Motion Capture систем задача захвата и оцифровки движений является актуальной и современной.
Целью данной работы является разработка модуля безмаркерной Facial Motion Capture системы с применением искусственной нейронной сети и алгоритмов компьютерного зрения.
Для достижения данной цели необходимо решить следующие задачи:
1) проанализировать существующие подходы к решению задачи определения ключевых точек лица по фотографии;
2) разработать математическую модель нейронной сети;
3) проанализировать, собрать и подготовить данные для обучения и/или валидации выбранного подхода;
4) проанализировать существующие подходы к решению задачи трехмерной реконструкции мимики;
5) разработать математическую модель технологии генерации трехмерной копии лица и его мимических состояний;
6) проверить совместную работу алгоритма захвата и алгоритма синтеза анимации.

Возникли сложности?

Нужна качественная помощь преподавателя?

👨‍🎓 Помощь в написании

✅ Заключение

Цель данной работы заключалась в разработке алгоритма захвата
движения и мимики лица, использующего модель искусственной нейронной
сети для определения черт лица и авторскую методику реконструкции лиц.
В ходе работы задача определения черт лица была сформулирована, как
задача поиска лицевых ориентиров на изображении, рассмотрены различные
подходы к ее решению, которые подразделяются на две основные группы –
методы из области компьютерного зрения и глубокие нейронные сети. Для
решения поставленной задачи была выбрана архитектура нейронной сети
SBR-CPM.
Для выбранной архитектуры нейронной сети была составлена
математическая модель, приведены метрики качества и функции потерь,
позволяющие оценить точность работы SBR-CPM. В качестве алгоритма
обучения выбран метод обратного распространения ошибки с применением
оптимизации функции потерь методом ускоренного градиента Нестерова.
Для обучения и тестирования рассматриваемой нейронной сети
подготовлен набор данных, содержащий 99 029 изображений с аннотациями
лицевых ориентиров. После дальнейших преобразований путем аугментации,
число изображений выросло до 112 246. Среди них 19 727 изображений
представляют собой валидационную выборку, оставшиеся – тренировочную.
Аугментация данных осуществлялась с помощью библиотеки Imageaug.
В качестве фреймворка для обучения нейронной сети использовался
PyTorch. Это фреймворк машинного обучения для языка Python с открытым
исходным кодом, написанный на языке Си. В качестве среды разработки
использовался PyCharm с применением языка программирования Python 3.6.
Для проведения анализа точности работы нейронной сети были
использованы метрики качества, такие как – среднеквадратическая ошибка
(NRMSE), частота неудач (FR), кумулятивное распределение ошибок (CED),
также была вычислена количественная метрика – площадь под кривой CED.
79
В данной работе был подробно описан авторский метод реконструкции
лица, основанный на применении сплайнов к шаблонной трехмерной сетке.
Приведены демонстрации работы всех ключевых этапов алгоритма,
построены графики, отображающие корректность применяемых деформаций
к базовой форме.
Таким образом, цель достигнута, а поставленные задачи – полностью
решены. Разработанная система может с успехом применяться для записи
лицевой анимации и создания кат-сцен (видео сцены) в играх или
мультфильмах. Права на использование алгоритма реконструкции лиц
переданы компании «ООО ТРИДИВИ».
В связи со стремительным развитием области нейронных сетей и
появлением новых современных решений целью дальнейшей работы может
стать исследование новых архитектур и подходов к решению задачи захвата
движения и мимики лица.

Нужна своя уникальная работа?
Срочная разработка под ваши требования
Рассчитать стоимость
ИЛИ

📕 Список литературы

Измаилов, А. Ф. Метод Левенберга-Марквардта для задач безусловной
оптимизации / А. Ф. Измаилов, А. С. Куренной, П. И. Стецюк // Вестник
российских университетов. Математика. – 2019. – Т. 24, № 125. – С. 60-74.
2. Маккинни, У. Python и анализ данных/ У. Маккинни, А.А. Слинкина. –
Москва: ДМК Пресс, 2020.
3. Федоров, Д.Ю. Программирование на языке высокого уровня Python:
учебное пособие / Д.Ю. Федоров. – Москва: Юрайт, 2020.
4. Blanz, V. A Morphable Model For The Synthesis Of 3D Faces / V. Blanz, T.
Veter // SIGGRAPH99: Proceedings of the 26th Annual Conference on Computer
Graphics and Interactive Techniques. – 1999. – pp. 187-194.
5. Bouaziz, S. Online Modeling For Realtime Facial Animation / S. Bouaziz, Y.
Wang, M. Pauly // ACM Transactions on Graphics. – 2013. – vol. 32, iss. 4, no.
40. – pp. 1-10.
6. Cootes, T. F. Active Appearance Models / T. F. Cootes, G. J. Edwards, C. J.
Taylor // European Conference on Computer Vision (ECCV’98) – Berlin:
Springer. – 1998. – p. 15.
7. Cootes, T. F. Active Shape Models – Their Training and Application / T. F.
Cootes, C. J. Taylor, D.H. Cooper, J. Graham // Computer Vision and Image
Understanding. – 1995. – vol. 61, no. 1. – pp. 38-59.
8. Cootes, T. F. Statistical models of appearance for medical image analysis and
computer vision / T.F. Cootes, C. J. Taylor // SPIE Medical Imaging. – 2001. –
vol. 1. – pp. 236-248.
9. Dong, X. Style Aggregated Network for Facial Landmark Detection / X. Dong,
Y. Yan, W. Ouyang, Y. Yang // Computer Vision and Pattern Recognition
(CVPR’18) – USA: IEEE. – 2018. – pp. 379-388.
10. Dong, X. Supervision-by-Registration: An Unsupervised Approach to Improve
the Precision of Facial Landmark Detectors / X. Dong, S.-I. Yu, S.-E. Wei, Y.
82
Yang, Y. Sheikh // Computer Vision and Pattern Recognition (CVPR’18) – USA:
IEEE. – 2018. – pp. 360-368.
11. Dyn, N. Interpolation of scattered data by radial functions. Topics in
Multivariate Approximation / N. Dyn // Academic Press. – 1987. – pp. 47-61.
12. Gao, X.-S. Complete solution classification for the perspective-three-point
problem / X.-S. Gao, X.-R. Hou, J. Tang, H.-F. Cheng // IEEE Transactions on
Pattern Analysis and Machine Intelligence. – 2003. – vol. 25, iss. 8. – pp. 930-
943.
13. Garrido, P. Reconstruction of Personalized 3D Face Rigs from Monocular Video
/ ACM Transactions on Graphics. – 2016. – vol. 35, iss. 3. – pp. 1-15.
14. Hastie, T. The elements of statistical learning: data mining, inference, and
prediction / T. Hastie, R. Tibshirani, J. H. Friedman // NY.: Springer-Verlag. –
2001. – p. 745.
15. Kazemi, V. One Millisecond Face Alignment with an Ensemble of Regression
Trees / V. Kazemi, J. Sullivan // Computer Vision and Pattern Recognition
(CVPR'14) – USA: IEEE. – 2014. – p. 8. ...45

🖼 Скриншоты

🛒 Оформить заказ

Работу высылаем в течении 5 минут после оплаты.
Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.
Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

©2026 Cервис помощи студентам в выполнении работ