Тип работы:
Предмет:
Язык работы:


Применение Bundle Adjustment и лендмарок в ЗD-трекинге головы на основе деформируемой ЗD-модели

Работа №142729

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы35
Год сдачи2023
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
23
Не подходит работа?

Узнай цену на написание


Введение 3
1. 3D трекинг лица 5
1.1. Постановка задачи 3D трекинга лица 5
1.2. Обзор подходов для решения задачи трекинга лица 7
1.2.1 Классические методы компьютерного зрения 7
1.2.2 2D ландмарки 8
1.2.3 3D ландмарки и End2End нейросети 9
1.3. Цель работы 10
2. Описание исходного алгоритма трекинга 12
2.1. Основная идея алгоритма 12
2.2. Определение на видео двумерных особенностей 12
2.3. Реализация непосредственно трекинга 13
2.4. Причины возникновения ошибки в описанном алгоритме . . 14
3. Оптимизация по ландмаркам 15
3.1. Совмещение ландмарок и деформируемой модели головы . 15
3.2. Алгоритм трекинга с ландмарками в оптимизации 16
3.3. Взвешивание ландмарок в оптимизируемой функции .... 16
3.3.1 Взвешивание ландмарок по группам 17
3.3.2 Выбор веса на основе уверенности нейросети 18
4. Ландмарки как начальное приближение 20
5. Bundle Adjustment 23
5.1. Model-Based Bundle Adjustment 23
5.2. Параметризация точек на поверхности модели 24
5.2.1 Параметризация по плоскости кадра 25
5.2.2 Параметризация по UV-развертке 27
5.3. Регуляризация 28
6. Тестирование 30
Заключение 33
Список литературы 34


Трехмерный трекинг головы — это задача отслеживания на видео положения головы в трехмерном пространстве и деформаций, отвечающих за выражение лица. Трекинг лица применяется для различных целей, как то создание визуальных эффектов в киноиндустрии, накладывание масок на видео в реальном времени, создание цифровых аватаров и так далее. В зависимости от целей варьируются требования, выдвигаемые к решению: в одних случаях ключевым фактором может быть скорость работы и полный автоматизм, в других упор делается на точность решения.
В рамках данный работы трекинг лица рассматривается применительно к киноиндустрии, что определяет специфику задачи. Трекинг должен быть как можно более точным; настолько, чтобы обмануть зрителя, даже если тот смотрит видео в хорошем разрешении на большом экране. На данный момент полностью автоматические алгоритмы трекинга не дают требуемую точность, поэтому для достижения нужного результата приходится вручную итерациями корректировать работу алгоритма, при необходимости запуская его несколько раз.
Ошибки, возникающие по ходу трекинга, можно условно разделить на две категории: сползание и дрожание. При сползании решение остается визуально гладким, но его качество падает со временем. Такую ошибку, пока она не успела существенно накопиться, зрителю не так просто заметить. Осуществляющий же трекинг пользователь может ее исправить, уточнив решение на том кадре, где ошибка по его мнению перестала быть приемлемой. Дрожание, в свою очередь, проявляется в том, что на каждом кадре возникают хаотичные ошибки, которые возможно и меньше ошибки сползания, но выливаются в неприятное глазу дергание. Зритель хорошо замечает эти рывки, с точки же зрения пользователя, исправить дрожание намного сложнее, поскольку для этого приходится поправлять трекинг почти на каждом кадре.
Даже незначительное улучшение качества трекинга может оказаться большим шагом вперед, если оно удлиняет последовательность кадров, на которых алгоритм выдает удовлетворительное с точки зрения пользователя качество. Действительно, большая часть времени, затраченная на трекинг лица, приходится именно на ручные действия, а не на работу алгоритма, так что возможность реже уточнять решение существенно сэкономит пользователю силы, время и нервы. С другой стороны, если алгоритм сможет на протяжении длинного отрезка кадров сохранять пусть и недостаточную, но не катастрофически маленькую точность, пользователю будет проще поправить результат, что также сохранит его время.
К моменту начала выполнения данной работы уже был реализован алгоритм покадрового трекинга, основанный на отслеживании на изображении двумерных точечных особенностей — точек на изображении, для которых можно определить перемещение от кадра к кадру. Этот алгоритм обеспечивает гладкое решение, но подвержен ошибке сползания...

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В данной работе рассматривалась задача трехмерного трекинга лица на основе деформируемой модели. Сначала был описан реализованный до начала выполнения работы алгоритм трекинга, основанный на отслеживании на видео точечных особенностей. Его недостатки были проанализированы, исходя из чего были предложены и реализованы два независимых его улучшения: первое использует 2D ландмарки, второе — Bundle Adjustment.
Использование в трекинге 2D ландмарок позволяет уменьшить накапливающуюся в процессе работы алгоритма ошибку. Чем длиннее входное видео, тем заметнее это улучшение, однако на некоторых коротких видео данная модификация может проигрывать исходному алгоритму из-за неточного определения на изображении ландмарок.
Bundle Adjustment же, используемый для уточнения уже имеющегося решения, показал хорошие результаты как на искусственно сгенерированных тестовых видео, так и на реальных. Отметим, что использование этого метода оказалось возможно благодаря специфике рассматриваемой задачи — тому факту, что решение не требуется строить в реальном времени, то есть информация обо всех кадрах известна до начала работы трекинга.
Логичным продолжением исследований может стать совмещение двух описанных подходов. Отметим, что эта задача не такая простая, как может показаться на первый взгляд. Модификация трекинга, использующая ланд- марки, лучше всего себя показывает на длинных видео, в то время как Bundle Adjustment, наоборот, имеет определенные ограничения на длину входного видео, поскольку с длиной видео растет количество параметров в задаче оптимизации. В связи с этим остается простор для дальнейших экспериментов, связанных, например, с выбором подмножества кадров для запуска на них Bundle Adjustment, чтобы с одной стороны выиграть во времени, а с другой не потерять в качестве решения.



[1] L. Vacchetti, V. Lepetit and P. Fua, "Stable real-time 3D tracking using online and offline information,"in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 26, no. 10, pp. 1385-1391, Oct. 2004
[2] S. Basu, I. Essa, and A. Pentland, “Motion regularization for model-basedhead tracking,” International Conference on PatternRecognition(Vienna,Austria), 1996.
[3] Pengfei Han, Gang Zhao, A review of edge-based 3D tracking of rigid objects, Virtual Reality Intelligent Hardware, Volume 1, Issue 6, 2019, pp 580-596
[4] M. Cascia, S. Sclaroff, and V. Athitsos, “Fast, reliable head tracking undervarying illumination: An approach based on registration of texturemapped 3Dmodels,”IEEE Transactions on Pattern Analysis and Machine Intelligence,vol. 22, April 2000.
[5] D. DeCarlo and D. Metaxas, “Optical flow constraints on deformable modelswith applications to face tracking,”International Journal of Computer Vision,vol. 38, pp. 99-127, 2000.
[6] Z. Shaik and V. Asari, "A Robust Method for Multiple Face Tracking Using Kalman Filter,"36th Applied Imagery Pattern Recognition Workshop (aipr 2007), Washington, DC, USA, 2007, pp. 125-130, doi: 10.1109/AIPR.2007.21.
[7] Lepetit V., Fua P. Monocular Model-Based 3D Tracking of Rigid Objects: A Survey. Foundations and Trends in Computer Graphics and Vision. -- 2005.
[8] Shi Jianbo, Tomasi Carlo. Good Features to Track 1994 IEEE Conference on Computer Vision and Pattern Recognition (CVPR’94). —1994. — P. 593-600.
[9] B. D. Lucas and T. Kanade (1981), An iterative image registration technique with an application to stereo vision. Proceedings of Imaging Understanding Workshop, pages 121-130
[10] Levenberg K. (1944). A Method for the Solution of Certain Non-Linear Problems in Least Squares. Quarterly of Applied Mathematics. 2 (2): 164-168.
[11] Marquardt D. (1963). An Algorithm for Least-Squares Estimation of Nonlinear Parameters. SIAM Journal on Applied Mathematics. 11 (2): 431-441
[12] Lowe D. (1999). "Object recognition from local scale-invariant features"(PDF). Proceedings of the International Conference on Computer Vision. Vol. 2. pp. 1150-1157
[13] Baumberg A. (2000) “Reliable feature matching across widely separated views,” in Conference on Computer Vision and Pattern Recognition, pp. 774-781
[14] MediaPipe https://developers.google.com/mediapipe/solutions/ vision/face_landmarker/
[15] Face Alignment https://github.com/1adrianb/face-alignment...21


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ