Тип работы:
Предмет:
Язык работы:


Развитие метода полуглобального стереосопоставления и его применение к реконструкции поверхностей лиц

Работа №130434

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы49
Год сдачи2016
Стоимость4850 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
23
Не подходит работа?

Узнай цену на написание


Введение 4
1. Постановка задачи 9
2. Известные результаты 10
3. Предлагаемые алгоритмы 15
3.1. Функции стоимости 15
3.1.1. Функция стоимости Mutual Information and Census (MIC) 15
3.1.2. Функция стоимости на основе сиамской сверточ­ной нейронной сети (CNN) 18
3.2. Экстраполяция перекрытых регионов 21
3.2.1. Линейная экстраполяции перекрытых регионов 21
3.2.2. Экстраполяции перекрытых регионов путем голо­сования 24
3.3. Адаптивные веса на основе градиента изображения 26
4. Результаты экспериментов 28
5. Применение стереометода на изображениях лиц людей 37
5.1. Применение стереометода на изображениях лиц людей с известной 3D моделью 42
Заключение 45
Список литературы 47

Нахождение расстояния до различных точек сцены относительно положения камеры - одна из важнейших задач компьютерного зрения. Самый распространенный метод для нахождения глубин точек - ис­пользовать две камеры, находящиеся друг от друга на известном рас­стоянии, и с помощью них получить пару изображений, левое из кото­рых обычно называют источником, а правое - целью (типичная стерео­система приведена на рисунке 1). Описанная проблема важна во мно­гих областях: например, автономное вождение, робототехника, спорт (генерирование промежуточных углов зрения с помощью 2 камер, см. [7]), а также реконструкция сцен и даже лиц людей, например, в целях безопасности, как в [1]. Первым этапом воссоздания полной 3D модели с помощью данного подхода является решение задачи соответствия.
Рис. 1: Схема типичной стереоустановки
Для того, чтобы воспользоваться дополнительной информацией, кото­рая имеется в виду наличия второй камеры, необходимо знать все соот­ветствия между точками источника и цели. Следует также учитывать две основные проблемы, которые встают на этом пути - это перекры­тия и перепады глубин на краях объектов. Объект, видимый с одной камеры, может быть недосягаем для другой в виду перекрытий.
Оказывается, при известных параметрах камер (обычно сами ка­меры идентичны) и расстоянии между ними задачу можно свести из 2D х 2D к 1D х 1D. Рисунок 1 показывает, как одной точке проек­ции на источник могут соответствовать две точки цели (на самом деле ей может соответствовать целая линия цели, называемая эпиполярной, е2 на рис. 2). Если же теперь спроецировать е2 обратно на плоскость источника - получим другую эпиполярную линию - е1. Две эти линии получены от пересечения двух проективных плоскостей камер и так называемой эпиполярной плоскости OrPOr.
Рис. 2: Эпиполярное ограничение
Более эффективным является решение сначала ’’выпрямить” систе­мы координат, так, чтобы эпиполярные линии были горизонтальны и соответствующие линии находились на одинаковой высоте (рис. 2). Для этого сначала необходимо ”виртуально” повернуть камеры, что­бы они смотрели перпендикуляро линии, соединяющей их оптические центры - OrOr . Далее регулируется кручение вокруг оптических осей камер, чтобы соответствующие эпиполярные линии были горизонталь­ны и смещение для точек в бесконечности было нулевым. Последнее - перемасштабировать изображения, чтобы учесть, возможно, разные фокусы камер.
Смещение между расположениями двух соответственных точек на ”выпрямленной” (также эту форму называют стандартной) паре изоб­ражений называют смещением (d = Xr — X? на рис. 3). Если рассмот­реть подобные треугольники POrОт и Ррр то окажется, что смещение непосредственно связано с глубиной следующим образом:
d = B*f / Z (1)
Рис. 3: Связь смещения и глубины
И далее, имея смещение, можно получить исходные в 3D коорди­наты (опять же, имея внутренние и внешние параметры камер), таким образом произведя второй этап - реконструкцию (на самом деле, в об­щем случае формулы более сложны и принимают матричную форму):
Z = B*f / d
X = Z*xR / f
Y = Z*yR / f (2)
Главной частью стереоалгоритма является поиск соответствий. Этот процесс можно разделить на следующие этапы, согласно [16]: вычисле­ние стоимостей для каждого пикселя, вычисление их взвешенной сум­мы, минимизация общей стоимости для всего изображения, уточнение полученного решения (схема приведена на рис. 4). Эффективность каж­дой из предложенных частей непосредственно влияет на все последую­щие. В последнее время популярность получили так называемые гло­бальные алгоритмы, которые ищут гладкое решение (в том смысле, что ’’штрафуется” наличие ’’скачков” в глубинах). Однако, глобальные ал­горитмы довольно медленны, поэтому ищутся всевозможные прибли­жения к глобальному решению - это так называемые полуглобальные алгоритмы. Учитывая, что для многих аглоритмов соотношение скоро- сти/точности для различных датасетов очень сильно варьируется, про­блема поиска наилучшего алгоритма для данного набора изображений все еще пользуется интересом.
Рис. 4: Схема, демонстрирующая область изучения в данной работе, и место алгоритма More global Matching (MGM)
Алгоритм Semi-global matching (SGM, алгоритм полуглобального со­поставления) - один из ведущих стереоалгоритмов, реализующий этап минимизации. Этот алгоритм использует эффективную стратегию для приблизительной минимизации энергии, которая состоит из попиксель- ной стоимости и попарной (между соседними пикселями) гладкости. На основе предложенной интерпретации SGM как алгоритма распро­странения доверия, совсем недавно был преложен новый алгоритм - Significantly More Global Matching (MGM, значительно более глобаль­ный поиск соответствий [4]) - который позволяет в пять раз минимизи­ровать зазор энергии невязки решения по сравнению с SGM, при этом почти не имеет накладных расходов. Однако сам алгоритм реализует этап минимизации, и авторы алгоритма оставили за пределами свое­го исследования использование вместе с их алгоритмом многих других популярных решений, лежащих на других этапах, например, использо­вание более точной функции стоимости или борьбу с перекрытиями.
Эта работа посвящена дальнейшему развитию алгоритма MGM - применение вместе с ним алгоритмов, часть из которых модифициро­вана нами, но ранее применялась с SGM, а часть - впервые предложена нами, с целью выяснения, какие из них в паре с минимизационным ал­горитмом MGM демонстрируют наилучший результат. В связи с тем, что MGM был разработан совсем недавно, дальнейшего развития на момент написания работы не получил.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе работы были выполнены следующие задачи:
1. Адаптация MGM [4] под библиотеку OpenCV
2. Разработка и реализация алгоритма оценки стоимостей на основе синтеза алгоритмов Census и Mutual Information [6], дабы до­биться устойчивости к сложным радиометрическим изменениям на изображениях
3. Разработка и реализация функции стоимостей на основе сиамких сверточных нейронных сетей
4. Разработка и реализация алгоритма поиска перекрытий и устра­нение их проявлений (а вместе с тем и повышения точности самого алгоритма)
5. Использование адаптивных весов на основе градиента
6. Проверка полученного алгоритма на наборах изображений Middlebury, а также на наборах изображений лиц людей и анализ полученных результатов
В результате нашей работы было показано, что предложенные функ­ции стоимости в сочетании с MGM устойчиво работают на датасете Middlebury (в метриках bad 1.0 и avgerr), представляющем трудности для всех стерео-алгоритмов, по точности превосходя стандартную для MGM функцию стоимости census. Функция стоимости на основе ССНС демонстрирует наилучшую точность, однако в следствие большого объ­ема вычислений и отсутствия реализации на GPU, подходит лишь для датасетов, требующих высокой точности, но не требующих большой скорости вычислений. Линейная экстраполяция перекрытий продемон­стрировала многократный прирост точности в перекрытых регионах, что в сочетании со сложностью ее применения O(W * Н) делает ее ис­пользование рекомендуемым.
Применение предложенных алгоритмом на изображениях лиц лю­дей показало, что результаты, полученные при использовании различ­ных функций стоимости на данном наборе изображений, различны для метрик avgerr и bad 1.0. Выбор той или иной функции стоимости в дан­ном случае должен зависеть от метрики, в которой необходимо полу­чить наилучший результат. Использование экстраполяции на данном датасете не оправдало себя. В качестве дальнейшей работы оставле­но обучение и применение новой функции стоимости CNN на наборах изображений, содержащих лица людей.


[1] 3D face recognition using passive stereo vision / N. Uchida, T. Shibahara, T. Aoki et al. // Image Processing, 2005. ICIP 2005. IEEE International Conference on.— Vol. 2.— 2005. — Sept.— P. II- 950-3.
[2] Banz C., Pirsch P., Blume H. EVALUATION OF PENALTY FUNCTIONS FOR SEMI-GLOBAL MATCHING COST AGGREGATION // ISPRS.— 2012.-- Vol. XXXIX-B3.- P. 1-6.-- URL: http://www. int-arch-photogramm-remote-sens-spatial-inf-sci.net/ XXXIX-B3/1/2012/.
[3] Bleyer Michael, Gelautz Margrit. Simple but effective tree structures for dynamic programming-based stereo matching //In VISAPP. — 2008. - P. 415-422.
[4] Facciolo Gabriele, de Franchis Carlo, Meinhardt Enric. MGM: A Significantly More Global Matching for Stereovision. -- 2015. -- http://dev.ipol.im/ facciolo/mgm/.
[5] High-Quality Single-Shot Capture of Facial Geometry / Thabo Beeler, Bernd Bickel, Paul Beardsley et al. // ACM Trans. on Graphics (Proc. SIGGRAPH). 2010. - Vol. 29, no. 3. - P. 40:1-40:9.
[6] Hirschmuller Heiko. Stereo Processing by Semiglobal Matching and Mutual Information // IEEE Trans. Pattern Anal. Mach. Intell. -­2008. -. - Vol. 30, no. 2. - P. 328-341.
[7] Inamoto Naho, Saito Hideo. Intermediate view generation of soccer scene from multiple videos // Proceedings - International Conference on Pattern Recognition. — 2 edition. — 2002. — Vol. 16. — P. 713-716.
[8] Jiang Xiaoyue, Schofield Andrew J., Wyatt Jeremy L. Computer Vision - ECCV 2010: September 5-11, 2010, Proceedings, Part IV.-- 2010.— P. 58-71.— ISBN: 978-3-642-15561-1.
[9] Kolmogorov V., Zabih R. Computing visual correspondence with occlusions using graph cuts // Computer Vision, 2001. ICCV 2001. Proceedings. Eighth IEEE International Conference on. — Vol. 2. — 2001. —P. 508-515 vol.2.
[10] Li Y., Huttenlocher D. P. Learning for stereo vision using the structured support vector machine // Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on. — 2008. — June. — P. 1-8.
[11] Min D., Sohn K. Cost Aggregation and Occlusion Handling With WLS in Stereo Matching // IEEE Transactions on Image Processing. — 2008.—Aug. —Vol. 17, no. 8. —P. 1431-1442.
[12] Monasse Pascal. Quasi-Euclidean Epipolar Rectification // Image Processing On Line. — 2011. — Vol. 1.
[13] Pattern Recognition: 36th German Conference, GCPR 2014 / Daniel Scharstein, Heiko Hirschmuller, York Kitajima et al. / Ed. by Xiaoyi Jiang, Joachim Hornegger, Reinhard Koch. — Cham : Springer International Publishing, 2014. — P. 31-42. — ISBN: 978-3-319-11752-2.
[14] Pattern Recognition: 36th German Conference, GCPR 2014, Munster, Germany, September 2-5, 2014, Proceedings / Amnon Drory, Carsten Haubold, Shai Avidan, Fred A. Hamprecht / Ed. by Xiaoyi Jiang, Joachim Hornegger, Reinhard Koch. — Cham : Springer International Publishing, 2014. — P. 43-53.— ISBN: 978-3-319-11752-2. — URL: http://dx.doi.org/10.1007/978-3-319-11752-2_4.
[15] Pearl Judea. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. — San Francisco, CA, USA : Morgan Kaufmann Publishers Inc., 1988. —ISBN: 0-934613-73-7.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ