Тема: Развитие метода полуглобального стереосопоставления и его применение к реконструкции поверхностей лиц
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Постановка задачи 9
2. Известные результаты 10
3. Предлагаемые алгоритмы 15
3.1. Функции стоимости 15
3.1.1. Функция стоимости Mutual Information and Census (MIC) 15
3.1.2. Функция стоимости на основе сиамской сверточной нейронной сети (CNN) 18
3.2. Экстраполяция перекрытых регионов 21
3.2.1. Линейная экстраполяции перекрытых регионов . 21
3.2.2. Экстраполяции перекрытых регионов путем голо-сования 24
3.3. Адаптивные веса на основе градиента изображения ... 26
4. Результаты экспериментов 28
5. Применение стереометода на изображениях лиц людей 37
5.1. Применение стереометода на изображениях лиц людей с известной 3D моделью
Заключение 45
Список литературы
📖 Введение
Оказывается, при известных параметрах камер (обычно сами камеры идентичны) и расстоянии между ними задачу можно свести из 2Dх 2Dк 1Dх 1D.Рисунок 1 показывает, как одной точке проек¬ции на источник могут соответствовать две точки цели (на самом деле ей может соответствовать целая линия цели, называемая эпиполярной, е2 на рис. 2). Если же теперь спроецировать е2 обратно на плоскость источника - получим другую эпиполярную линию - е1. Две эти линии получены от пересечения двух проективных плоскостей камер и так называемой эпиполярной плоскости ORPOR.
Более эффективным является решение сначала ’’выпрямить” системы координат, так, чтобы эпиполярные линии были горизонтальны и соответствующие линии находились на одинаковой высоте (рис. 2). Для этого сначала необходимо ”виртуально” повернуть камеры, чтобы они смотрели перпендикулярно линии, соединяющей их оптические центры - OROR. Далее регулируется кручение вокруг оптических осей камер, чтобы соответствующие эпиполярные линии были горизонтальны и смещение для точек в бесконечности было нулевым. Последнее - перемасштабировать изображения, чтобы учесть, возможно, разные фокусы камер.
Смещение между расположениями двух соответственных точек на ”выпрямленной” (также эту форму называют стандартной) паре изображений называют смещением (d = XR— X? на рис. 3).
Главной частью стереоалгоритма является поиск соответствий. Этот процесс можно разделить на следующие этапы, согласно [16]: вычисление стоимостей для каждого пикселя, вычисление их взвешенной суммы, минимизация общей стоимости для всего изображения, уточнение полученного решения (схема приведена на рис. 4). Эффективность каждой из предложенных частей непосредственно влияет на все последующие. В последнее время популярность получили так называемые глобальные алгоритмы, которые ищут гладкое решение (в том смысле, что ’’штрафуется” наличие ’’скачков” в глубинах). Однако, глобальные алгоритмы довольно медленны, поэтому ищутся всевозможные приближения к глобальному решению - это так называемые полуглобальные алгоритмы. Учитывая, что для многих аглоритмов соотношение скорости/точности для различных датасетов очень сильно варьируется, проблема поиска наилучшего алгоритма для данного набора изображений все еще пользуется интересом.
Алгоритм Semi-global matching (SGM, алгоритм полуглобального сопоставления) - один из ведущих стереоалгоритмов, реализующий этап минимизации. Этот алгоритм использует эффективную стратегию для приблизительной минимизации энергии, которая состоит из попиксельной стоимости и попарной (между соседними пикселями) гладкости. На основе предложенной интерпретации SGM как алгоритма распространения доверия, совсем недавно был преложен новый алгоритм - Significantly More Global Matching (MGM, значительно более глобальный поиск соответствий [4]) - который позволяет в пять раз минимизировать зазор энергии невязки решения по сравнению с SGM, при этом почти не имеет накладных расходов. Однако сам алгоритм реализует этап минимизации, и авторы алгоритма оставили за пределами своего исследования использование вместе с их алгоритмом многих других популярных решений, лежащих на других этапах, например, использование более точной функции стоимости или борьбу с перекрытиями.
Эта работа посвящена дальнейшему развитию алгоритма MGM - применение вместе с ним алгоритмов, часть из которых модифицирована нами, но ранее применялась с SGM, а часть - впервые предложена
✅ Заключение
1. Адаптация MGM [4] под библиотеку OpenCV
2. Разработка и реализация алгоритма оценки стоимостей на основе синтеза алгоритмов Census и Mutual Information [6], дабы добиться устойчивости к сложным радиометрическим изменениям на изображениях
3. Разработка и реализация функции стоимостей на основе сиамких сверточных нейронных сетей
4. Разработка и реализация алгоритма поиска перекрытий и устранение их проявлений (а вместе с тем и повышения точности самого алгоритма)
5. Использование адаптивных весов на основе градиента
6. Проверка полученного алгоритма на наборах изображений Middlebury, а также на наборах изображений лиц людей и анализ полученных результатов
В результате нашей работы было показано, что предложенные функции стоимости в сочетании с MGM устойчиво работают на датасете Middlebury (в метриках bad 1.0 и avgerr), представляющем трудности для всех стерео-алгоритмов, по точности превосходя стандартную для MGM функцию стоимости census. Функция стоимости на основе ССНС демонстрирует наилучшую точность, однако в следствие большого объема вычислений и отсутствия реализации на GPU, подходит лишь для датасетов, требующих высокой точности, но не требующих большой скорости вычислений. Линейная экстраполяция перекрытий продемонстрировала многократный прирост точности в перекрытых регионах, что в сочетании со сложностью ее применения O(W * Н) делает ее использование рекомендуемым.
Применение предложенных алгоритмом на изображениях лиц людей показало, что результаты, полученные при использовании различных функций стоимости на данном наборе изображений, различны для метрик avgerr и bad 1.0. Выбор той или иной функции стоимости в данном случае должен зависеть от метрики, в которой необходимо получить наилучший результат. Использование экстраполяции на данном датасете не оправдало себя. В качестве дальнейшей работы оставлено обучение и применение новой функции стоимости CNN на наборах изображений, содержащих лица людей.



