Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
ℹ️Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.
Введение 4
Постановка задачи 6
Обзор литературы 7
1. Глава 1. Анализ предметной области 8
1.1. Форма из текстуры 8
1.2. Форма из тени 9
1.3. Глубокое обучение 11
2. Глава 2. Анализ и сравнение 13
2.1. Анализ 13
2.2. Детектирование объектов 13
2.2.1. Faster R-CNN (Region-based Convolutional Neural Networks) 13
2.2.2. SSD (Single Shot Multibox Detector) 16
2.2.3. YOLO (You Only Look Once) 17
2.2.4. Выбор 18
2.3. Реконструкция трёхмерной модели 19
2.3.1. 3D-R2N2: 3D Recurrent Reconstruction Neural Network 19
2.3.2. AtlasNet: A Papier-Mache Approach to Learning 3D Surface Generation 21
2.3.3. Выбор 23
3. Глава 3. Разработка 24
3.1. Проектирование 24
3.2. Реализация 25
3.3. Результаты 26
3.3.1. Метрика 27
Выводы 29
Заключение 30
Список литературы 31
📖 Аннотация
Работа посвящена исследованию методов пассивной трёхмерной реконструкции объектов по двумерным изображениям. Актуальность задачи обусловлена ограниченностью роботизированных систем, требующих заранее заданных инструкций для взаимодействия с предметами, в то время как способность автономно анализировать и восстанавливать форму объектов в 3D существенно расширила бы их функциональность. В ходе исследования был проведён сравнительный анализ современных методов детектирования объектов и последующего восстановления трёхмерной геометрии, результатом которого стал выбор и практическая реализация двухэтапного подхода. На этапе детектирования использовалась архитектура Faster R-CNN, а для реконструкции трёхмерной модели — нейронная сеть AtlasNet, генерирующая поверхность на основе двумерных проекций. Разработанное решение успешно выполняет задачу реконструкции, однако демонстрирует высокую чувствительность к сложному фону и перекрытиям объекта, что связано с особенностями обучения AtlasNet на идеализированных данных. Практическая значимость результатов заключается в потенциальном применении в системах компьютерного зрения для робототехники, дополненной реальности и анализа сцен, где требуется автоматическое понимание трёхмерной структуры объектов по визуальным данным. Для повышения robustness системы в реальных условиях необходима модификация процесса генерации тренировочных данных в сторону фотореалистичности и внедрение модуля семантической сегментации для точного определения границ объекта.
📖 Введение
Множество объектов окружают человека в реальном мире. У них разнятся форма, структура, цвет, размер. И, хотя, человек умеет взаимодействовать с всеми различными типами объектов, современные роботизированные системы весьма ограничены в этом плане. У роботизированных систем существует четкий набор инструкций при работе с предметами той или иной формы. Этим набором инструкций и ограничивается область применения конкретной системы. Умение же анализировать объект позволило бы расширить область применения той или иной роботизированной системы. Более того, так как взаимодействие с объектом происходит в трёхмерном пространстве, то и анализировать форму тоже необходимо в трёх измерениях.
Направление в компьютерном зрении, которое связано с этой задачей называется ’’Трёхмерная реконструкция”. Вообще говоря, область применения решений в данном направлении гораздо шире, нежели взаимодействие роботизированных систем с реальным миром. Как пример, можно рассмотреть задачу взаимодействия с предметами в дополненной реальности, трёхмерную реконструкцию человеческого тела, детальную оценку дорожной ситуации.
Есть множество способов реконструкции трёхмерных моделей и они в корне различаются. Выделяют два основных набора методов при реконструкции: активные и пассивные.
Активные методы подразумевают исследование объектов с помощью использования определённого излучения, направленного на объект, а затем считывания данных, отразившихся от объекта. Например: структурное освещение, лазерные дальномеры, лидары, радиоизлучения, ультразвуковые волны, микроволновые излучения и так далее. Однако для этого необходимо специфическое оборудование, что, несомненно, является минусом данного подхода.
Пассивные же методы не производят никакого воздействия на объект, они лишь используют набор датчиков для измерения естественного излучения, отражаемого объектом. Типичным примером являются матрицы камер. При использовании камер выделяют бинокулярные и монокулярные схемы.
В первом случае используется стереопара из двух камер. Используя два ракурса, строится карта глубины снятой сцены [9]. Имея карту глубины, получается 2.5 мерное пространство. Используя 2.5 мерное представление объекта, с помощью методов глубокого обучения получается полноценная трёхмерная модель [6][12].
Во втором случае, при использовании одной камеры, принцип реконструкции состоит в том, чтобы отснять набор кадров объекта с разных ракурсов, либо заснять интересующий объект на видео, чтобы в дальнейшем реконструировать объект из набора изображений[20]. Относительно новым подходом является реконструкция объекта по единственному монокулярному изображению.
Существует множество решений, позволяющих реконструировать трёхмерную модель по одному изображению, однако ни одно из этих решений не реализует принцип, позволяющий извлекать несколько трёхмерных моделей из одного изображения реального мира.
✅ Заключение
Разработанное решение выполняет поставленные задачи, однако оно очень чувствительно к фону извлекаемого объекта, а так же к пересечениям извлекаемого объекта с другими объектами. Это накладывает ограничения на область его применения. Проблема кроется в архитектурных особенностях сети AtlasNet, а так же в типе данных, на которых эта сеть обучалась. Изображения, подаваемые на вход при обучении были ’’идеальной версией” трёхмерных объектов, которые они представляли, с простым фоном, без наложений других объектов, под определёнными углами и так далее. Решением этой проблемы является модификация принципа генерации двумерных представлений трёхмерных объектов в угоду фотореалистичному качеству и построениям сложных сцен из реального мира, а так же внедрение дополнительного модуля, выполняющего семантическую сегментацию в процесс тестирования, для того чтобы с более высокой точностью определять границы объекта и тем самым увеличить точность реконструкции.