Тип работы:
Предмет:
Язык работы:


Разработка алгоритмов быстрого обнаружения объектов на основе небольшого количества реальных размеченных данных

Работа №73995

Тип работы

Бакалаврская работа

Предмет

математика

Объем работы29
Год сдачи2020
Стоимость4200 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
56
Не подходит работа?

Узнай цену на написание


Аннотация 3
Аббревиатуры 4
1 Введение 5
2 Общее описание задачи детекции и входных данных . . 6
2.1 Описание задачи 6
2.2 Описание входных данных 6
3 Обзор литературы 8
3.1 Быстрая R-CNN 9
3.2 Модификация: FPN 10
4 Постановка и анализ эксперимента 13
4.1 Данные 13
4.2 Выбор опорной модели 14
4.2.1 Модификация: NDFT 14
4.3 Метрики качества для задачи детекции 16
4.3.1 Локализация 17
4.3.2 Классификация 18
4.3.3 Average Presicion 20
5 Эксперименты 22
5.1 Увеличение выборки реальных данных 22
5.2 Смесь данных без использования модуля NDFT 22
5.3 Смесь данных с использованием модуля NDFT 23
6 Выводы 26
7 Список используемой литературы 27


Проблема недостатка данных для обучения стоит с самого начала революции нейронных сетей. Известно, что чем больше данных принял алгоритм, тем выше его качество. К примеру, существуют стандартизированные аннотированные коллекции данных, состоящих из миллионов примеров для нейросетевых алгоритмов. К большому сожалению, все наборы данных были размечены людьми, это очень трудоемкая работа. Ошибки, выявленные в результате этого кропотливого коллекционирования, очень дорого могут обойтись - градиенты, передающиеся с помощью метода обратного распространения ошибки в нейросети, могут переполнится и алгоритм ничему не научится.
XXI век - век прорывных технологий. Инженеры и ученые стремятся к автоматизации процессов, чтобы достигнуть наивысшего качества. Как сократить время и ошибки при работе над аннотацией данных?
С другой стороны, уже давно существуют программы автоматического генерирования синтетических данных. Но, согласно последним экспериментам ученых-исследователей машинного обучения, нейронные сети очень легко подстраиваются под искуственные данные, не показывая высокого качества работы на реальных размеченных данных.
Почему так происходит? Наш мир гораздо богаче и порой состоит из сложных структур, которых очень сложно описать с помощью детерминированной программы.
Данной проблемой занимается такая область машинного обучения, как Domain Adaptation. Она объясняет, как обучить модель на данных из домена-источника (source domain) так, чтобы она показывала сравнимое качество на целевом домене (target domain).
Научная новизна заключается в постановке задачи минимизации и разработке нового состязательного способа обучения модели для сохранения высокого качества детекции на реальных данных, которых зачастую получить труднее, чем искуственно-созданных.
Рассмотренная мной проблема актуальна и имеет прикладной характер. Результаты, полученные в этой работе, могут использоваться в реальной жизни при разработке нейросетевых алгоритмов.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Прежде всего стоит отметить, что работа направлена на прикладную применимость исследованного модуляNDFT. По результатам экспериментов можно уверенно сказать, что 50 % выборки реальных данных можно заменить синтетической. В данной работе не проводились эксперименты над варицией реальных данных для модуляNDFT, поскольку классификатор с Cross-entropy loss эффективно распознает данные при сбалансированной выборке. Хочется отметить, что эта проблема также решаема с помощью идей, взятых, например, из статьи [30], но это уже тема для отдельного исследования.
Данную модель можно вывести в режим работы реального времени, если заменить блок извлечения признаков на более легкий. Это необходимо для автоматического принятия решений БПЛА.
Поставленная задача успешно выполнена. Думаю, если развивать идеи области машинного обучения Domain Adaptation, то в ближайшем будущем можно тратить гораздо меньше сил на ручную разметку, а также даже по нескольким образом успешно детектировать объекты даже в самых сложных ситуациях.



[1] Lin Tsung-Yi, Maire Michael, Belongie Serge, Bourdev Lubomir, Girshick Ross, Hays James, Perona Pietro, Ramanan Deva, Zitnick Lawrence, and Dolla’r Piotr. Microsoft coco: Common objects in context. arXiv preprint arXiv:1405.0312, 2015.
[2] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. CVPR, 2009.
[3] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (voc) challenge. IJCV, 88(2):303-338, 2010.
[4] ImageNet Large Scale Visual Recognition Challenge. http://www.image-net.org/challenges/LSVRC/.
[5] John Canny. A computational approach to edge detection. In IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE, 1986.
[6] Redmon Joseph, Divvala Santosh, Girshick Ross, and Farhadi Ali. You only look once: Unified, real-time object detection. arXiv preprint arXiv:1506.02640, 2015.
[7] Redmon Joseph and Farhadi Ali. Yolo9000: Better, faster, stronger. arXiv preprint arXiv:1612.08242, 2016.
[8] Redmon Joseph and Farhadi Ali. Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018.
[9] Bochkovskiy Alexey, Wang Chien-Yao, and Liao Hong-Yuan Mark. Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934, 2020.
[10] Liu Wei, Anguelov Dragomir, Erhan Dumitru, Szegedy Christian, Reed Scott, Fu Cheng-Yang, and C. Berg Alexander. Ssd: Single shot multibox detector. arXiv preprint arXiv:1512.02325v5, 2016.
[11] Girshick Ross, Donahue Jeff, Darrell Trevor, and Malik Jitendra. Rich feature hierarchies for accurate object detection and semantic segmentation. arXiv preprint arXiv:1311.2524, 2014.
[12] Girshick Ross. Fast-rcnn. arXiv preprint arXiv:1504.08083, 2015.
[13] Ren Shaoqing, He Kaiming, Girshick Ross, and Sun Jian. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2016.
[14] Cai Zhaowei and Vasconcelos Nuno. Cascade r-cnn: Delving into high quality object detection. arXiv preprint arXiv:1712.00726, 2017.
[15] Bodla Navaneeth, Singh Bharat, Chellappa Rama, and S. Davis Larry. Improving ob ject detection with one line of code. arXiv preprint arXiv:1704.04503v2, 2017.
[16] Jiang Borui, Luo Ruixuan, Mao Jiayuan, Xiao Tete, and Jiang Yuning. Acquisition of localization confidence for accurate object detection. arXiv preprint arXiv:1807.11590v1, 2018.
[17] Lin Tsung-Yi, Dollar Piotr, Girshick Ross, He Kaiming, Hariharan Bharath, and Belongie Serge. Feature pyramid networks for object detection. arXiv preprint arXiv:1612.03144v2, 2017.
[18] Wu Yue, Chen Yinpeng, Yuan Lu, Liu Zicheng, Wang Lijuan, Li Hongzhi, and Fu Yun. Rethinking classification and localization for object detection. arXiv preprint arXiv:1904.06493, 2020.
[19] Song Guanglu, Liu Yu, and Wang Xiaogang. Revisiting the sibling head in object detector. arXiv preprint arXiv:2003.07540v1, 2020.
[20] Zhenyu Wu, Karthik Suresh, Priya Narayanan, Hongyu Xu, Heesung Kwon, and Zhangyang Wang. Delving into robust object detection from unmanned aerial vehicles: A deep nuisance disentanglement approach. arXiv preprint arXiv:1908.03856, 2019.
[21] Chen Yuhua, Li Wen, Sakaridis Christos, Dai Dengxin, and Luc Van Gool. Domain adaptive faster r-cnn for object detection in the wild. arXiv preprint arXiv:1803.03243, 2018.
[22] Krizhevsky Alex, Sutskever Ilya, and E. Hinton Geoffrey. Imagenet classification with deep convolutional neural networks. NIPS, 2012.
[23] D Zeiler Matthew and Fergus Rob. Visualizing and understanding convolutional networks. arXiv preprint arXiv:1311.2901, 2013.
[24] Simonyan Karen and Zisserman Andrew. Very deep convolutional networks for large-scale image recognition. ICLR, 2015.
[25] Szegedy Christian, Liu Wei, Jia Yangqing, Sermanet Pierre, Reed Scott, Anguelov Dragomir, Erhan Dumitru, Vanhoucke Vincent, and Rabinovich Andrew. Going deeper with convolutions. arXiv preprint arXiv:1409.4842, 2014.
[26] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770-778, 2016.
[27] Tom M. Mitchell. Machine Learning. McGraw-Hill, 1997.
[28] Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines, volume 37. Bull. Soc. Vaudoise sci. Natur, 1901.
[29] Saito Takaya and Rehmsmeier Marc. The precision-recall plot is more informative than the roc plot when evaluating binary classifiers on imbalanced datasets. PLoS ONE, 2015.
[30] Lin Tsung-Yi, Goyal Priya, Girshick Ross, He Kaiming, and Dollar Piotr. Focal loss for dense object detection. arXiv preprint arXiv:1708.02002, 2017.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ