ВВЕДЕНИЕ 5
1 РАСПОЗНАВАНИЕ БИОЛОГИЧЕСКИХ ОБЪЕКТОВ: ПОСТАНОВКА ЗАДАЧИ И ОБЗОР СУЩЕСТВУЮЩИХ РЕШЕНИЙ 8
ОПИСАНИЕ ПРЕДМЕТНОЙ ОБЛАСТИ 8
ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ РЕШЕНИЯ 10
2 МЕТОДОЛОГИЯ РАСПОЗНАВАНИЯ ОБЪЕКТОВ МЕТОДАМИ МАШИННОГО ОБУЧЕНИЯ 24
НЕЙРОННЫЙ СЕТИ И ГЛУБОКОЕ ОБУЧЕНИЕ 24
ОСОБЕННОСТИ МЕТОДА ЭТОГО МЕТОДА THRESHOLDING WITH
MASK (ПОРОГ) 33
СОЗДАНИЕ НАБОРА ДАННЫХ 36
2.5 ИСПОЛЬЗУЕМ ФРЕЙМВОРК DARKNET ДЛЯ ОБУЧЕНИЯ OBJECT DETECTION НА ОСНОВЕ YOLOV3 57
3 РЕЗУЛЬТАТЫ ВЫПОЛНЕННОЙ РАБОТЫ 60
ПРОВЕРКА ГИПОТЕЗЫ ИСПОЛЬЗОВАНИЯ СТАНДАРТНЫХ ИНСТРУМЕНТОВ OPENCV 60
РЕЗУЛЬТАТЫ ПРИМЕНЕНИЯ НЕЙРОННОЙ СЕТИ YOLOV3 64
ЗАКЛЮЧЕНИЕ 69
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 70
Актуальность темы проекта. Дальневосточная нерпа или Ларга – вид тюленей, обитающих в Тихом океане вдоль дальневосточного побережья России. Является малоизученным морским млекопитающим. Последние годы ей активно стало интересоваться Национальный научный центр морской биологии ДВО РАН, так как выяснилось, что в заливе Петра Великого обитает уникальная береговая форма, которая размножается и выкармливает своё потомство исключительно на островах заповедника. Для изучения, в том числе и ларг, в 2017 году была создана лаборатория морских млекопитающих, исследования которой проходят в Приморском океанариуме на о. Русском.
Интерес к данной популяции связан с тревожно низкой численностью. Само ее существование возможно благодаря тому, что рождаются и выкармливаются детёныши на островах, которые охраняются Дальневосточным морским заповедником. За его пределами Ларга - объект зверобойного промысла. Исходя из этого, основная цель биологов – это добиться включения местной особи в Красную книгу. Детальное изучение животного должно помочь доказать его уникальность.
На текущий момент биологи имеют огромное количество данных, получаемых с камер, установленных над островами-лежбищами. Устройства ведут запись круглые сутки. Видео просматриваются людьми с целью поиска
«интересных» моментов, подсчёта количества ларг на лежбище, поиском маркированных особей и составления карты посещений геозон которые могут помочь в изучении поведения Ларг (рисунок 1). Это очень медленная работа, которая должна подлежать оптимизации.
Проектная идея выпускной квалификационной работы заключается разработке системы распознавания объектов морской биофауны (дальневосточных ларг) с использованием методов компьютерного зрения и глубокого обучения.
Цель и задачи проектного исследования. Целью магистерской диссертации является разработка программных модулей для классификации и обнаружения морских животных на изображениях и видеофайлах.
Для достижения поставленной цели были поставлены следующие задачи:
- создать пользовательский набор данных Дальневосточных Ларг
(Dataset) необходимых для машинного обучения;
- обучить нейронную сеть для распознавания Дальневосточных Ларг;
- разработать программу для обнаружения Ларг на изображениях, архивных видеофайлов, а также распознавание объекта в реальном времени.
Теоретическую и методологическую основу выпускной работы составляют представленные исследования в зарубежных и отечественных источниках. Список приведён в конце работы.
Структура этой работы. Выпускная квалификационная работа состоит из введения, трех глав, выводов и обсуждений, списка литературы и приложений. Структура работы отвечает поставленным цели и задачам проектного исследования. Глава 1 также содержит обзор современных систем обнаружения объектов. Глава 2 содержит описание методов, используемых для генерации набора данных и оценки детектора. Глава 3 представляет результат проделанной работы. Наконец, заключение и обсуждение проделанной работы и возможной будущей работы представлены в главе 4.
Таким образом, в ходе выполнения данной выпускной квалификационной работы были достигнуты следующие результаты:
Рассмотрены различные модели обнаружения объектов на изображении;
создан набор данных дальневосточных ларг для работы с YOLO;
проведён обзор фреймворка Darknet и системы обнаружения YOLO;
обучена Нейронная сеть YoloV3;
получены данные для оценки возможности применение обученной модели для обнаружения объекта в реально времени.
Полученные данные будут использованы для дальнейших исследований в рамках совместного проекта по распознаванию дальневосточных ларг Школы цифровой экономики и Национального научного центра морской биологии ДВО РАН.
1. Md. Zahangir Alom, Tarek M. Taha, Christopher Yakopcic, Stefan Westberg, Mahmudul Hasan, Brian C. Van Esesn, Abdul A. S. Awwal, and Vijayan
K. Asari. The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches . CoRR, abs/1803.01164, 2018. URL http://arxiv.org/abs/1803.01164. Cited on page 10.
2. Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-fcn: Object detection viaregion-based fully convolutional networks. In Advances in neural information processing systems, pages 379–387, 2016. Cited on pages 10 and 14.
3. Alexey Dosovitskiy, German Ros, Felipe Codevilla, Antonio Lopez, and Vladlen Koltun. CARLA : An Open Urban Driving Simulator. In Proceedings of the 1st Annual Conference on Robot Learning, pages 1–16, 2017. Cited on pages 1 and 21.
4. Vincent Dumoulin and Francesco Visin. A guide to convolution arithmetic for deep learning. 2016. Cited on page 8.
5. Mark Everingham, Luc Gool, Christopher K. Williams, John Winn, and Andrew Zisserman. The Pascal Visual Object Classes (VOC) Challenge . International Journal of Computer Vision, 88(2):303–338, June 2010. Cited on pages 15, 16, and 21.
6. Ross Girshick. Fast R-CNN. In 2015 IEEE International Conference on Computer Vision (ICCV), pages 1440–1448, Dec 2015. doi: 10.1109/ICCV.2015.
169. Cited on pages 10, 11, and 12.
7. Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 580–587, 2014. Cited on pages 10 and 11.
8. Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016. http://www.deeplearningbook.org. Cited on pages 5, 6, 8, 9, 15, and 39.
9. Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep Residual Learning for Image Recognition. In 2016 IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), pages 770–778, June 2016. doi: 10.1109/CVPR.2016.90. Cited on page 26.
10. Kurt Hornik, Maxwell Stinchcombe, and Halbert White. Multilayer feedforward networks are universal approximators. Neural networks, 2(5):359–366, 1989. Cited on page 6.
11. Sergey Ioffe and Christian Szegedy. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. In Proceedings of the 32nd International Conference on International Conference on Machine Learning – Volume 37, ICML’15, pages 448–456. JMLR.org, 2015. URL http://dl.acm.org/citation.cfm?id=3045118.3045167. Cited on page 14.
12. Sezer Karaoglu, Yang Liu, and Theo Gevers. Detect2rank: Combining object detectors using learning to rank. IEEE Transactions on Image Processing, 25(1):233 248, Jan 2016. ISSN 1057-7149. doi: 10.1109/TIP.2015.2499702. Cited on page 28.
13. Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. ImageNet Classification with Deep Convolutional Neural Networks. In F. Pereira, C. J. C. Burges, L. Bottou, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems 25, pages 1097–1105. Curran Associates, Inc., 2012. Cited on pages 10 and 25.
14. Yann Le Cun, Leon Bottou, and Yoshua Bengio. Reading checks with multilayer graph transformer networks. In Acoustics, Speech, and Signal Processing, 1997. ICASSP-97., 1997 IEEE International Conference on, volume 1, pages 151–
154. IEEE, 1997. Cited on page 10.
15. Peilun Li, Xiaodan Liang, Daoyuan Jia, and Eric P. Xing. Semanticaware Grad-GAN for Virtual-to-Real Urban Scene Adaption. CoRR, abs/1801.01726, 2018. URL http://arxiv.org/abs/1801.01726. Cited on page 39.
16. Min Lin, Qiang Chen, and Shuicheng Yan. Network In Network. 2013. Cited on page 9.
17. Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C. Lawrence Zitnick. Microsoft COCO: Common
Objects in Context. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 740– 755, Cham, 2014.
Springer International Publishing. ISBN 978-3-319- 10602-1. Cited on pages 15, 18, and 37.
18. Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C. Berg. SSD: Single Shot MultiBox Detector. In Bastian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors, Computer Vision
– ECCV 2016, pages 21–37, Cham, 2016. Springer International Publishing. ISBN
978-3-319-46448-0. Cited on pages 1, 10, 12, 14, 25, 31, and 38.
19. Yusuke Niitani, Toru Ogawa, Shunta Saito, and Masaki Saito. ChainerCV: a Library for Deep Learning in Computer Vision. 10 2017. doi: 10.1145/ 3123266.3129395. Cited on pages 25 and 26.
20. Joseph Redmon and Ali Farhadi. YOLO9000: Better, Faster, Stronger. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6517 6525, 2017. Cited on pages 10, 14, and 37.
21. Joseph Redmon and Ali Farhadi. YOLOv3: An Incremental Improvement. CoRR, abs/1804.02767, 2018. URL http://arxiv.org/abs/1804. 02767. Cited on pages 1, 14, 15, 29, and 37.
22. Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi. You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 779– 788, 2016. Cited on pages 12, 13, 14, and 15.
23. Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015. Cited on pages 10, 11, 12, 13, and 14.
24. Stephan R. Richter, Zeeshan Hayder, and Vladlen Koltun. Playing for Benchmarks. In IEEE International Conference on Computer Vision, ICCV 2017, Venice, Italy, October 22-29, 2017, pages 2232–2241, 2017. doi: 10.1109/ ICCV.2017.243. URL https://doi.org/10.1109/ICCV.2017.243. Cited on page 2.
25. Karen Simonyan and Andrew Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. CoRR, abs/1409.1556, 2014. URL http://arxiv.org/abs/1409.1556. Cited on pages 10 and 11.
26. Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: a simple way to prevent neural networks from overfitting. The Journal of Machine Learning Research, 15(1):1929– 1958, 2014. Cited on page 10.
27. Gui-Song Xia, Xiang Bai, Jian Ding, Zhen Zhu, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, and Liangpei Zhang. DOTA: A Large-Scale Dataset for Object Detection in Aerial Images. In the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. Cited on page 1.
28. Matthew D Zeiler and Rob Fergus. Visualizing and understanding convolutional networks. In European conference on computer vision, pages 818– 833. Springer, 2014. Cited on page 10.
29. Zhong-Qiu Zhao, Peng Zheng, Shou-tao Xu, and Xindong Wu. Object Detection with Deep Learning: A Review . CoRR, abs/1807.05511, 2018. URL http://arxiv.org/abs/1807.05511. Cited on page 14.
30. Muhlmann, K., Maier, D., Hesser, J., & Manner, R., “Calculating dense disparity maps from color stereo images, an efficient implementation.” International Journal of Computer Vision, Vol. 47, 2002, pp.79-88.
31. Shi, J., & Malik, J., “Normalized cuts and image segmentation.” Departmental Papers (CIS), 2000, pp.107.
32. Felzenszwalb, P. F., & Huttenlocher, D. P., “Efficient graph-based image segmentation.” International journal of computer vision, Vol.59, No.2, 2004, pp.167 181.
33. Pal, N. R., & Pal, S. K., “A review on image segmentation techniques.” Pattern recognition, Vol. 26, No.9, 1993, pp.1277-1294.
34. Hull, J. J., “A database for handwritten text recognition research.” IEEE Transactions on pattern analysis and machine intelligence, Vol. 16, No. 5, 1994, pp.550-554.
35. Kim, G., Govindaraju, V., & Srihari, S. N., “An architecture for handwritten text recognition systems.” International Journal on Document Analysis and Recognition, Vol.2, No.1, 1999, pp.37-44.
36. Chang, S. L., Chen, L. S., Chung, Y. C., & Chen, S. W., “Automatic license plate recognition.” IEEE transactions on intelligent transportation systems, Vol.5, No.1,2004, pp.42-53.
37. Anagnostopoulos, C. N. E., Anagnostopoulos, I. E., Loumos, V., & Kayafas, E., “Alicense plate-recognition algorithm for intelligent transportation system applications.” IEEE Transactions on Intelligent transportation systems, Vol. 7, No.3, 2006, pp.377-392.
38. Jensen, J. R., & Lulla, K., “Introductory digital image processing: a remote sensing perspective.”,1987.
39. LeCun, Y., Bengio, Y., & Hinton, G., “Deep learning.” nature, Vol.521, No.7553, 2015, pp.436.
40. Schmidhuber, J., “Deep learning in neural networks: An overview.” Neural networks, Vol.61, 2015, pp.85-117.
41. Everingham, M., Eslami, S. A., Van Gool, L., Williams, C. K., Winn, J., & Zisserman, A., “The pascal visual object classes challenge: A retrospective.” International journal of computer vision, Vol. 111, No.1, 2015, pp.98-136.
42. Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L., “Imagenet: A largescale hierarchical image database.” IEEE conference on computer vision and pattern recognition, 2009, pp. 248-255.
43. Deng, J., Berg, A., Satheesh, S., Su, H., Khosla, A., & Fei-Fei, L., “ILSVRC-2012.”, 2012.
44. Davis E. King. “Dlib-ml: A Machine Learning Toolkit”. In: J. Mach. Learn. Res. 10 (Dec. 2009), pages 1755–1758. ISSN: 1532-4435. URL: http://dl.acm.org/citation.cfm? id=1577069.1755843 (cited on page 61).
45. A. Dutta, A. Gupta, and A. Zissermann. VGG Image Annotator (VIA). http://www.robots. ox.ac.uk/~vgg/software/via/. 2016 (cited on page 62).
46. https://github.com/gwding/draw_convnet/
47. https://blog.zenggyu.com/en/post/2018-12-16/an-introduction-to- evaluation-metrics-for-object-detection/
48. Focal Loss for Dense Object Detection / Tsung-Yi Lin, Priya Goyal, Ross Girshick et al. –– arXiv, 2017.
49. Redmon Joseph, Farhadi Ali. YOLOv3: An Incremental Improvement. ––
arXiv, 2018.