Введение 4
1 Анализ классов методов распознавания объектов на изображении 7
1.1 Обзор подходов к распознаванию объектов на изображении 7
1.2 Анализ методов распознавания объектов на основе машинного
обучения 8
1.3 Анализ методов распознавания объектов на основе глубокого
обучения 11
2 Сравнительный анализ детекторов объектов на основе сверточных
нейронных сетей и их компонентов 22
2.1 Анализ основных принципов функционирования детекторов
объектов на основе сверточных нейронных сетей 22
2.2 Сравнительный анализ сверточных архитектур, входящих в состав
детекторов объектов 25
2.3 Обзор современных детекторов объектов на изображении на основе
сверточных нейронных сетей 31
2.3.1 Обзор детектора Faster R-CNN 31
2.3.2 Обзор детектора R-FCN 34
2.3.3 Обзор детектора YOLOv4 36
2.3.4 Обзор детектора SSD 39
2.3.5 Обзор детектора Retina-Net 41
2.3.6 Обзор детектора RefineDet 43
2.3.7 Обзор детектора YOLOR 45
2.4 Сравнительный анализ современных детекторов объектов на
изображении на основе сверточных нейронных сетей 48
3 Модификация архитектуры детектора объектов YOLOR 51
3.1 Выявление сильных сторон детектора YOLOR 51
3.2 Предлагаемые улучшения 54
3.2.1 Улучшение экстрактора признаков 54
3.2.2 Улучшение сети уточнения карт признаков 60
3.3 Описание математической модели модифицированного детектора YOLOR 64
3.4 Оценка производительности модифицированной архитектуры
детектора объектов YOLOR 75
Заключение 84
Список используемой литературы 86
Быстрые темпы цифровизации, производимые в различных сферах жизнедеятельности в течение последнего десятилетия порождают необходимость в осуществлении тщательного контроля качества выполняемых процессов, проведении непрерывного анализа различных явлений и автоматизации сбора данных без. Все это возможно благодаря современным системам компьютерного зрения, полностью перенимающих на себя функцию глаз человека, либо оказывающих дополнительную помощь в критически важных задачах. Применение систем компьютерного зрения в космической, научной и медицинской сферах, а также в сфере безопасности предъявляет высокие требования к точности и быстродействию разрабатываемых решений. Все это стимулирует непрерывные исследования в поиске новых подходов к задаче обнаружения объектов на изображении и попытки модификаций и переосмысления уже существующих и широко используемых методов.
Актуальность данной работы обуславливается ростом потребности в более точных детекторах объектов для приложений реального времени, поскольку большая часть исследований, нацеленных на создание быстрых детекторов приводит к значительному снижению точности обнаружения объектов.
Целью данной выпускной квалификационной работы является модификация одного из современных детекторов объектов на изображении для улучшения показателей точности и скорости обнаружения.
Объектом исследования в данной работе являются детекторы объектов, пригодные для работы в приложениях реального времени. Предметом исследования является влияние структурных особенностей различных детекторов объектов на показатели точности и скорости обнаружения.
Гипотеза исследования заключается в предположении, что производительность детекторов объектов на изображении во многом зависит от сверточной архитектуры, входящей в его состав, поэтому правильный выбор и конструирование различных частей детектора, состоящих из сверточных нейронных сетей, позволят значительно повысить точность и скорость обнаружения.
Для достижения поставленной цели необходимо выполнить следующие задачи:
- провести обзор и оценку существующих подходов к обнаружению объектов на изображении;
- провести структурный и сравнительный анализы современных детекторов объектов на изображении, пригодных для работы в режиме реального времени, с целью определения наилучшего из них;
- выявить сильные и слабые стороны наилучшего по результатам сравнения детектора, предложить способы его улучшения и оценить производительность модифицированного детектора.
Научная новизна данного исследования состоит в использовании подхода оптимизации сверточных архитектур, входящих в состав детектора, для повышения его производительности. Кроме того, в данном исследовании предлагается новая сверточная нейронная сеть для извлечения признаков из изображения.
Практическая значимость исследования состоит в разработке сверточной архитектуры, которую можно применять для улучшения производительности большинства существующих детекторов объектов на изображении.
Положения, выносимые на защиту:
- в ходе исследования была разработана новая сверточная нейронная
сеть для выделения признаков на изображении, используемая для улучшения работы детектора YOLOR;
- модифицированные детекторы объектов, полученные в результате
перестроения экстрактора признаков и сети уточнения признаков YOLOR, демонстрируют лучшие результаты как в точности, так и в скорости обнаружения.
Магистерская диссертация состоит из введения, анализа классов методов распознавания объектов на изображении, сравнительного анализа детекторов объектов на основе сверточных нейронных сетей и их компонентов, модификации архитектуры детектора объектов YOLOR, оценки производительности модифицированного детектора и заключения.
В первом разделе проводится обзор подходов к распознаванию объектов на изображении и анализ методов, реализующие данные подходы.
Во втором разделе проводится анализ основных принципов функционирования детекторов на основе сверточных нейронных сетей, сравнительный анализ сверточных архитектур, входящих в состав детекторов, обзор основных детекторов объектов на изображении и их сравнительный анализ.
В третьем разделе производится выявление сильных сторон детектора YOLOR, предлагаются способы улучшения и описывается математическая модель детектора. Также производится оценка точности и скорости модифицированного детектора.
Полученные в ходе выполнения данной работы модификации детектора объектов на изображении демонстрируют наилучшие показатели точности обнаружения по сравнению с оригинальным детектором, а также обладают достаточной скоростью для работы в приложениях реального времени.
В ходе выполнения магистерской диссертации были рассмотрены основные классы методов обнаружения объектов на изображении: на основе машинного и глубокого обучения. Методы, основанные на машинном обучении, применяются в основном для узкого круга задач. Основными недостатками данных методов является низкая скорость распознавания и плохая обобщающая способность. Лучшим подходом для обнаружения объектов на изображении является метод, основанный на глубоком обучении, а именно сверточные нейронные сети.
Для оценки влияния отдельных компонентов детектора на точность и скорость обнаружения был проведен анализ основных принципы работы детекторов объектов на изображении на основе СНС и выполнен сравнительный анализ основных сверточных архитектур, выступающих в качестве структурных частей множества детекторов. Также, были рассмотрены особенности реализации некоторых современных детекторов объектов на изображении, таких как: R-CNN, R-FCN, YOLO, SSD, RetinaNet, RefineDet и YOLOR. В рамках сравнительного анализа данных детекторов были описаны их преимущества и недостатки, а также произведена оценка их показателей точности и скорости обнаружения объектов на изображении. На основании результатов сравнительного был сделан вывод, что одноступенчатые детекторы являются более подходящими для обнаружения объектов в режиме реального времени, за счет лучшего быстродействия. Кроме того, среди рассмотренных детекторов объектов, наилучшим оказался YOLOR, обладающий самыми высокими показателями точности и скорости обнаружения.
Для улучшения детектора YOLOR был проведен анализ его сильных и слабых частей. Главной особенностью детектора YOLOR является применение неявных знаний в процессе обнаружения объектов, которая была сохранена в модифицированном детекторе объектов, поскольку способствуют повышению точности и скорости обнаружения.
В процессе модификации детектора YOLOR было сделано несколько улучшений: в качестве экстрактора признаков была выбрана сконструированная в ходе текущего исследования сверточная архитектура Res3Net, объединяющая преимущества CSPResNeXt и Res2Net, которые обладают лучшей производительностью по сравнению с экстрактором признаков CSPDarknet, также шея детектора YOLOR, состоящая из сети уточнения признаков PAN и блока пространственного объединения пирамид SPP, была заменена на блочную сеть уточнения признаков BiFPN, которая позволяет гибко масштабировать размер рецептивного поля, повышая точность обнаружения и сохраняет пространственную информацию об объектах, которая могла бы быть утеряна при использовании SPP.
Для оценки были обучены две модификации детектора: YOLOR-LM и YOLOR-DM, отличающиеся глубиной сетевой архитектуры. В качестве оцениваемых параметров выступали точность обнаружения, рассчитываемая по метрике AP, и скорость обнаружения (FPS). В результате сравнительного анализа было выявлено, что модификация YOLOR-LM на 4% точнее и на 30% быстрее по сравнению с оригинальным детектором YOLOR. Другая модификация YOLOR-DM, обладающая самой глубокой сетевой архитектурой, повышает точность на 5% по сравнению с детектором YOLOR, однако медленнее него на 25%.
Из полученных результатов исследования следует, что для детектора YOLOR, найдется такой детектор YOLOR-LM, превосходящий его в точности и скорости обнаружения и такой детектор YOLOR-DM, превосходящий оба этих детектора в точности обнаружения, но обладающий меньшим быстродействием.
Таким образом, была подтверждена гипотеза о том, что производительность детектора во многом зависит от правильного конструирования сверточных архитектур, входящих в его состав.
1. Бурков А. Машинное обучение без лишних слов / Андрей Бурков - Питер СПб, 2020. - 192 с.
2. Вьюгин В. Математические основы машинного обучения и прогнозирования / Владимир Вьюгин. - МЦНМО, 2014. - 304 с.
3. Гелиг А., Матвеев А. Введение в математическую теорию обучаемых распознающих систем и нейронных сетей. Учебное пособие / Аркадий Гелиг, Алексей Матвеев - Издательство СПбГУ, 2014. - 224 с.
4. Abu-Mostafa Y. Learning From Data / Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin - AMLBook. - 2012.-Jan. -С. 213.
5. Alexey Bochkovskiy. YOLOv4: Optimal Speed and Accuracy of Object Detection, 2020 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/2004.10934(дата обращения 10.06.2021).
6. Amit Kumar Sinha. Application of Deep Learning in Object Detection: Application of Deep Learning in Object Detection using Tensorflow // Amit Kumar Sinha, Adarsha Ruwali, Abhilash Jha. LAP LAMBERT. - 2017. -Dec. -С. 56.
7. Bishop C. Pattern Recognition and Machine Learning (Information Science and Statistics) / Christopher M. Bishop - Springer-Verlag New York Inc. -2007.- Feb. -С. 738.
8. Can Zhang. PAN: Towards Fast Action Recognition via Learning Persistence of Appearance, 2020 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/2008.03462(дата обращения 10.12.2021).
9. Cedric Picron. Trident Pyramid Networks: The importance of processing at the feature pyramid level for better object detection, 2021 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/2110.04004(дата обращения 10.12.2021).
10. Chien-Yao Wang. CSPNet: A New Backbone that can Enhance Learning Capability of CNN, 2019 // arXiv [Электронный ресурс]: открытый архив
научных статей. URL: https://arxiv.org/abs/1911.11929 (дата обращения
01.12.2021).
11. Chien-Yao Wang. You Only Learn One Representation: Unified Network for Multiple Tasks, 2021 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/2105.04206(дата обращения 01.12.2021).
12. Christian Szegedy. Scalable, High-Quality Object Detection, 2015 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/1412.1441(дата обращения 10.12.2020).
13. Edward E. David, Eyes and Ears for Computers, 1962 // IEEE Xplore
[Электронный ресурс]: открытый архив научных статей. URL:
https://ieeexplore.ieee.org/document/4066820(дата обращения 10.12.2020).
14. Goodfellow I. Deep Learning (Adaptive Computation and Machine Learning series) / Ian Goodfellow, Yoshua Bengio, Aaron Courville - The MIT Press. -2016.-Nov. -С. 800.
15. Harrington P. Machine Learning in Action / Peter Harrington - Manning Publications. - 2012.-April. -С. 384.
16. Jifeng Dai. R-FCN: Object Detection via Region-based Fully Convolutional Networks, 2016 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/1605.06409(дата обращения 10.06.2021).
17. Kaiming He. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition, 2014 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/1512.03385(дата обращения 10.12.2021).
18. Kaiming He. Deep Residual Learning for Image Recognition, 2015 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/1512.03385(дата обращения 10.12.2021).
19. Kelleher J. Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies / John D. Kelleher, Brian Mac Namee, Aoife D'Arcy - The MIT Press. - 2015.-July. - С. 624.
20. Mingxing Tan. EfficientDet: Scalable and Efficient Object Detection, 2019 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/1911.09070(дата обращения 10.12.2021).
21. Mitchell T. Machine Learning / Tom Mitchell - Mc Graw Hill India. - 2017.- Mar. - С. 432.
22. Pardhu Thottempudi. Novel Approach for detection of objects in surveillance videos // Pardhu Thottempudi. LAP LAMBERT. - 2017. -Dec. -С. 64.
23. Pramod J. Deore. Real Time Video Processing and Object Detection on Mobile // Pramod J. Deore, Shailaja Arjun Patil, Sunil B. Chaudhari. LAP LAMBERT. - 2017. -May. -С. 64.
24. Rashid T. Make Your Own Neural Network / Tariq Rashid - CreateSpace Independent Publishing Platform. - 2016. - С. 222.
25. Rojas R. Neural Networks: A Systematic Introduction / Raul Rojas, Peter Varga - Springer Berlin Heidelberg. - 1996.-Jul. -С. 522.
26. Ross Girshick. Rich feature hierarchies for accurate object detection and semantic segmentation, 2013 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/1311.2524(дата обращения 10.06.2021).
27. Roth, P.M. Survey of Appearance-Based Methods for Object Recognition // P.M. Roth, M. Winter - Technical Report ICG-TR-01/16, Institute
28. Russell S. Artificial Intelligence: Pearson New International Edition: A Modern Approach / Stuart Russel, Norvig Peter - Pearson. - 2013.-Aug. -С. 1104.
29. Saining Xie. Aggregated Residual Transformations for Deep Neural Networks, 2016 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/1611.05431(дата обращения 10.12.2021).
30. Shalev-Shwarthz S. Understanding Machine Learning: From Theory to Algorithms / Shai Shalev-Shwartz, Shai Ben-David - Cambridge University Press. - 2014.-May. -С. 415.
31. Shang-Hua Gao. Res2Net: A New Multi-scale Backbone Architecture, 2019 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/1904.01169(дата обращения 10.12.2021).
32. Shaoqing Ren. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, 2015 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/1506.01497(дата обращения 10.06.2021).
33. Shifeng Zhang. Single-Shot Refinement Neural Network for Object Detection, 2017 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/1711.06897(дата обращения 10.06.2021).
34. Sibt ul Hussain. Machine Learning Methods for Visual Object Detection // Sibt ul Hussain. Editions universitaires europeennes. -2012. -March. -С. 160.
35. Tsung-Yi Lin. Feature Pyramid Networks for Object Detection, 2016 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/1612.03144(дата обращения 10.12.2021).
36. Tsung-Yi Lin. Focal Loss for Dense Object Detection 2017 // arXiv
[Электронный ресурс]: открытый архив научных статей. URL:
https://arxiv.org/abs/1708.02002(дата обращения 10.06.2021).
37. Wei Liu. SSD: Single Shot MultiBox Detector, 2016 // arXiv
[Электронный ресурс]: открытый архив научных статей. URL:
https://arxiv.org/abs/1512.02325(дата обращения 10.06.2021).
38. Witten I. Data Mining: Practical Machine Learning Tools and Techniques / Ian H. Witten, Eibe Frank, Mark A. Hall - Morgan Kaufmann. - 2011.-Jan. -С. 664.
39. Xiaoyue Jiang. Deep Learning in Object Detection and Recognition. // Xiaoyue Jiang, Abdenour Hadid, Yanwei Pang, Eric Granger, Xiaoyi Feng. Springer. -2020. -Nov. -С. 240.
40. Yigithan Dedeoglu. Igorithms for Smart Video Surveillance: Moving Object Detection, Tracking and Classification // Yigithan Dedeoglu. LAP LAMBERT. -2010. -Sept. -С. 108.
41. Yunpeng Chen. Dual Path Networks, 2017 // arXiv [Электронный ресурс]: открытый архив научных статей. URL: https://arxiv.org/abs/1707.01629(дата обращения 10.12.2021).