Введение 4
1. Постановка задачи 5
2. Обзор наборов данных 6
3. Метрики для оценки качества сегментации 8
4. Обзор методов 9
4.1. Классические методы машинного обучения . . . . . . . . 9
4.2. Нейросетевые методы
4.2.1. Общее описание
4.2.2. Сверточная нейронная сеть . . . . . . . . . . . . . 11
4.2.3. SegNet
4.2.4. UNet
4.2.5. Enet
5. Эксперименты и результаты 18
5.1. Результаты
Заключение 21
Список литературы
Машинное обучение в наше время переживает новое рождение и постепенно входит во все отрасли человеческой деятельности, начиная с рекомендации рекламы, заканчивая управлением автоматическими заводами. В том числе сложные и важные задачи решаются методами компьютерного зрения:
• беспилотные автомобили используют камеры и радары для того, чтобы правильно взаимодействовать друг с другом.
• Системы ПВО обнаруживают стелс-самолеты с помощью высокоточных камер.
• вывески автоматически определяют пол проходящего мимо человека с целью показать таргетированную рекламу
• автоматически распознаются аномалии на рентгеновских снимках;
Все это и многое другое стало возможно в связи с революцией в области высокопроизводительныx видеокарт и сверточных сетей([7]). Работа рассматривает конкретную область компьютерного зрения – семантическую сегментацию изображений для задачи понимания дорожной обстановки, подробнее об этом будет рассказано в следующих разделах, но позволю привести себе практический пример для чего это точно необходимо. Известно, что сейчас мы переживаем бум развития беспилотного транспорта, многие компании сейчас выпустили свои прототипы(самые известные из них – Google, Uber, Yandex), и очень важно для такой машины в реальном времени находить дорожные знаки, пешеходов, другие машины и прочие семантические классы, иначе далеко не уедешь.
Мы рассмотрим методы, начиная от представляющих большую историческую ценность, заканчивая теми, которые могут быть эффективно использованы на устройствах не таких мощных, как GPU-сервер на Amazon AWS
В заключение хотелось бы отметить, что тема, которой я проникся, оказалась крайне интересной и актуальной. Был проведён обзор и сравнительный анализ нескольких современных ”state of art” алгоритма, выявлены ключевые особенности, которые приводят один метод
к успеху по сравнению с остальными. Экспериментально было показало, что Enet подходит для задачи сегментации дорожной обстановки лучше других моделей с которыми мы сравнивали, с точки зрения как показателей метрик, так и производительности по времени. И, в отличии от Unet и SegNet, может быть использовано для сегментации как на мобильном устройстве с небольшим количеством памяти, так и в системах реального времени, где важна скорость работы.
[1] Agresti Alan. Logistic regression. –– Wiley Online Library, 2002.
[2] Badrinarayanan Vijay, Kendall Alex, Cipolla Roberto. Segnet: A deep
convolutional encoder-decoder architecture for image segmentation //
IEEE transactions on pattern analysis and machine intelligence. ––
2017. –– Vol. 39, no. 12. –– P. 2481–2495.
[3] Brostow Gabriel J., Fauqueur Julien, Cipolla Roberto. Semantic Object
Classes in Video: A High-Definition Ground Truth Database // Pattern
Recognition Letters. –– 2008. –– Vol. xx, no. x. –– P. xx–xx.
[4] The Cityscapes Dataset for Semantic Urban Scene Understanding /
Marius Cordts, Mohamed Omran, Sebastian Ramos et al. // Proc. of
the IEEE Conference on Computer Vision and Pattern Recognition
(CVPR). –– 2016.
[5] ENet: A Deep Neural Network Architecture for Real-Time Semantic
Segmentation / Adam Paszke, Abhishek Chaurasia, Sangpil Kim,
Eugenio Culurciello // CoRR. –– 2016. –– Vol. abs/1606.02147. ––
1606.02147.
[6] Ioffe Sergey, Szegedy Christian. Batch normalization: Accelerating deep
network training by reducing internal covariate shift // arXiv preprint
arXiv:1502.03167. –– 2015.
[7] Krizhevsky Alex, Sutskever Ilya, Hinton Geoffrey E. ImageNet
Classification with Deep Convolutional Neural Networks // Advances
in Neural Information Processing Systems 25 / Ed. by F. Pereira,
C. J. C. Burges, L. Bottou, K. Q. Weinberger. –– Curran Associates,
Inc., 2012. –– P. 1097–1105. –– URL: http://papers.nips.cc/paper/
4824-imagenet-classification-with-deep-convolutional-neural-netw
pdf.
[8] Krizhevsky Alex, Sutskever Ilya, Hinton Geoffrey E. Imagenet
22classification with deep convolutional neural networks // Advances in
neural information processing systems. –– 2012. –– P. 1097–1105.
[9] Liaw Andy, Wiener Matthew et al. Classification and regression by
randomForest // R news. –– 2002. –– Vol. 2, no. 3. –– P. 18–22.
[10] Nair Vinod, Hinton Geoffrey E. Rectified linear units improve
restricted boltzmann machines // Proceedings of the 27th international
conference on machine learning (ICML-10). –– 2010. –– P. 807–814.
[11] Ronneberger Olaf, Fischer Philipp, Brox Thomas. U-Net:
Convolutional Networks for Biomedical Image Segmentation //
CoRR. –– 2015. –– Vol. abs/1505.04597. –– 1505.04597.
[12] Shotton Jamie, Johnson Matthew, Cipolla Roberto. Semantic texton
forests for image categorization and segmentation // Computer vision
and pattern recognition, 2008. CVPR 2008. IEEE Conference on /
IEEE. –– 2008. –– P. 1–8.
[13] Support vector machines / Marti A. Hearst, Susan T Dumais,
Edgar Osuna et al. // IEEE Intelligent Systems and their
applications. –– 1998. –– Vol. 13, no. 4. –– P. 18–28.
[14] Thoma Martin. A survey of semantic segmentation // arXiv preprint
arXiv:1602.06541. –– 2016.
[15] Vapnik Vladimir N. The Support Vector method // Artificial Neural
Networks — ICANN’97 / Ed. by Wulfram Gerstner, Alain Germond,
Martin Hasler, Jean-Daniel Nicoud. –– Berlin, Heidelberg : Springer
Berlin Heidelberg, 1997. –– P. 261–271