Тип работы:
Предмет:
Язык работы:


Определение вида деятельности водителей по изображению

Работа №54439

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы65
Год сдачи2017
Стоимость4780 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
275
Не подходит работа?

Узнай цену на написание


Введение 3
Описание задачи 4
Постановка задачи 8
1. Анализ моделей нейронных сетей 10
1.1. Общие сведения 10
1.2 Исследование топологий 13
2. Реализация сети 15
2.1. Язык и установщик зависимостей 15
2.2 Выбор библиотек 16
2.3 Модели и приемы, применяемые при построении нейронной сети 19
2.3.1 Оптимизаторы сети 19
2.3.2 Батч-нормализация (batch normalization) 20
2.3.3 Ранняя остановка (early stopping) 22
2.4 Построение сетей 23
2.4.1. VGG 23
2.4.2 Google Inception v3 25
2.4.3 ResNet 28
2.4.4 Использование GPU 31
2.4.5 Использование предобученных сетей 32
2.4.6 Загрузка данных 32
2.4.7 Обучение сети 34
3. Расширение обучающего множества (data augmentation) 36
4. Кросс-валидация
5. Результаты исследования 45
Заключение 46
Список использованной литературы 49


Группы классифицированных изображений распределены на десять директорий.
На сегодняшний день область работы с изображениями довольно хорошо изучена, существует множество подходов для решения задач классификации цифровых изображений. Всю работу по классификации можно разбить на две составляющие: подготовку изображения с помощью методов компьютерного зрения и саму классификацию с использованием алгоритмов машинного обучения.
Далее необходимо выбрать методы машинного обучения, которые будут классифицировать обработанное изображение. Традиционным методом работы с изображениями являются использование нейронных сетей. Однако наиболее эффективные оценки получаются путем комбинации нескольких методов оценки. Например, в нейронную сеть-классификатор на вход можно давать дополнительную информацию, полученную с помощью других методов машинного обучения или компьютерного зрения.
Таким образом, центральной частью классификатора является нейронная сеть. Выбор её топологии и параметров оказывает сильное влияние на эффективность полученной оценки.
Нейронные сети склонны переобучаться, то есть терять способность к обобщению признаков для классификации. Например, переобученный классификатор может начать принимать решение, опираясь на то, поднят ли солнцезащитный козырек, или на цвет салона автомобиля. Бороться с этим можно увеличением тренировочной выборки. Однако в случаях, когда получить дополнительные данные не представляется возможным, тренировочную выборку увеличивают искусственным образом. Данный процесс называется аугментацией, она может существенно улучшить результаты сети.
Также для улучшения качества классификации используются различные приемы, обычно специфичные для конкретной выборки. Зачастую это творческий процесс, который требует хорошей интуиции и понимания внутренних свойств используемых моделей. Это может быть использование 
различных нейросетей с последующим усреднением результата, использование тестовой выборки для самообучения и т.п.
Постановка задачи
Итак, задачей данной работы является построение модели на основе нейронных сетей, которая была бы с высокой степенью точности классифицировать изображения водителей.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Был проведена исследовательская работа по методам классификации изображений с помощью глубоких сетей, а также инструментов для их реализации и обучения. Для работы с сетями использовался язык Python версии
3.5, библиотека Keras, позволяющая компактно описать и настроить все современные модели нейронных сетей.
Проведен сравнительный анализ глубоких сетей, рассмотрено их практическое применение. По итогам исследования было выявлено, что наилучшие результаты достигаются на сверхглубоких сетях архитектуры ResNet, однако этот результат сильно зависит от алгоритма оптимизации и их параметров. Сеть VGG требует время на обучение на порядки больше, чем ResNet и достигает худших результатов. Однако она требует намного меньше памяти. Таким образом, при наличии большого объема памяти на GPU (больше 8 гигабайт) лучше использовать ResNet, иначе VGG также является приемлемым вариантом. По объему потребления памяти и скорости сходимости, модель Inception v3 эквивалентна сети ResNet, однако ResNet имеет больший потенциал обобщения.
Тем не менее, как и для других нейронных сетей, главной её проблемой является проблема переобучения. Показатель ошибки удалось существенно уменьшить, применяя ансамбль нейронных сетей с последующим усреднением их результата. Одной из идей применения Batch Normalization была замена ансамбля сетей на модификацию одной модели. Однако на практике оказалось, что применение нескольких моделей одного типа позволяет достигать более точного результата. Сеть обобщается еще больше, если усреднять результаты сетей с разной топологией.
Также эффективным средством уменьшения ошибки оказалась агументация данных. Случайные аффинные преобразования изображения дали улучшение менее чем на процент, тогда как удаление незначимых частей изображения дало улучшение приблизительно на 2%.
Область классификации изображений с помощью нейронных сетей активно развивается в последние 5 лет, однако, к сожалению, не существует алгоритмов разработки новых топологий и настройки существующих. Для настройки гиперпаметров сети требуется опыт, и она делается скорее интуитивно, чем на основе каких-то строгих математических рассуждений. Разработка новых архитектур также еще плохо изучена. Довольно перспективно направление разработки автоматических генераторов топологий сетей и подбора их гиперпарамтеров.
Еще одной проблемой при работе с глубокими сетями является вычислительная стоимость алгоритма обучения. Для того, чтобы обучать глубокие сети в разумные временные рамки, нужно иметь достаточно мощные вычислительные ресурсы. Эта проблема решается либо покупкой дорогостоящих высокопроизводительных видеокарт от компании NVIDIA, либо арендой сервера на сервисах наподобие Amazon AWS или FloydHub.
В ходе работы над проектом был спроектирован, обучен и оптимизирован набор классификаторов. Сделан ряд шагов, начиная от самой простой модели заканчивая настроенными, устойчивыми сложными моделями. Лучший результат был достигнут моделью, обученной с применением кросс-валидации. Значение функции потерь этой модели на тестовой выборке составило 0.215, что соответсвует примерно 94-процентной точности классификации, что, безусловно, является хорошим результатом.
Построенные классификаторы можно улучшить, подобрав оптимальные гиперпараметры или попробовать составить ансамбли, которые комбинируют набор сетей, топология которых сильно различается. Также перспективной выглядит предобработка обучающей выборки, при которой предварительно на изображении находятся значимые объекты (силуэт водителя, руль, телефон
и.т.п.) и затем размеченное изображение подается на вход классификатору.
Стоит отметить, что набор предоставленных изображений неполно отражает возможные реальные ситуации в салоне автомобиля. Все снимки были произведены в дневное время суток, на всех автомобилях была автоматическая
коробка передач, ракурс съемки оставался одним и тем же. Для надежного классификатора требуется более общая выборка большего размера.



1) Статистика по ДТП в мире [Электронный ресурс] // URL: http://pro- spo.ru/obshhestvo-i-it/4566-statistika-po-dtp-v-mire (дата обращения
03.06.2017)
2) Yann LeCun. John S. Optimal Brain Damage: статья 1990 г. [Электронный ресурс] // URL: http://yann.lecun.com/exdb/publis/pdf/lecun- 90b.pdf (дата обращения 03.06.2017)
3) Masters T. Practical Neural Network Recipies in C++ [Текст] / Masters T. - Morgan Kaufmann, 2014. - 176 c.
4) State Farm Distracted Driver Detection [Электронный ресурс] // URL: https: //www. kaggle.com/c/state-farm-distracted-driver-detection (дата обращения 03.06.2017)
5) CS231n: Convolutional Neural Networks for Visual Recognition [Электронный ресурс] // Stanford Computer Science Classes [сайт] // URL: http://cs231n.github.io/convolutional-networks/ (дата обращения 03.06.2017)
6) Yann LeCun, Leon Bottou, Youshua Bengio Gradient-Based Learning Applied to Document Recognition: статья 1998 г. [Электронный ресурс] // URL: http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf (дата обращения
03.06.2017)
7) Krizhevsky A., Sutskever I., Hinton E.G. ImageNet Classification with Deep Convolutional Neural Networks: статья 2012 г. [Электронный ресурс] // URL: http://papers.nips.cc/paper/4824-imagenet-classification-with-deep- convolutional-neural-networks (дата обращения 03.06.2017)
9) Large Scale Visual Recognition Challenge 2014 [Электронный ресурс] //URL: http://www.image-net.org/challenges/LSVRC/2014/ (дата обращения
03.06.2017)
10) Zeiler M.D. Fergus R. Visualizing and Understanding Convolutional Networks: статья 2013 г. [Электронный ресурс] // Cornell University Library // URL: https://arxiv.org/abs/1311.2901 (дата обращения 03.06.2017)
11) C. Szegedy, W. Liu, J. Yangqing Going Deeper with Convolutions: статья 2013 // Cornell University Library // URL: https://arxiv.org/abs/1409.4842 (дата обращения 03.06.2017)
12) K. Simonyan, A. Zisserman, Very Deep Convolutional Networks for Large-Scale Visual Recognition: технический отчет 2014 г. [Электронный ресурс] // Оксфордский университет // URL:
http://www.robots.ox.ac.uk/~vgg/research/very_deep/ (дата обращения
03.06.2017)
13) K. He, X. Zhang, S. Ren Deep Residual Learning for Image Recognition: статья 2015 г. [Электронный ресурс] // Cornell University Library // URL: https://arxiv.org/abs/1512.03385
14) Python Language Official Site [Электронный ресурс] // URL: https://www.python.org (дата обращения 03.06.2017)
15) Ioffe S., Szegedy S., Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift: статья 2015 г [Электронный ресурс] // Cornell University Library // URL: https://arxiv.org/abs/1502.03167 (дата обращения 03.06.2017)
16) Szegedy S., Vanhoucke V,. Ioffe S. Rethinking the Inception Architecture for Computer Vision: статья 2015 г. [Электронный ресурс] // Cornell University Library // URL: http://arxiv.org/abs/1512.00567 (дата обращения 03.06.2017)


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ