ВВЕДЕНИЕ 3
Глава 1. Анализ предметной области 5
1.1. Задача описания изображения 5
1.2 Подходы к описанию изображения 6
1.3 Задача описания человека 8
1.4 Машинное обучение в вопросе распознавания изображений 10
Глава 2. Модель, использованная в работе 12
2.1. Сверточные нейронные сети 12
2.2 Остаточные сверточные нейронные сети 14
2.3 Структура ResNet 16
Глава 3. Использованный набор данных 20
3.1. Набор данных PETA 20
3.2 Предобработка данных 21
Глава 4. Эксперименты по обучению нейронных сетей 23
4.1. Подготовка к экспериментам 23
4.2 Описание экспериментов 23
4.3 Использованные метрики 24
4.4 Целевая функция 27
4.5 Полученные результаты 27
4.6 Анализ полученных результатов 29
4.7 Интерпретация результатов 30
ЗАКЛЮЧЕНИЕ 32
СПИСОК ЛИТЕРАТУРЫ 33
ПРИЛОЖЕНИЯ 33
Большая часть информации, которую получает человек, является визуальной(порядка 90%)[1]. Анализ и разбор информации, получаемой из этого источника является наиболее важной и востребованной. Визуальная информация в основном представлена в виде текстовой(текст на естественном языке) и графической информации(фото- и видеоизображения). Количество информации растет с каждым днем. Контент таких сервисов, как YouTube, Instagram, VK, ежедневно пополняется гигабайтами и террабайтами данных. Любое событие, явление или же процесс можно запечатлеть и показать всему миру буквально за несколько минут. Информации стало настолько много, что каждую минуту в YouTube загружается более 30 часов видео. Эволюция информации достигла того, что даже общение в интернете может проходить исключительно в виде обмена графической информацией, так как такая информация имеет большую емкость. Но из-за того, что текстовая информация более привычная и удобная, она является более распространенной.
Ввиду этого появляется интерес к преобразованию одного вида информации в другой. Создаются системы, которые совмещают в себе обработку как графической, так и текстовой информации. Пример отраслей, в которых требуются технологии по такой обработке информации:
1) помощь слабовидящим людям;
2) помощь иностранцам;
3) виртуальная реальность;
4) поиск изображений в больших объемах;
5) поиск информации на основе ее содержания;
6) работа человека с техникой;
7) контроль за безопасностью граждан;
8) системы управления технологическими процессами.
При переводе информации из одного вида в другую возможны проблемы. При недостатках системы может произойти потеря информации, нарушение целостности информации, изменение информации. Данные проблемы решает информационная безопасность. Следуя ее принципам нужно добиться того, чтобы максимально сократить ошибки, допускаемые при взаимодействии с информацией. Добиться этого можно, как и с помощью создания качественной системы, так и с помощью качественной обработки полученных результатов. В конечном итоге в рамках подобной системы нужно получить максимально качественный перевод данных из одного состояния в другое, а именно из графического формата в текстовый. На входе данной системы мы должны иметь какое-либо изображение, содержащее определенную информацию, а на выходе - текстовое отображение данной информации. Нюансы заключаются в выборе типа преобразования информации. Какая именно информация должна переноситься в текстовый вид. Как должен выглядеть текстовый формат изображения и т.д. Данные вопросы разобраны в главе «Анализ предметной области».
Целью данной работы является создание системы, способной составить какое-то текстовое описание человека по изображению этого человека. Задачи, которые нужно решить до достижения цели, это: разбор основных принципов построения подобных систем, разбор архитектур нейронных сетей, которые чаще всего встречаются в подобных системах, анализ статей, в которых описаны подходы к достижению целей, а также попытка достижение и улучшение результатов, описанных в подобных статьях.
В ходе работы требовалось создать систему по текстовому описанию человека по его изображению В качестве примеров изображений были выбраны в основном изображения с камер наружного видеонаблюдения. По этим изображениям можно составить описание человека по 105 атрибутам. Общее описание человека складывается из наличия или отсутствия определенного атрибута на изображении. Складывая все метрики, присутствующие в работе, мы можем сказать, что средняя эффективность модели составляет около 82,5%. Такое число не слишком высоко, но оно позволяет составить более-менее целостное описание человека.
В дальнейшем для улучшения работы модели можно сделать следующее.
Во-первых, можно улучшить датасет. Некоторые изображения в датасете имели очень низкое разрешение порядка 40х80 пикселей. После приведения изображений к стандарту конкретной модели некоторая часть информации искажалась, что в свою очередь тоже приводит к ухудшению результатов работы модели. Улучшение датасета, а именно увеличение количества образцов и улучшение качества изображений позволит улучшить работу модели. Во-вторых, можно более избирательнее подходить к атрибутам, с которыми проходит работа. В данной работе было 105 атрибутов, 20 из которых плохо угадывались, соответственно ухудшая общие результаты угадываний. Если избирательно подходить к выбору нужных атрибутов, то результаты работы тоже улучшаться. Но с другой стороны, плохие результаты на некоторых атрибутах показывают нам слабые места системы описания, направив свое внимание на ликвидацию этих слабых мест, мы, возможно, сможем решить проблему, не прибегая к избавлению от некоторых атрибутов.
1. УРОК "Восприятие и представление информации" [Электронный
ресурс] URL: http://informatika.edusite.ru/lezione8_03.html (дата
обращения 10.04.2019).
2. Проскурин А.В., Фаворская М.Н. Автоматическое аннотирование
изображений на основе однородных текстово-визуальных групп. Информационно-управляющие системы. 2016. №2 (81). [Электронным ресурс] URL: https://cyberleninka.ru/article/n/avtomaticheskoe-
annotirovanie-izobrazheniy-na-osnove-odnorodnyh-tekstovo-vizualnyh- grupp (дата обращения 05.03.2019).
3. Москва развертывает общегородскую систему распознавания лиц
[Электронный ресурс] URL: https://urlid.ru/bpjr (дата обращения
20.05.2019) .
4. Image Net [Электронный ресурс] URL: http://www.image-net.org/ (дата обращения 18.05.2019).
5. VGG16 — сверточная сеть для выделения признаков изображений [Электронный ресурс] URL: https://neurohive.io/ru/vidy-nejrosetej/vgg16- model/ (дата обращения 20.05.2019).
6. ResNet (34, 50, 101): «остаточные» CNN для классификации
изображений [Электронный ресурс] URL: https://neurohive.io/ru/vidy- nejrosetej/resnet-34-50-101 (дата обращения 10.04.2019).
7. Это нужно знать: Ключевые рекомендации по глубокому обучению (Часть 2) [Электронный ресурс] URL: http://datareview.info/article/eto- nuzhno-znat-klyuchevyie-rekomendatsii-po-glubokomu-obucheniyu-chast- 2/ (дата обращения 10.05.2019).
8. Y. Deng, P. Luo, C. C. Loy, X. Tang, "Pedestrian attribute recognition at far
distance," in Proceedings of ACM Multimedia (ACM MM), 2014 [Электронный ресурс] URL: http://mmlab.ie.cuhk.edu.hk/projects/PETA.html (дата обращения
10.05.2019) .
9. Implement of Deep Multi-attribute Recognition model under ResNet50
backbone network [Электронный pecypc] URL:
https://github.com/dangweili/pedestrian-attribute-recognition-pytorch_ (дата обращения 16.05.2019).
10. Google Colaboratory [Электронный pecypc] URL: https://colab.research.google.com/ (дата обращения 10.03.2019).