Введение 3
1. Методы распознавания лиц 5
1.1 Обзор методов 5
1.2 Система распознавания лиц FaceNet 7
1.3 Целевая функция N-pair loss 9
2. Реализация нейронной сети для распознавания лиц 12
2.1 Архитектура нейронной сети 14
2.2 Выбор классов для обучения 17
Эксперименты 19
3.3 Сравнение алгоритмов выбора классов 19
3.4 Сравнение архитектур нейронной сети 30
Заключение 34
Список литературы 35
Приложение
Безопасность информации становится очень значительной и сложной задачей.
Существует множество различных технологий идентификации человека, многие
из которых используются в коммерческих целях в течение многих лет. Наиболее
распространенными методами идентификации людей сегодня являются пароль
или PIN-код. Проблема подобных методов заключается в том, что эти данные
можно легко потерять, забыть, подделать, вследствие чего, с точки зрения надежности и безопасности – это не лучший подход для идентификации человека.
Для преодоления этих проблем возник значительный интерес к системам идентификации, которые используют биометрические данные. Некоторые из этих методов – отпечатки пальцев и распознавание сетчатки и радужной оболочки. Эти
методы имеют высокую точность, однако требуют дополнительных действий от
пользователей, вследствие чего не всегда могут быть использованы. Распознавание лиц при помощи видео и голоса имеет естественное место в этих интеллектуальных средах следующего поколения, они просты в применении, так как не
ограничивают движение пользователей и могут быть применимы к любому человеку, который находится в поле зрения камеры безопасности. Распознавание лиц
– это система, используемая для идентификации или верификации человека с
цифрового изображения. Под верификацией подразумевается сопоставление лиц
людей, изображенных на 2 фотографиях. Идентификация – это сравнение лица,
изображенного на фотографии, с некоторой базой данных лиц.
Система распознавания лиц используется во многих сферах, в первую очередь в сфере безопасности. В настоящее время камеры широко распространены
в аэропортах, офисах, университетах, банкоматах, банках и в любых местах с
системой безопасности. Уже сейчас существуют системы, позволяющие обнаружить людей, которые находятся в списке разыскиваемых. Это позволяет обеспечить безопасность в местах массового скопления. В октябре 2001 года аэропорт
Fresno Yosemite International (FYI) в Калифорнии развернул технологию распознавания лиц Viisage для целей безопасности. Система предназначена для оповещения службы безопасности аэропорта FYl, когда человек, который находится
в списке подозреваемых в терроризме, входит в контрольно-пропускной пункт
аэропорта. Также система распознавания лиц применяется в сфере маректинг.
Компания Herta Security предоставляет систему распознавания лиц, которая используется в дорогих магазинах в Европе. На входе в магазин камеры наблюдения ведут съемку за посетителями и отправляют ее на обработку компьютеру,
который выделяет каждое лицо в толпе и пытается идентифицировать его. Если
есть совпадение, программа передает информацию о предпочтениях клиента продавцам. Если человек ранее был замечен в кражах, информация об этом будет
передана охранникам. Facebook с 2010 года использует алгоритм распознавания
лиц, чтобы помочь пользователям отметить людей на фотографии. MasterCard
также экспериментирует с системой распознавания лиц. Подобно сканерам отпечатков пальцев и другим биометрическим технологиям, распознавание лиц может
3быть использовано вместо PIN-кода. Система распознавания лиц используется и в
Microsoft Xbox, где пользователи могут получить доступ к своим профилям с помощью распознавания лиц. Также существуют приложения, которые позволяют
находить людей, в точности похожих на человека, изображенного на фотографии.
Требования к системе распознавания лиц:
• высокая скорость работы;
• высокая точность;
• масштабируемость.
Цель данной работы: реализовать и обучить глубокую сверточную нейронную
сеть с использованием целевой функции N-pair-mc loss, которая учитывает расстояние сразу между несколькими классами. Проанализировать влияение параметров обучения, архитектуры нейронной сети, алгоритмов выбора изображений
для обучения на точность распознавания.
Была реализована и обучена глубокая сверточная нейронная сеть, основанная
на архитектуре CasiaNet [14]. Были поставлены экспериметы, направленные на
определение влияния архитектуры и параметров сети, алгоритма выбора изображений в процессе обучения на точность распознавания. Эксперименты показали,
что выбор самых сложных классов для обучения (Algorithm 6) может привести
к плохому локальному минимуму. Лучший результат – 88; 3% был получен при
использовании Algorithm 5, в котором классы выбираются при помощи жадного
алгоритма на несколько итераций, и архитектуре нейронной сети CasiaNet с полносвязным слоем. После каждого сверточного слоя, а также после полносвязного
слоя применялась нормализация активаций нейронов. Без нормализации активаций сверточного и полносвязного слоев обучение происходило слишком медленно,
точность на валидационной выборке практически не изменялась. Благодаря использованию инициализации Хавьера [16] точность на валидационной выборке до
начала обучения была равно 60; 6%. В качестве функции активации использовалась функция ReLU. Обучение длилось 82860 итераций.
[1] C. A. Hansen, ’’Face Recognition”, Institute for Computer Science University of Tromso, Norway.
2] Kohonen, T. (1985). Self-Organizing Maps, Springer-Verlag, Berlin
3] L. Wiskott, J.-M. Fellous, N. Krueuger, C. von der Malsburg, Face Recognition by Elastic Bunch Graph Matching, Chapter 11 in Intelligent Biometric Techniques in Fingerprint and Face Recognition, eds. L.C. Jain et al., CRC Press, 1999, pp. 355-396
4] http : //www .image — net.org
5] Schroff F., Kalenichenko D., Philbin J. Facenet: A unified embedding for face recognition and clustering //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. - 2015. - С. 815-823.
[6] Cheng D. et al. Person re-identification by multi-channel parts-based cnn with improved triplet loss function //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. - 2016. - С. 1335-1344.
[7] Wen Y. et al. A discriminative feature learning approach for deep face recognition //European Conference on Computer Vision. - Springer International Publishing,
2016. - С. 499-515.
[8] Sohn K. Improved deep metric learning with multi-class n-pair loss objective //Advances in Neural Information Processing Systems. - 2016. - С. 1849-1857.
9] https : //github.com/davidsandberg/facenet/blob/master/src/align/align_dataset_i
10] http : //www.cbsr.ia.ac.cn/english/CASIA — WebFace — Database.html
11] https : //www.microsoft.com/en — us/research/project/ms — celeb — 1m — challenge — recognizing — one — million — celebrities — real — world/
12] http : //vis — www.cs.umass.edu/lfw/
13] Kingma D., Ba J. Adam: A method for stochastic optimization //arXiv preprint arXiv:1412.6980. - 2014.
[14] Yi D. et al. Learning face representation from scratch //arXiv preprint arXiv:1411.7923.
- 2014.
[15] Ioffe S., Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift //arXiv preprint arXiv:1502.03167. - 2015. [16] Glorot X., Bengio Y. Understanding the difficulty of training deep feedforward neural networks //Aistats. - 2010. - Т. 9. - С. 249-256.