Введение 3
Постановка цели и задачи 5
Обзор литературы 6
Глава 1. Данные и использованные инструменты 12
Глава 1.1 OpenPose 15
Глава 1.2. Преобразование координат 17
Глава 1.3. Линейная регрессия 21
Глава 1.4. Многослойный персептрон 23
Глава 2. Распознавание поз 25
Глава 3. Определение роста пешеходов в условиях потери данных 30
Глава 4. Перспективное преобразование координат 35
Заключение 43
Список литературы 44
Приложение
Сегодня технологии искусственного интеллекта используются во многих областях: от фильтрации содержимого в социальных сетях до биржевых роботов. Они все чаще присутствуют в потребительских продуктах, таких как камеры смартфонов или камеры видеонаблюдения, где основной задачей компьютеров является идентификация объектов на изображениях. В решении таких задач все чаще приоритет отдается методам глубокого обучения. Глубокие нейронные сети привели к прорывам в распознавании образов на изображениях и видеозаписях. В течение многих лет, они доказали свою эффективность по сравнению с другими методами распознавания. Разработкой нейронных сетей занимались такие технологические гиганты, как Google (сеть-игрок в игру го AlphaGo), Microsoft (ряд сервисов для идентификации изображений), стартапы MSQRD, Prisma и другие.
С развитием методов определения положения предметов на изображениях и видеозаписях, появилась необходимость отслеживания положения и перемещения людей, с целью дальнейшего использования этой информации в обеспечении безопасности и в маркетинге. Умея распознавать позы и части тела людей, можно предсказывать девиантное поведение отдельно взятых личностей в толпе, анализировать поведение покупателей, отслеживать их перемещение в помещениях с целью дальнейшего логического размещения товаров на полках или рекламных проспектов. Более того, данные, полученные c помощью нейронный сетей можно отображать в виртуальном трехмерном пространстве. Такое решение может быть востребовано в среде разработки видеоигр, в частности, в симуляциях боев и предсказаниях поведения пользователей-игроков. Методы глубокого обучения предоставляют большие возможности для решения такого рода задач.
В данной работе предлагалось, используя методы глубокого обучения научиться распознавать части тела пешеходов на кадрах видео, взятых с камер наблюдения и научиться получать траектории перемещения пешеходов.
Постановка цели и задачи
Целью данной работы является разработка системы анализа траекторий движения пешеходов методами искусственного интеллекта по данным камер видеонаблюдения, способной работать в режиме реального времени.
Задачи:
1. Накопление тестовых данных: видео, записанное статичной камерой видеонаблюдения в торговом центре;
2. Создание системы, способной распознавать пешеходов на видео в режиме реального времени;
3. Определение координат ног (x; y) в двумерном пространстве;
4. Выполнение проективного преобразование координат для отслеживания трекинга пешеходов и перенесения данных из двумерного в трехмерное пространство;
5. Создание универсального клиент-серверного приложения,
возвращающего изображение трекинга и координаты пешеходов для отображения этих данных в трехмерном пространстве.
Актуальность данной работы обусловлена заинтересованностью служб безопасности, маркетологов, работодателей в создании системы, способной отслеживать траекторию перемещения людей в различных пространствах: на улице, в магазинах и торговых центрах, а также в школах и университетах.
В данной работе мы ставили цель разработать систему анализа траекторий движения пешеходов методами искусственного интеллекта по данным камер видео наблюдения, способной работать в режиме реального времени. Для достижения этой цели было поставлено несколько задач, которые были успешно выполнены:
1. Были накоплены тестовых данных: видео, записанное статичной камерой видео наблюдения в разных погодных условиях, на улицах, в торговых центрах и в разное время суток;
2. Применена система, способной распознавать пешеходов на видео в режиме реального времени;
3. Определены координаты ног (x; y) в двумерном пространстве;
4. Выполнено предсказание роста пешеходов в условиях потери данных;
4. Выполнено проективного преобразование координат для отслеживания трекинга пешеходов и перенесения данных из двумерного в трехмерное пространство;
5. Создано универсальное клиент-серверное приложение, возвращающего координаты пешеходов для отображения этих данных в трехмерном пространстве и изображение трекинга.
В результате, мы получили готовое клиент-серверное приложение, способное обрабатывать запрос пользователя (путь к видео и координаты исследуемой области) и возвращать полную информацию о трекинге пешеходов с кадров видео в границах запрашиваемой области и координаты для возможности восстановления трехмерной модели.
1. Ефимов, А.И. Алгоритм поэтапного уточнения проективного преобразования для совмещения изображений. Компьютерная оптика. Т. 40, №2. С. 258-265. 2016.
2. Граве Д. А. Гомография. Энциклопедический словарь Брокгауза иЕфрона: в 86 т. (82 т. и 4 доп.). - СПб., 1890 - 1907.
3. Малков А.Н., Михайлов И.А., Штерн Г.П., “Восстановление изображений, искажённых перспективным преобразованием” // Моделирование и анализ информационных систем, 16:2 (2009), 88-103.
4. Хартсхорн. Р. Основы проективной геометрии. — М.: Мир, 1970.
5. Andriluka M.; Roth S.; Schiele B. People-Tracking-by-Detection and People-Detection-by-Tracking // InProc. of the IEEE Conf, on Computer Vision and Pattern Recognition (CVPR), 2008.
6. Andriluka M. PoseTrack: a benchmark for human pose estimation and tracking // InProc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2018.
7. Cao Zhe, Simon T., Wei Shih-En, Sheikh Y. Realtime Multi-Person 2DPose Estimation using Part Affinity Fields // InProc. of the IEEE Conf, on Computer Vision and Pattern Recognition (CVPR) 2017.
8. Chen X., Yuille A. L. Articulated pose estimation by a graphical model with image dependent pairwise relations // In Advances in Neural Information Processing Systems, pages 1736-1744, 2014.
9. Chung Bryan WC. Pro Processing for Images and Computer Visionwith OpenCV, 2017.
10. Dantone M., Gall J., Leistner C., Van Gool L. Human pose estimation using body parts dependent joint regressors // InProc. of the IEEE Conf, on Computer Vision and Pattern Recognition (CVPR), 2013.
11. Hartley R., Zisserman A. Multiple View Geometry in Computer Vision, 2ed. Cambridge: Cambridge University Press, 2003.
12. Pudipeddi S., Chityala R. Image Processing and Acquisition using Python by, Publisher. Chapman and Hall/CRC, 2015.
13. Simon T., Joo H., Matthews I., and Sheikh Y. Hand keypoint detection in single images using multi view bootstrapping // InProc. of the IEEE Conf, on Computer Vision and Pattern Recognition (CVPR), 2017.
14. Simonyan K., Zisserman A. Very deep convolutional networks for large-scale image recognition. University of Oxford, 2015.
15. Wei Shih-En ; Ramakrishna V. ; Kanade T. ; Sheikh Y. . Convolutional Pose Machines // InProc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2016.
16. Zhe Cao, Simon T., Wei Shih-En, Sheikh Y. OpenPose: Realtime Multi-Person 2D PoseEstimation using Part Affinity Fields // InProc. of the IEEE Conf, on Computer Vision and Pattern Recognition (CVPR), 2011.