Тип работы:
Предмет:
Язык работы:


Информационная технология распознавания жестов для человеко-машинного взаимодействия на базе сверточных нейронных сетей

Работа №78722

Тип работы

Дипломные работы, ВКР

Предмет

информационные системы

Объем работы105
Год сдачи2019
Стоимость4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
264
Не подходит работа?

Узнай цену на написание


Введение 8
1 Аналитический раздел 12
1.1 Анализ и формализация объекта исследования 12
1.2 Обзор и анализ существующих решений для распознавания жестов при человеко-машинном взаимодействии 16
1.2.1 Высокоточная система жестового управления 17
1.2.2 Volkswagen Golf R Touch Gesture Control 18
1.2.3 DICE - система жестового управления автомобилем от Mercedes-Benz 18
1.2.4 Патент US8634980B1: Driving pattern recognition and safety control 19
1.2.5 Патент US20060136846A1: User interface apparatus using hand gesture recognition
and method thereof. 20
1.2.6 Патент US20140254864A1: System and method for gesture detection through local
product map 21
1.3 Выводы 23
2 Конструкторско-технологический раздел 24
2.1 Обзор и анализ существующих решений для детектирования и распознавания объектов на изображении 24
2.1.1 Методы выделения сюжетной части в системах распознавания изображений. .24
2.1.2 Применение искусственных нейронных сетей в задачах распознавания
изображений 28
2.1.3 Обучение искусственных нейронных сетей 33
2.1.4 Применение методов глубокого обучения в задачах распознавания
изображений 37
2.1.5 Подходы к обучению сверточных нейронных сетей 39
2.1.6 Краткий обзор фреймворков для задач глубокого обучения 41
2.1.7 Особенности подготовки набора данных для обучения нейронной сети 45
2.1.8 Методы оценки качества работы классификатора 46
2.2. Выбор технологии для программной реализации алгоритма классификации жестовых команд 48
2.2.1 Разработка технического задания 48
2.2.2 Выбор фреймворка для разработки модели нейронной сети 50
2.3 Выводы 50
3 Специальный раздел 52
3.1 Программная реализация алгоритма распознавания жестовых команд 52
3.1.1 Предварительная обработка изображений и детектирование кисти руки 53
3.1.2 Подготовка набора данных для классификатора 54
3.1.3 Архитектура классификатора на основе сверточной нейронной сети для
распознавания статических жестовых команд 57
3.1.4 Ресурсные требования к программной и аппаратной реализации 60
3.2 Экспериментальные исследования 61
3.2.1 Сравнительный анализ работы классификаторов жестовых команд 61
3.3 Выводы 62
Заключение 63
Список литературы 67
Приложениея 71


Роботизированные системы стали ключевыми компонентами в различных отраслях промышленности. В последнее время концепция Human-Robot Collaboration (далее HRC) привлекла внимание исследователей. Литературные примеры предполагают, что человек обладает несравненными навыками решения проблем в значительной степени благодаря продвинутым сенсорно-двигательным способностям, но имеет ограниченную силу и точность [1]. Однако роботизированные системы имеют стойкость к усталости, высокую скорость, точность и производительность, но серьезные ограничения в гибкости. HRC может освободить человека от тяжелых задач посредством интуитивного и надежного интерфейса взаимодействия для повышения общей эффективности. В представленном исследовании разработан прототип такого интерфейса, где в основе лежат жестовые команды.
Жесты являются одним из способов обмена информацией, общения. Информация, лежащая в основе мимики, жестов рук и позы тела лежит в основе эффективного канала связи при взаимодействии людей [2][3].
Распознавание жестов относится к математической интерпретации человеческих движений вычислительным устройством. Чтобы взаимодействовать с человеком, роботизированные системы должны правильно понимать человеческие жесты и выполнять соответствующие команды в достаточной степени точности.
В настоящее время такие отраслевые гиганты как Google, Apple, Kuka Robotics, BMW, Facebook, Netflix и другие активно развивают направление перспективных интерфейсов человеко-машинного взаимодействия, где жестовое взаимодействие одно из наиболее востребованных, а задача качественного и уверенного распознавания жестовых команд является одной из основных. В дополнение, создание эффективных каналов взаимодействия, в том числе на базе жестовых команд, может освободить людей от тяжелых и потенциально опасных задач.
Актуальность проведенных исследований заключается в разработке прототипа системы распознавания жестовых команд для его последующего усовершенствования и коммерциализации.
В рамках диссертации реализованы следующие модули системы:
— уникальный набор данных (изображения статических жестов) для обучения и тестирования алгоритмов машинного обучения;
— программное обеспечение для предварительной подготовки данных и обучения классификатора на базе сверточной нейронной сети;
— программное обеспечение для классификации статических жестов и
визуализации результата.
Основными задачами исследования являются:
— анализ методов классификации изображений, основанных на использовании искусственных нейронных сетей;
— выбор оптимального метода выделения информативной части на изображениях;
— выбор оптимальной архитектуры нейронной сети для распознавания статических жестов в видеопотоке;
— оптимизация параметров используемой нейронной сети;
— выбор методов и параметров аугментации (расширения) набора данных для обучения классификатора;
— реализация и исследование работоспособности и эффективности алгоритма распознавания статических жестов, основанного на использовании искусственной нейронной сети.
В диссертационной работе при решении поставленных задач использованы методы теории искусственных нейронных сетей, математического моделирования, теории вероятностей и математической статистики. Для разработки программных компонентов были использованы алгоритмы компьютерного зрения, а именно:
— морфологические преобразования изображения;
— поиск объекта (ROI — Region of Interest) по цвету и контуру;
— изменение размеров (Resize) и выделение фрагментов изображений.
В качестве одного из ключевых компонентов программного модуля были использованы алгоритмы машинного обучения, а именно сверточные нейронные сети. Также были разработаны вспомогательные программные компоненты для предварительной обработки данных, обучения нейронной сети и проверки точности классификатора. Проверка точности заключается в вычислении погрешности, точности и полноты.
Научная новизна заключается в способах оптимизации методов обучения нейронной сети, повышении качества и увеличении объема набора данных, увеличения точности классификации.
В качестве способов оптимизации применяются:
— оптимизация набора данных для обучения;
— аугментация набора данных для обучения;
— подбор параметров классификатора.
10 Уникальный набор данных, разработанная архитектура сверточной нейронной сети, алгоритмы предварительной обработки данных и обучения классификатора являются основой для создания программной системы распознавания жестовых команд.
Диссертация состоит из трех основных разделов:
— аналитический раздел, где осуществляется анализ предметной области и приводятся примеры уже разработанных систем и алгоритмов распознавания жестов и жестовых команд, патентов, связанных с распознаванием жестовых команд, производится анализ и сравнение актуальных разработок, представленных в статьях российских и зарубежных авторов;
— конструкторско-технологический раздел, где приводится описание и анализ современных методов и алгоритмов распознавания объектов на изображении, производится обзор и сравнение популярных библиотек машинного обучения содержащих рассматриваемые методы и соответствующий набор инструментов, а также осуществляется выбор метода и библиотеки для разработки программного обеспечения для детектирования, трекинга и классификации жестов;
— специальный раздел, где приведены алгоритмы и подходы к задаче обработки набора графических данных, продемонстрирована программная реализация алгоритма распознавания жестовых команд, разобраны различные архитектуры нейронных сетей, их достоинства и недостатки, а также представлены качественные результаты работы классификатора жестовых команд.
Целью разрабатываемого программного комплекса является внедрение в мультимедийные системы транспортных средств (Infotainment Systems), а также обеспечение возможности отдельным разработчикам и исследователям использовать разрабатываемые алгоритмы и набор данных в целях доработки и использования в собственных исследованиях.
Практическая значимость заключается в разработке системы распознавания жестовых команд, которую можно использовать в качестве интерфейса для человеко-машинного взаимодействия, а также в обеспечении возможности тестирования алгоритмов классификации и применении пользовательских наборов данных и параметров нейронной сети (метод обучения, топология нейронной сети и др.) для решения смежных задач.
Тема и материалы диссертации были представлены в трех научных работах, опубликованных в «CEUR-WS series»:
статья «Static gestures classification using Convolutional Neural Networks on the example of the Russian Sign Language» для конференции AIST-2018;
— постер с графическими материалами для статьи «Static gestures classification using Convolutional Neural Networks on the example of the Russian Sign Language» для конкурса постеров на конференции AIST-2018;
— статья «Hand gestures detection, tracking and classification using Convolutional Neural Network» для конференции AIST-2019;

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Актуальность проведенных исследований обусловлена проблемой взаимодействия между людьми и машинами (роботами), над решением которой работают такие известные компании как Boston Dynamics, Kuka Robotics, Google и другие. Основная идея в том, что создание эффективных каналов взаимодействия, в том числе на базе жестовых команд, может освободить людей от тяжелых и потенциально опасных задач.
В рамках диссертации реализованы следующие компоненты системы:
— программное обеспечение для предварительной подготовки данных и обучения классификатора на базе сверточной нейронной сети;
— программное обеспечение для поиска региона ддя классификации (ROI) на изображении;
— программное обеспечение для классификации статических жестов и визуализации результата;
— программная документация.
Основными задачами исследования являлись:
— анализ методов классификации изображений, основанных на использовании искусственных нейронных сетей;
— выбор оптимального метода выделения информативной части на изображениях;
— выбор оптимальной архитектуры нейронной сети для распознавания статических жестов в видеопотоке;
— оптимизация параметров используемой нейронной сети;
— выбор методов и параметров аугментации (расширения) набора данных для обучения классификатора;
— реализация и исследование работоспособности и эффективности алгоритма распознавания статических жестов, основанного на использовании искусственной нейронной сети.
В диссертационной работе при решении поставленных задач использованы методы теории искусственных нейронных сетей, математического моделирования, теории вероятностей и математической статистики. Для разработки программных компонентов были использованы алгоритмы компьютерного зрения, а именно:
— морфологические преобразования изображения;
— поиск объекта (ROI — Region of interest) по цвету и контуру;
— изменение размеров (Resize) и выделение фрагментов изображений.
В качестве одного из ключевых компонентов программного модуля были
64 использованы алгоритмы машинного обучения, а именно сверточные нейронные сети. Также были разработаны вспомогательные программные компоненты для предварительной обработки данных, обучения нейронной сети и проверки точности классификатора (параметры — loss, accuracy).
В результате исследования был разработан и опубликован уникальный набор данных из 10 классов и более 2000 уникальных изображений, а также программный комплекс для обнаружения, отслеживания и классификации статических жестов русского языка жестов в видеопотоке с использованием методов компьютерного зрения и глубокого обучения (рисунок 35).
Решение включает в себя модуль обнаружения рук, который использует цветовую маску, модуль отслеживания жестов, модуль классификации статических жестов в обнаруженной области изображения на основе сверточной нейронной сети, а также вспомогательный модуль предварительной обработки изображений и модуль расширения набора данных. Для разработки архитектуры нейронной сети была использована среда PyTorch.
Представленная версия усовершенствованного классификатора демонстрирует точность классификации в 93,6% по тестовому набору данных, которая превосходит результаты предыдущей версии — 91,38% и классификатор LeNet-5 — 87,08%.
Результаты точности являются достаточной основой для разработки промышленного прототипа интерфейса управления при помощи жестовых команд и дальнейших исследований в этом направлении, что являлось одной из основных целей проекта.
Другой важной целью является обеспечение возможности отдельным разработчикам и исследователям использовать разрабатываемые алгоритмы и набор данных в целях доработки и использования в собственных исследованиях. Для этого весь исходный код проекта, набор данных и обученные классификаторы были опубликованы на GitHub и уже являются основой для исследований научного и IT-сообществ (рисунок 36). Тексты научных статей опубликованы в открытом доступе на ресурсе ResearchGate.
Тема и материалы диссертации были представлена в трех научных публикациях, опубликованных в «CEUR-WS series»:
— статья «Static gestures classification using Convolutional Neural Networks on the example of the Russian Sign Language» для конференции AIST-2018;
— постер с графическими материалами для статьи «Static gestures classification using Convolutional Neural Networks on the example of the Russian Sign Language» для конкурса постеров на конференции AIST-2018;
— статья «Hand gestures detection, tracking and classification using Convolutional
66 Neural Network» для конференции AIST-2019;
В следующем поколении проекта будет применен подход семантической сегментации для задачи классификации с полносвязной сверточной сетью (Fully Convolutional Networks [74]). Предполагается иной способ маркировки набора данных и требуется больше данных. Для решения этой проблемы будут создаваться новые изображения с использованием синтетических данных (случайное преобразование перспективы, случайный шум, генерирующие состязательные сети — Generative Adversarial Nets [75] и другие).



[1] J. Kruger, T. Lien, A. Verl, Cooperation of human and machines in assembly lines, CIRP Annals-Manufacturing Technology, 2009, 628-646
[2] S.A. Green, M. Billinghurst, X. Chen, G. Chase, Human-robot collaboration: A literature view and augmented reality approach in design, International Journal of Advanced Robotic Systems, 2008, 1-18
[3] A. Bauer, D. Wollherr, M. Buss, Human-robot collaboration: a survey, International Journal of Humanoid Robotics, 2008, 47-66
[4] В. С. Стёпин. Б. В. Бирюков. Ф. И. Голдберг, Анализ, Гуманитарная энциклопедия: Концепты, 2002-2019, Центр гуманитарных технологий
[5] Е. А. Сидоренко, Формализация, Гуманитарная энциклопедия: Концепты [Электронный ресурс], 2002-2019, https://gtmarket.ru/concepts/6937
[6] Т. П. Давиденко, Краткий очерк по лингвистике РЖЯ, Современные аспекты жестового языка, 2006, 146-161
[7] Г. Л. Зайцева, Жестовая речь, Дактилология: учебник для студентов высших учебных заведений, 2000, 42
[8] О. О. Королькова, Проблемы классификаций жестов русского жестового языка, Научный диалог, 2016, 46-59
[9] А. Е. Харламенков, Сборник упражнений и текстов для перевода на жестовый язык, Методическое пособие, 2013, 17-18
[10] В.И. Флёри, Глухонемые, рассматриваемые в отношении к их состоянию и к способам образования, самым свойственным их природе, Типография А. Плюшара, 1835, ISBN
[11] J. Letessier, F. Berard, Visual tracking of bare fingers for interactive surfaces, Proceedings of the 17th annual ACM symposium on User interface software and technology, 2004, 119-122
[12] S. Belongie, J. Malik, J. Puzicha, Shape matching and object recognition using shape contexts, Pattern Analysis and Machine Intelligence, 2002, 509-522
[13] B. Allen, B. Curless, Z. Popovic, Articulated body deformation from range scan data, ACM Transactions on Graphics (TOG), 2002, 612-619
[14] H. Bay, T. Tuytelaars, L. Van Gool, Surf: Speeded up robust features, Computer vision-ECCV, 2006, 404-417
[15] E. Rublee, V. Rabaud, K. Konolige, G. Bradski, ORB: an efficient alternative to SIFT or SURF, Computer Vision (ICCV), 2011, 2564-2571
[16] NND, High-precision gesture control system, [Электронный ресурс], 2012, https://nnd.name/2012/10/vysokotochnaya-sistema-zhestovogo-upravleniya/
[17] 3dnews, CES 2016: новая медиасистема Volkswagen с жестовым управлением, [Электронный ресурс], 2016, https://3dnews.ru/926244
[18] DailyTechInfo, DICE - система жестового управления автомобилем от Mersedes-Benz, [Электронный ресурс], 2012, https://dailytechinfo.org/auto/3291- dice-sistema-zhestovogo-upravleniya-avtomobilem-ot-mersedes-benz.html
[19] Christopher Paul Urmson, Dmitri A. Dolgov, Philip Nemec, Driving pattern recognition and safety control, [Электронный ресурс], 2011, https://patents.google.com/patent/US8634980
[20] Sung-Ho Im, Dong-Sun Lim, Tae-Joon Park, Kee-Koo Kwon, Man-Seok Yang, Heung-Nam Kim, User interface apparatus using hand gesture recognition and method thereof, [Электронный ресурс], 2 0 04, https://patents.google.com/patent/US20060136846A1
[21] Navneet D., Garg, R., Gulshan, V., Mohan, A., System and method for gesture detection through local product map, [Электронный ресурс], 2013, https://patents.google.com/patent/US20140254864A1
[22] Дружков, П., Детектирование объектов на изображениях, Высокопроизводительные вычисления и алгоритмы компьютерного зрения, 2014, 3-4
[23] Чичварин, Н., Распознавание образов, Обнаружение и распознавание сигналов, 2016, 1-2
[24] Бовырин, А., Дружков, П., Ерухимов, В., Задача детектирования объектов на изображениях и методы её решения, Разработка мультимедийных приложений с использованием библиотек OpenCV и IPP, 2015, 31-38
[25] Carbonell, J., Michalski, R., Mitchell, T., Machine Learning, AN OVERVIEW OF MACHINE LEARNING, 1983, 3-23
[26] Pang, Y., Yuan, Y., Li, X., Pan, J., Efficient HOG human detection, Signal Processing, 91(4), 2011, 773-781
[27] Choi, M., Torralba, A., Willsky, A., Exploiting Hierarchical Contex on a large database of object categories, IEEE Computer Vision and Pattern Recognition, 2010, 129-136
[28] Vidal-Naquet, M., Object Recognition with Informative Features and Linear Classification, The Weizmann Institute of Science, 2008, 1-6
[29] Wojek, C., Dorko, G., Schulz, A., Schiele, B., Sliding-Windows for Rapid Object Class Localization: A Parallel Technique, Pattern Recognition, 2008, 71-81
[30] Elsen, V., Pol, E.-J. D., Viergever, M., Medical image matching-a review with classification, IEEE Engineering in Medicine and Biology Magazine, 12(1), 1993, 26-39
[31] Danielsson, P.-E., Euclidean distance mapping, Computer Graphics and Image Processing, 14(3), 1980, 227-248
[32] Bradley, A. P., The use of the area under the ROC curve in the evaluation of machine learning algorithms, Pattern Recognition, 30(7), 1997, 1145-1159
[33] Заенцев, И., Нейронные сети: основные модели, Учебное пособие к курсу "Нейронные сети", 1999, 3-12
[34] Pao, Y., Adaptive pattern recognition and neural networks, Addison-Wesley, 1989, 1-12
[35] Круг, П., НЕЙРОННЫЕ СЕТИ И НЕЙРОКОМПЬЮТЕРЫ, Учебное пособие по курсу «Микропроцессоры», 2002, 47-50
[36] Pal, S. K., Mitra, S., Multilayer perceptron, fuzzy sets, and classification, IEEE Transactions on Neural Networks, 3(5), 1992, 683-697
[37] Hecht-Nielsen, R., Theory of the Backpropagation Neural Network, Based on “nonindent”, International Joint Conference on Neural Networks 1, 1992, 593-611
[38] Сирота, А., Цуриков, В., Модели и алгоритмы классификации многомерных данных на основе нейронных сетей с радиально-базисными функциями, Воронежский государственный университет, 2013, 1-7
[39] Костылев, И., Малинецкий, Г., Параметры порядка в нейронной сети Хопфилда , Ж. вычисл. матем. и матем. физ., 1994, 1733-1741
[40] Sutskever, I., Hinton, G., The Recurrent Temporal Restricted Boltzmann Machine,
NIPS, 2008, 1-8
[41] Lu, Jian John, Road crack condition performance modeling using recurrent Markov chains and artificial neural networks, Graduate Theses and Dissertations, 2004, 1310-1376
[42] Huang, G., Zhu, Q., Extreme learning machine: a new learning scheme of feedforward neural networks, 2004 IEEE International Joint Conference on Neural Networks, 2004, 985-991
[43] Белов, В., О перспективах искусственного интеллекта, М.: Дело, 2012, 82
[44] Круглов, В., Борисов, В., Искусственные нейронные сети, Теория и практика, 2002, 380
[45] Rosenblatt F., The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain, Phichological Review, 1958, 16-22
[46] Krose B., Smagt P., An introduction to Neural Networks, University of Amsterdam, 1996, 178-185
[47] Smith L., An Introduction to Neural Networks, University of Stirling, 2001, 241-357
[48] Kohonen, T., Self-Organizing Maps, Springer-Verlag: third extended edition, 2001, 52-61
[49] Goh, A., Back-propagation neural networks for modeling complex systems, Artificial Intelligence in Engineering, 9(3), 1995, 143-151
[50] Krizhevsky, A., ImageNet Classification with Deep Convolutional Neural Networks, University of Toronto, 2014, 1-8
[51] Goodfellow, I., Bengio, Y., Deep Learning, The MIT Press, 2017, 281-293
[52] Visin, D., A guide to convolution arithmetic for deep learning, Dumoulin, Vincent, and Francesco Visin, 2016, 23
[53] Hawkins, D., The Problem of Overfitting, Journal of Chemical Information and Computer Sciences, 44(1), 2004, 1-12
[54] Krizhevsky, A., Salakhutdinov, R., Dropout: A Simple Way to Prevent Neural Networks from Overfitting, University of Toronto, 2013, 1931-1958
[55] , An end-to-end open source machine learning platform, [Электронный ресурс], 2019, https://www.tensorflow.org/


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ