ОБНАРУЖЕНИЕ ВИДЕОАНОМАЛИЙ НА ОСНОВЕ ПРОСТРАНСТВЕННО-ВРЕМЕННЫХ ПАЗЛОВ
|
АННОТАЦИЯ 3
ВВЕДЕНИЕ 4
1 Исследование в области обнаружения аномалий в видеоданных 7
1.1 Процесс обнаружения аномалий 7
1.2 История и состояние исследований 9
1.2.1 Методы распознавания поведения на основе глубокого обучения 9
1.2.2 Методы обнаружения аномалий в видеоданных 11
1.3 Структура работы 13
2 Актуальность исследования 14
2.1 Метод самоконтролируемого обучения 14
2.2 Метод временно-пространственных пазлов 16
2.3 Алгоритм YOLO 22
2.3.1 Принцип работы YOLO 22
2.3.2 YOLOv8 24
2.4 ResNet3D 27
3 Реализация программы 30
3.1 Конфигурация экспериментальной среды 30
3.2 Набор данных 31
3.3 Обработка данных 33
3.3.1 Подробности перед заданием 33
3.3.2 Фильтрация результатов извлечения YOLOv8 35
3.4 Архитектура нейронной сети 38
3.4.1 Требования к архитектуре нейронной сети 38
3.4.2 Проектирование архитектуры нейронной сети 39
3.4.3 Оптимизатор и функция потерь 43
4 Результаты и анализ 47
4.1 Индекс экспериментальной оценки 47
4.2 Анализ результатов 48
4.2.1 Настройка учебного процесса 48
4.2.2 Анализ процесса и результатов 50
4.2.3 Эффективность обнаружения 57
ЗАКЛЮЧЕНИЕ 59
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 62
ВВЕДЕНИЕ 4
1 Исследование в области обнаружения аномалий в видеоданных 7
1.1 Процесс обнаружения аномалий 7
1.2 История и состояние исследований 9
1.2.1 Методы распознавания поведения на основе глубокого обучения 9
1.2.2 Методы обнаружения аномалий в видеоданных 11
1.3 Структура работы 13
2 Актуальность исследования 14
2.1 Метод самоконтролируемого обучения 14
2.2 Метод временно-пространственных пазлов 16
2.3 Алгоритм YOLO 22
2.3.1 Принцип работы YOLO 22
2.3.2 YOLOv8 24
2.4 ResNet3D 27
3 Реализация программы 30
3.1 Конфигурация экспериментальной среды 30
3.2 Набор данных 31
3.3 Обработка данных 33
3.3.1 Подробности перед заданием 33
3.3.2 Фильтрация результатов извлечения YOLOv8 35
3.4 Архитектура нейронной сети 38
3.4.1 Требования к архитектуре нейронной сети 38
3.4.2 Проектирование архитектуры нейронной сети 39
3.4.3 Оптимизатор и функция потерь 43
4 Результаты и анализ 47
4.1 Индекс экспериментальной оценки 47
4.2 Анализ результатов 48
4.2.1 Настройка учебного процесса 48
4.2.2 Анализ процесса и результатов 50
4.2.3 Эффективность обнаружения 57
ЗАКЛЮЧЕНИЕ 59
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 62
Увеличение числа камер видеонаблюдения, выявляет растущий интерес общества к безопасности. В связи с этим возрастает потребность в оперативном и точном автоматизированном анализе и обработке данных. Например, используя алгоритмы распознавания аномального поведения на видео, можно эффективно контролировать деятельность в различных сферах, таких как медицинский уход, предотвращение преступлений, обеспечение дорожной безопасности, управление умным домом и обеспечение безопасности на общественных местах. Такие алгоритмы становятся все более значимыми и востребованными в современном обществе [1].
В последние годы в общественных и частных местах часто происходят необычные события, такие как драки, ограбления, внезапные проникновения в автомобили в местах, где проезд запрещен, погони, кражи и другие необычные действия. Растет потребность в системе, которая может автоматически идентифицировать аномальное поведение на видео в целях обеспечения безопасности в общественных местах, школах и других местах. Поэтому данная работа посвящена разработке и построении модели, позволяющей с высокой точностью идентифицировать аномальное поведение на видеозаписях с камер наблюдения в общественных местах.
Основываясь на некоторых аномальных формах поведения, которые перечислены ранее, можно понимать обнаружение аномалий в видеоданных следующим образом: обнаружение аномалий в видеоданных - это задача обнаружения неожиданных событий, которые отклоняются от нормальной картины привычных событий. В последние годы это стало важной задачей в области компьютерного зрения и распознавание образов, поскольку объем видеоданных, полученных из различных сцен, растет в геометрической прогрессии.
Однако, углубившись в эту тему, приходит понимание, что задача эта довольно сложная, поскольку данные об аномальных событиях собирать сложнее, а их категории не ограничены.
Хотя кажется, что можно просто разделить обнаружение аномального поведения на две категории: нормальное и ненормальное. Но на самом деле категории «нормальное» и «ненормальное» содержат очень большое количество видов поведения с различными характеристиками. Если тщательно определить категорию каждого аномального поведения, нам будет трудно унифицировать названия категорий и объединить все аномальные категории. Например, нельзя четко определить драку и нападение. То же самое относится и к нормальному поведению: существует очень много внутренних категорий, и эти виды поведения выглядят совершенно по- разному, имея лишь несколько общих признаков.
Также важно учитывать различные сценарии и условия освещения, а также то, что обнаружение аномального поведения при видеонаблюдении часто включает несколько объектов на кадре. Это позволяет проверить способность нашей модели к обобщению и детализации. Данное проверка также оценивает способность нашей модели к обобщенным и
детализированным данным, что является более сложной задачей по
сравнению с простым распознаванием действий в примерах, таких как imagenet и krinet, где на кадре присутствует только один главный объект, занимающий большую часть изображения.
Кроме того, в общем случае невозможно получить сбалансированное количество нормальных и ненормальных образцов в полном видеоролике для обучения, что приводит к тому, что точность модели мала.
В целом, обнаружение видеоаномалий сопряжено с рядом трудностей:
1. Видео часто содержит множество объектов, что требует от модели способности анализировать разные объекты по отдельности.
2. Грань между нормальным и ненормальным поведением размыта.
3. Дисбаланс в количестве категорий нормального и ненормального поведения.
4. Ненормальные события содержат множество подкатегорий, и общие черты этих категорий неочевидны (драки и ссоры). То же самое верно и для нормальных событий. (ходьба и сидение)
5. На модель легко влияют условия освещения сцены и другие факторы.
Все эти причины в совокупности делают типичные методы с самоконтролем неприменимыми.
Исходя из этих факторов и важности данной области исследований, целью данной работы является построение модели обнаружения аномалий в видеоданных на основе самоконтролируемых методов и метода пространственно-временного пазла, который может обнаружить аномалии для каждого объекта в каждом кадре видео и достичь высокой точности обнаружения аномалий в видеоданных.
В последние годы в общественных и частных местах часто происходят необычные события, такие как драки, ограбления, внезапные проникновения в автомобили в местах, где проезд запрещен, погони, кражи и другие необычные действия. Растет потребность в системе, которая может автоматически идентифицировать аномальное поведение на видео в целях обеспечения безопасности в общественных местах, школах и других местах. Поэтому данная работа посвящена разработке и построении модели, позволяющей с высокой точностью идентифицировать аномальное поведение на видеозаписях с камер наблюдения в общественных местах.
Основываясь на некоторых аномальных формах поведения, которые перечислены ранее, можно понимать обнаружение аномалий в видеоданных следующим образом: обнаружение аномалий в видеоданных - это задача обнаружения неожиданных событий, которые отклоняются от нормальной картины привычных событий. В последние годы это стало важной задачей в области компьютерного зрения и распознавание образов, поскольку объем видеоданных, полученных из различных сцен, растет в геометрической прогрессии.
Однако, углубившись в эту тему, приходит понимание, что задача эта довольно сложная, поскольку данные об аномальных событиях собирать сложнее, а их категории не ограничены.
Хотя кажется, что можно просто разделить обнаружение аномального поведения на две категории: нормальное и ненормальное. Но на самом деле категории «нормальное» и «ненормальное» содержат очень большое количество видов поведения с различными характеристиками. Если тщательно определить категорию каждого аномального поведения, нам будет трудно унифицировать названия категорий и объединить все аномальные категории. Например, нельзя четко определить драку и нападение. То же самое относится и к нормальному поведению: существует очень много внутренних категорий, и эти виды поведения выглядят совершенно по- разному, имея лишь несколько общих признаков.
Также важно учитывать различные сценарии и условия освещения, а также то, что обнаружение аномального поведения при видеонаблюдении часто включает несколько объектов на кадре. Это позволяет проверить способность нашей модели к обобщению и детализации. Данное проверка также оценивает способность нашей модели к обобщенным и
детализированным данным, что является более сложной задачей по
сравнению с простым распознаванием действий в примерах, таких как imagenet и krinet, где на кадре присутствует только один главный объект, занимающий большую часть изображения.
Кроме того, в общем случае невозможно получить сбалансированное количество нормальных и ненормальных образцов в полном видеоролике для обучения, что приводит к тому, что точность модели мала.
В целом, обнаружение видеоаномалий сопряжено с рядом трудностей:
1. Видео часто содержит множество объектов, что требует от модели способности анализировать разные объекты по отдельности.
2. Грань между нормальным и ненормальным поведением размыта.
3. Дисбаланс в количестве категорий нормального и ненормального поведения.
4. Ненормальные события содержат множество подкатегорий, и общие черты этих категорий неочевидны (драки и ссоры). То же самое верно и для нормальных событий. (ходьба и сидение)
5. На модель легко влияют условия освещения сцены и другие факторы.
Все эти причины в совокупности делают типичные методы с самоконтролем неприменимыми.
Исходя из этих факторов и важности данной области исследований, целью данной работы является построение модели обнаружения аномалий в видеоданных на основе самоконтролируемых методов и метода пространственно-временного пазла, который может обнаружить аномалии для каждого объекта в каждом кадре видео и достичь высокой точности обнаружения аномалий в видеоданных.
Обнаружение аномального поведения на видео является сложной задачей из-за нечеткой границы между нормальным и аномальным поведением и редкости аномальных событий. В связи с этим, в исследованиях часто применяют методы обучения без учителя и самоконтролируемого обучения. Среди существующих подходов, методы, основанные на задаче пространственно-временного пазла, в последние годы показали выдающиеся результаты в контексте самоконтролируемого обучения для анализа видеоданных. Этот метод разбивает и нарушает видео с помощью предварительной задачи и позволяет модели выполнить задачу «пазл», с помощью которой модель изучает особенности нормального поведения и обнаруживает аномальное поведение в видео, выдавая прогнозную оценку реконструкции.
Однако в этом подходе отсутствует эффективный и точный процесс выделения и обработки объектов, в результате чего модель оказывается восприимчивой к неважным объектам. Кроме того, нейросетевая структура этого метода менее эффективна в обучении и не обладает способностью извлекать признаки, что приводит к тому, что способность модели к обнаружению аномалий не может снова возрасти. Для решения вышеуказанных проблем в данной статье, начиная с этих двух аспектов, исследуется и улучшается задача-предшественник и структура нейронной сети, и основные улучшения заключаются в следующем:
(1) Впервые в рамках данного метода используется современная модель YOLOv8 для выполнения предварительной задачи на видеоданных с целью извлечения более точных и богатых полезных объектов. Извлеченные объекты фильтруются, чтобы выбрать как можно больше надежных нестационарных объектов. В качестве предварительной задачи мы использовали все перестановки патчей, чтобы повысить способность модели к обучению во времени и пространстве. Метод доказал свою эффективность в сравнительных экспериментах.
(2) Для этой задачи была создана сетевая структура
SimpleResNet3D+2D на основе resnet3D, которая предотвращает проблему исчезновения градиента за счет остаточных блоков и предотвращает избыточность сети за счет уменьшения количества слоев и структуры 3D+2D. В сравнительных экспериментах было показано, что такая структура сети не только повышает эффективность обучения и вывода, но и помогает повысить точность обнаружения аномалий.
В заключение отметим, что была реализована модель обнаружения видеоаномалий на уровне кадров, усовершенствовав ее в рамках метода пространственно-временных пазлов. И в публичном эталонном наборе данных «shanghaitech» метод достигает более высокой точности, стабильности и хорошей обобщающей способности, чем аналогичные методы, микро-средний AUROC=0.851, макро-средний AUROC=0.898. И в обнаружении эффектов, реконструированные оценки предсказания показывают изменение количества кадров, способность улавливать аномальные события. способность быстрее фиксировать аномальные события.
Хотя два усовершенствованных метода, предложенных в этой работе, достигли хороших результатов и реализовали обнаружение на уровне кадра, на самом деле можно реализовать обнаружение аномалий на уровне объекта, исходя из тонкого представления пазла метода, который только должен выводить оценки аномалий для каждого объекта вместе с позиционными координатами кадров объекта, чтобы реализовать обнаружение на уровне объекта.
Но обнаружение на уровне кадра, часто есть более одного объекта в картине, пока есть пара обнаруженных аномалий, мы можем определить, что кадр имеет аномалии, или в соответствии с оценками аномалий нескольких объектов для усреднения, так что имеет более высокий показатель
отказоустойчивости. Обнаружение на уровне объектов, с другой стороны, не имеет преимуществ в этом отношении, и как повысить точность распознавания на основе пространственно-временного метода пространственно-временного пазла - новая проблема в этом направлении.
Однако в этом подходе отсутствует эффективный и точный процесс выделения и обработки объектов, в результате чего модель оказывается восприимчивой к неважным объектам. Кроме того, нейросетевая структура этого метода менее эффективна в обучении и не обладает способностью извлекать признаки, что приводит к тому, что способность модели к обнаружению аномалий не может снова возрасти. Для решения вышеуказанных проблем в данной статье, начиная с этих двух аспектов, исследуется и улучшается задача-предшественник и структура нейронной сети, и основные улучшения заключаются в следующем:
(1) Впервые в рамках данного метода используется современная модель YOLOv8 для выполнения предварительной задачи на видеоданных с целью извлечения более точных и богатых полезных объектов. Извлеченные объекты фильтруются, чтобы выбрать как можно больше надежных нестационарных объектов. В качестве предварительной задачи мы использовали все перестановки патчей, чтобы повысить способность модели к обучению во времени и пространстве. Метод доказал свою эффективность в сравнительных экспериментах.
(2) Для этой задачи была создана сетевая структура
SimpleResNet3D+2D на основе resnet3D, которая предотвращает проблему исчезновения градиента за счет остаточных блоков и предотвращает избыточность сети за счет уменьшения количества слоев и структуры 3D+2D. В сравнительных экспериментах было показано, что такая структура сети не только повышает эффективность обучения и вывода, но и помогает повысить точность обнаружения аномалий.
В заключение отметим, что была реализована модель обнаружения видеоаномалий на уровне кадров, усовершенствовав ее в рамках метода пространственно-временных пазлов. И в публичном эталонном наборе данных «shanghaitech» метод достигает более высокой точности, стабильности и хорошей обобщающей способности, чем аналогичные методы, микро-средний AUROC=0.851, макро-средний AUROC=0.898. И в обнаружении эффектов, реконструированные оценки предсказания показывают изменение количества кадров, способность улавливать аномальные события. способность быстрее фиксировать аномальные события.
Хотя два усовершенствованных метода, предложенных в этой работе, достигли хороших результатов и реализовали обнаружение на уровне кадра, на самом деле можно реализовать обнаружение аномалий на уровне объекта, исходя из тонкого представления пазла метода, который только должен выводить оценки аномалий для каждого объекта вместе с позиционными координатами кадров объекта, чтобы реализовать обнаружение на уровне объекта.
Но обнаружение на уровне кадра, часто есть более одного объекта в картине, пока есть пара обнаруженных аномалий, мы можем определить, что кадр имеет аномалии, или в соответствии с оценками аномалий нескольких объектов для усреднения, так что имеет более высокий показатель
отказоустойчивости. Обнаружение на уровне объектов, с другой стороны, не имеет преимуществ в этом отношении, и как повысить точность распознавания на основе пространственно-временного метода пространственно-временного пазла - новая проблема в этом направлении.





