Аннотация
1 Аномалии в технологическом сигнале 6
1.1 Аномалии 6
1.2 Методы и подходы поиска аномалий 8
1.3 Вероятностный подход 9
1.4 Линейные методы 11
1.5 Метрические методы 13
1.6 Изолирующий лес 16
1.7 Скрытые марковские модели 17
1.8 Спектральные методы 18
1.9 Классификация градиентным бустингом 18
1.10 Функции потерь 20
1.11 Метрики 21
1.12 Аномалии во временных рядах 22
1.12.1 Моделирование технологического сигнала 22
1.12.2 Аугментация временных рядов 23
1.13 Выводы по первой главе 28
2 Построение алгоритма классификации 30
2.1 Описание исходных данных 30
2.2 Предварительная обработка данных 31
2.3 Формирование признакового пространства 34
2.5 Выводы по второй главе 36
3 Эксперименты 37
3.1 Обучение классификатора 38
3.2 Результаты и обсуждения 39
ЗАКЛЮЧЕНИЕ 42
ЛИТЕРАТУРА 43
На сегодняшний день технологический уклад формируется под влиянием процесса цифровизации. Преобразуется промышленное производство: используются принципиально новые подходы к обработке и анализу данных. Но на практике их использование ограничивается задачами длительного хранения и визуализации. С помощью внедрения методов машинного обучения вкупе с методами обработки и анализа данных, можно создать промышленную систему прогнозного анализа [2].
Высокая размерность и сложная структура сигналов, вызванная непостоянством протекающих процессов и другими факторами, затрудняют проведение анализа основными средствами управления или человеком. Для анализа таких данных необходимы методы, учитывающие прошлый опыт эксплуатации и умеющие адаптироваться к изменяющейся динамике сигнала.
Одна из основных задач при анализе технологических сигналов - обнаружение аномалий. Аномалия - это отклонение поведения системы от стандартного [3]. Своевременное обнаружение аномалий является как основанием для предотвращения нештатных (аварийных) ситуаций и преждевременных отказов технологических устройств, так и способом извлечения полезной информации из сигнала.
На данный момент существует лишь несколько примеров решения проблемы обнаружения аномалий с помощью интеллектуального анализа в системах инженерного мониторинга. Некоторыми из таких примеров являются платформа Clover - система прогнозного анализа для промышленных компаний [8], Astera - аналитическая программная платформа для цифровой трансформации промышленности [7], модуль анализа в составе платформы цифровой компании AggreGate [6].
Описанные выше системы имеют ряд серьезных недостатков, такие как ограниченная применимость, примитивные методы, или же сравнение с пороговым значением.
В данной работе рассмотрена проблема недостаточного знания подходов и методов обнаружения аномалий в технологических сигналах. Предметом исследования является процесс обнаружения аномального поведения технологических устройств. Основное внимание в исследовании уделяется классификационным подходам к обнаружению аномалий. Таким образом, целью данного исследования является разработка универсального алгоритма для обнаружения аномалий в технологических сигналах с помощью расширения данных, выбора уникального пространства признаков и классификации. Для достижения цели исследования необходимо решить следующие задачи:
1. Изучение научных статей и литературы по теме обнаружения аномалий в многомерных последовательных данных. Изучение классических подходов к решению подобных проблем.
2. Сбор, выполнение первичного анализа и уточнение данных.
3. Разработка модели обнаружения аномалий технологических сигналов, и разработка программной реализации.
4. Тестирование программного комплекса на реальных технологических данных и анализ полученных результатов.
При выполнении работы использовались следующие методы исследования:
1. Анализ источников, описывающих существующие подходы к решению задачи обнаружения аномалий в последовательных данных.
2. Проведение экспериментов по созданию пространства признаков, расширению и классификации данных.
3. Расчет, визуализация и интерпретация полученных результатов.
Диссертация имеет следующую научную новизну:
1. Предложены подходы к увеличению объема данных или наложению аномалий на технологические сигналы для решения проблемы отсутствия подходящих данных.
2. Было предложено уникальное пространство признаков для классификации участков сигнала на штатные и аномальные.
Практическая значимость исследования: предложенные подходы к увеличению объема данных и формированию уникального пространства признаков позволяют использовать предложенный подход с быстрой реализацией в реальной компании, и последующим повышением качества.
Магистерская работа состоит из трех разделов: в первом содержится обзор проблемы поиска аномалий в технологическом сигнале; во втором содержится описание предлагаемого алгоритма классификации сигнала; в третьем содержатся экспериментальные исследования, которые были проведены для оценки эффективности предложенного подхода по обнаружению аномалий.
Данная работа посвящена выявлению аномалий в технологическом сигнале с использованием методов машинного обучения. Было произведено расширение выборки за счет аугментации реальных данных. Получившаяся выборка покрывает большой спектр аномалий, встречающихся в реальных данных с предприятий. Был разработан новый алгоритм классификации технических сигналов путем преобразования их в наборы статистических признаков и последующей их классификации методом градиентного бустинга. Была продемонстрирована работоспособность алгоритма на модельных данных и на синтезированных искусственно. Произведена оценка работы алгоритма на них и анализ полученных оценок.
Полученные результаты подтверждают работоспособность данного алгоритма по классификации технологического сигнала. Ранняя версия данного алгоритма классификации была внедрена в прототип модуля обнаружения аномалий в технологическом сигнале. Предполагается, что разрабатываемый модуль инвариантен к полученным сигналам, и должен показывать достойный результат на широком спектре возможных задач.
Работа была представлена на VIII Международной молодежной научной конференции «Математическое и программное обеспечение информационных, технических и экономических систем».
1 Замятин А.В., Тренькаев В.Н., Острасть П.М., Телицын Е.А. Высокопроизводительный сервер истории системы диспетчерского управления и сбора данных // ПРОМЫШЛЕННЫЕ АСУ И КОНТРОЛЛЕРЫ. 2017. № 9, С. 20-28. ISSN 1561-1531.
2 Sergey Gavrin, Damir Murzagulov, Alexander Zamyatin. Detection of Change Point in Process Signals by Cascade Classification. IEEE International Russian Automation Conference 2018
3 Sergey Gavrin, Damir Murzagulov, Alexander Zamyatin. Anomaly Detection in Process Signals within Machine Learning and Data Augmentation Approach. 15th International Conference on Machine Learning and Data Mining MLDM 2019
4 AggreGate. URL: http://aggregate.tibbo.com/ru/ (дата обращения: 15.10.2020)
5 Astera URL: http://astera.in/ (дата обращения: 15.10.2020)
6 Clover Group. URL: https://clover.global/en/ (дата обращения: 15.10.2020)
7 Damir A. Murzagulov, Alexander V. Zamyatin, Pavel M. Ostrast. Аpproach To Detection Of Anomalies Of Process Signals Using Classification And Wavelet Transforms. IEEE International Russian Automation Conference 2018 ]
Антипов С. Г., Фомина М. В. Проблема обнаружения аномалий в наборах временных рядов //Программные продукты и системы. - 2012. - №. 2.
8 Шкодырев В. П. и др. Обзор методов обнаружения аномалий в потоках данных //Second Conference on Software Engineering and Information Management (SEIM-2017)(full papers). - 2017. - С. 50.
9 Liu F. T., Ting K. M., Zhou Z. H. Isolation-based anomaly detection //ACM Transactions on Knowledge Discovery from Data (TKDD). - 2012. - Т. 6. - №. 1.
- С. 3.
10 Breunig M. M. et al. LOF: identifying density-based local outliers //ACM sigmod record. - ACM, 2000. - Т. 29. - №. 2. - С. 93-104.
11 H.-S. Wu, “A survey of research on anomaly detection for time series,” 2016 13th International Computer Conference on Wavelet Active Media Technology and Information Processing (ICCWAMTIP), Dec. 2016.
12 Candelieri A. Clustering and support vector regression for water demand forecasting and anomaly detection //Water. - 2017.- Т. 9. - №. 3. - С. 224.
13 Ibidunmoye O., Metsch T., Elmroth E. Real-time detection of performance anomalies for cloud services //2016 IEEE/ACM 24th International Symposium on Quality of Service (IWQoS). - IEEE, 2016. - С. 1-2.
14 Д. П. Ветров, Д. А. Кропотов, А. А. Осокин, “Байесовские сети”, URL http://www.machinelearning.ru/wiki/images/5/5b/Lecture1_GM.pdf
15 Additional Tennessee Eastman Process Simulation Data for Anomaly Detection
Evaluation Version 1.0. - URL:
https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi :10.7910/DVN/ 6 C3JR1 (Дата обращения: 15.10.2020)...24