Введение 4
Актуальность 4
Практическая значимость работы 5
Постановка задачи 6
Цель работы 6
Задачи работы 6
Обзор литературы 7
Глава 1. Введение в предметную область 11
1.1. Процедура внутритрубной диагностики 11
1.2. Методы визуального контроля дефектов 13
Глава 2. Разработка методов детектирования дефектов ... 15
2.1. Структура и особенности данных 15
2.2. Аугментация датасета 21
2.3. Исследование дефектов 22
2.4. Поиск дефектов по паттерну 24
2.5. Детектирование дефектов методами классического машинного обучения 25
2.6. Классификация дефектов методами классического машинного обучения 26
2.7. Классификация дефектов методами на основе нейронных
сетей 27
Глава 3. Проведение оценки качества алгоритмов 32
3.1. Процедура оценки качества 32
3.2. Результаты поиска дефекта по паттерну 32
3.3. Результаты детектирования методами классического машинного обучения 34
3.4. Результаты классификации методами классического машинного обучения 35
3.5. Результаты нейросетевого подхода 37
3.6. Выводы 40
Заключение 41
Результаты работы 41
Перспективы развития 41
Список литературы 43
Актуальность
Развитие современных информационных технологий затрагивает все области жизни общества. Не является исключением и сфера промышленности. В последнее время появилось огромное количество технологий, инструментов и программных комплексов, которые позволяют автоматизировать и оптимизировать производственные процессы. В настоящее время происходит повсеместная информатизация промышленности. Процесс информатизации производств подталкивает компании к проведению исследований в конкретной промышленной области и внедрению результатов исследований в технологические процессы.
Благодаря этому многие области промышленности получили большой толчок в развитии, например, автомобильная промышленность или нефтегазовая промышленность. В качестве примера можно привести то, что за последние годы в группе компаний «Газпром Нефть» были внедрены новейшие решения для оптимизации технологических и производственных процессов [1]:
• Проект «Когнитивный геолог», автоматизирующий предварительную обработку данных, полученных в результате геологоразведочных работ.
• Технология «КиберГРП» применяется для моделирования гидроразрыва пласта.
• Экспертная система «ГгсБА» накапливает информацию и формирует базу знаний по «Большой Ачимовке». На основе различных данных она помогает подобрать оптимальное технологическое решения для бурения новой скважины.
На текущий момент «Газпром Нефть» проводит огромную исследовательскую программу по созданию информационных и технологических решений для проведения геологоразведочных работ и дальнейшей разработки трудноизвлекаемых запасов нефти [2].
Практическая значимость работы
На балансе нефтедобывающей компании находится порядка 12 тыс. км промысловых трубопроводов. Одной из важных задач является оценка состояния эксплуатируемых трубопроводов [3]. На данный момент эта процедура требует большого количества ручного труда высококвалифицированных специалистов при визуальном контроле результатов внутритрубной диагностики (ВТД). Эксперты тратят до одного месяца на интерпретацию данных внутритрубной диагностики одного километра трубы. Автоматизация данного процесса позволит сократить время между проведением ВТД и интерпретацией результатов, а также уменьшить влияние человеческого фактора. В результате уменьшится количество прорывов нефтепроводов и утечек нефти. В компании разрабатывается программный комплекс для детектирования дефектов на основе экспертных правил. Использование методов машинного обучения может повысить качество детектирования дефектов.
Практическая значимость работы заключается в том, что предложенные методы детектирования дефектов позволят повысить качество процесса интерпретации данных ВТД и могут быть внедрены в разрабатываемый программный комплекс.
Постановка задачи.
Цель работы.
Цель данной работы — разработка методов и инструментов искусственного интеллекта для эффективного обнаружения дефектов в рамках внутритрубной диагностики.
Задачи работы.
Для достижения цели были поставлены следующие задачи:
• провести обзор и анализ подходов и методов машинного обучения для детектирования аномалий и дефектов;
• сбор и предобработка данных внутритрубной диагностики для обучения и оценки качества моделей;
• реализация методов интеллектуального анализа для обнаружения дефектов;
• тестирование и оценку качества разработанных алгоритмов на данных ВТД;
• экспертный анализ полученных результатов и рекомендации по улучшению качества моделей.
Обзор литературы
В настоящее время существует огромное количество алгоритмов для детектирования аномалий во временных рядах. Эти алгоритмы также могут быть применены и в задаче детектирования дефектов, так как данные ВТД являются набором временных рядов. В обзорной статье [4] методы детектирования аномалий разделяют на три класса: статистические методы, методы на основе классического обучения и подходы с использованием нейронных сетей.
Авторы статьи отнесли к статистическим методам обнаружения аномалий во временных рядах такие подходы, как ARIMA [5], Exponential Smoothing [6], Prediction Confidence Interval [7] и т.д. Эти методы основаны на предположении, что дефектом является статистическое отклонение во временном ряду. Для обнаружения дефектов они используют информацию о статистическом распределении значений и отклонений между ними.
В задаче детектирования аномалий временных рядов применяются следующие методы классического машинного обучения.
• Алгоритм k-means [8] предполагается использовать для кластеризации подпоследовательностей временного ряда. Таким образом, аномалии будут выделены в отдельный кластер или будут являться объектами, находящимися дальше всего от центроиды кластера.
• DBSCAN [9, 10] метод основан на иерархической кластеризации, он также работает с отрезками временного ряда и разделяет их на три категории: основные объекты, граничные объекты и аномалии.
• Алгоритм Isolation Forest [11] основан на предположении, что аномалии будут изолированными (удаленными) точками в данных. Он представляет собой ансамбль деревьев изоляции, которые отсекают наиболее изолированные объекты в начале. Этот подход также требует использования подпоследовательностей временного ряда в качестве входных объектов.
• Для детектирования аномалий с помощью SVM [12] используется его модификация OC-SVM [13], которая на вход принимает отрезки временного ряда с нормальными данным (без аномалий). В ходе обучения происходит выявление опорных объектов. При использовании OC-SVM определяет объект либо как нормальный, либо как аномалию.
• XGboost [14] выступает предиктором временного ряда без аномалий. Аномалия во временном ряду вызывает сильное отклонение предсказанного значения XGboost от реального. То есть аномалия детектируется на основе ошибки предсказания модели.
Кроме методов, описанных ранее, можно использовать методы бинарной классификации, так как задачу детектирования можно свести к задаче классификации при наличии разметки временного ряда на нормальные и аномальные значения.
Обзор методов глубокого обучения стоит начать с фундаментальной нейронной сети — многослойного перцептрона (Multiple Layer Perceptron, MLP) [15]. Он может применяться для предсказания временных рядов [16], поэтому детектирование аномалий временного ряда происходит на основе ошибки предсказания MLP. Также для решения задачи детектирования аномалий могут быть использованы сверточные нейронные сети (convolutional neural networks CNNs). В области компьютерного зрения они решают задачи классификации [17], сегментации [18] и детекции [19]. В отличие от работы с изображениями, в задаче детекции аномалий используются одномерные сверточные сети. Одномерные сверточные сети также предсказывают следующие значения ряда, и аномалия детектируется на основе ошибки предсказания [20]. Кроме обычных CNNs могут использоваться различные модификации, например, Residual Neural Network (Resnet) [21], которая решает проблему исчезающих градиентов CNN. В 2016 году была разработана сеть wavenet [22], которая использовалась для генерации звуковых волн. Это также CNN сеть, но с нерегулярными, а расширенными слоями свертки. Это позволяет ей рассматривать не только локальные паттерны как CNN, но и обобщать более длинные последовательности. Далее рассмотрим рекуррентные нейронные сети на примере Long Short Term Memory
(LSTM) [23, 24] network и Gated recurrent unit (GRU) [25, 26]. Архитектуры этих сетей изначально проектировались для предсказания временных рядов, поэтому можно использовать ошибку предсказания для детектирования аномалии. Кроме этого способа сети позволяют предсказывать не одно, а несколько значений временного ряда, в этом случае используется метод правдоподобия для определения аномалии относительно предсказанной части временного ряда. Один из методов детектирования аномалии — это понижение размерности данных — создание проекции данных в пространстве меньшей размерности. В глубоком обучении для этого используются Autoencoders —сети, состоящие из энкодера и декодера. Autoencoders уже использовались для детекции аномалий на изображениях [27, 28]. В статье [29] их использовали для детекции аномалий временных рядов. Autoencoder был обучен кодировать участки временного ряда без аномалий в самих себя. Для детекции производилось сравнение между собой векторов в скрытом пространстве (результатов работы энкодера), так как аномалии приводили к сильным отклонениям в скрытом пространстве модели.
Для детектирования дефектов на поверхностях объектов часто используются методы на основе компьютерного зрения. В статье [30] проводилось построение сверточной сети для определения дефектов (загрязнений, царапин, заусенцев и следов износа на поверхностных деталях продукта). Авторы проводят ряд экспериментов, в которых демонстрируют качество работы предложенного решения. Авторы статьи [31] используют Faster- RCNN для определения дефектов нанесения химического волокна на высокоскоростных прядильных и намоточных машинах. По словам авторов, полученный алгоритм имеет лучшие результаты относительно используемых подходов в данный момент, точность в экспериментах достигала 98%. В статье [32] рассматривается задача поиска дефектов на изображениях керамической трубки с помощью гибридной модели SVM-QPSO, эксперименты проводились на выборке, включающей в себя 500 изображений с дефектами.
В работе [33] авторы решают задачу обнаружения дефектов на поверхности дороги.
Результаты работы
В рамках проделанной работы были выполнены следующие задачи:
• проведен обзор и анализ подходов и методов машинного обучения для детектирования аномалий и дефектов;
• собраны и предобработаны данных внутритрубной диагностики для обучения и оценки качества моделей, написан парсер для расшифровки бинарных файлов, а также проведена аугментация и балансировка датасетов;
• реализованы методы с использованием нейронных сетей и алгоритмов машинного обучения для обнаружения дефектов;
• проведено тестирование и оценка качества разработанных алгоритмов в процессе кроссвалидации на подготовленной выборке;
• полученные результаты проанализированы и сформированы рекомендации по улучшению разработанных подходов в будущем;
• полученное решение интегрировано в программный комплекс для информатизации процесса внутритрубной диагностики;
• получено свидетельство о государственной регистрации программы для ЭВМ [50].
Перспективы развития
На основании проведенных экспериментов для улучшения качества детекции дефектов следует предпринять следующие шаги:
• предложить решение, позволяющее определять состояние магнитограммы;
• исключить из выборки некорректные магнитограммы;
• обогатить выборку хорошими магнитограммами;
• перепроверить текущую разметку магнитограмм с помощью экспертов;
• расширить признаковое описание дефектов на основе работы CNN сетей.
• усложнить архитектуру используемых сетей CNN и добавить Batch Normalization слои;
• рассмотреть возможность использования autoencoders в данной задаче.
[1] Алексеев, А. Точки инновационного роста /А. Алексеев // «Сибирская нефть». — 2019. — №161. — С. 46-52.
[2] Статья ТАСС «Ачимовка — нефть будущего»: сайт. — URL:
https://spec.tass.ru/achimovka/ (дата обращения: 05.05.2022). — Текст: электронный.
[3] Шалай, В.В. Анализ технического состояния объектов линейной част магистральных Нефтепроводов, определение оптимальных способов поддержания объектов линейной части в нормативном состоянии / В.В. Шалай, М.М. Васильев, К.А. Шумаков // «Омский научный вестник»— Омск, 2004. —С. 196-199.
[4] Braei, Mohammad & Wagner, Sebastian. Anomaly Detection in Univariate Time-series: A Survey on the State-of-the-Art. 2020.
[5] A. H. Yaacob, I. K. T. Tan, S. F. Chien and H. K. Tan, "ARIMA Based Network Anomaly Detection,"2010 Second International Conference on Communication Software and Networks, 2010, pp. 205-209.
[6] Jasek, R., Szmit, A., Szmit, M. (2013). Usage of Modern ExponentialSmoothing Models in Network Traffic Modelling. In: Zelinka, I., Chen, G., Rossler, O., Snasel, V., Abraham, A. (eds) Nostradamus 2013: Prediction, Modeling and Analysis of Complex Systems. Advances in Intelligent Systems and Computing, vol 210. Springer, Heidelberg.
[7] Yufeng Yu, Yuelong Zhu, Shihua Li, and Dingsheng Wan. Time series outlier detection based on sliding window prediction. In Mathematical Problems in Engineering, 2014.
[8] J. MacQueen. Some Methods for Classification and Analysis of Multivariate Observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, Volume 1: Statistics, pages 281297, Berkeley, Calif., 1967. University of California Press.
[9] Martin Ester, Hans-Peter Kriegel, Jorg Sander, and Xiaowei Xu. A densitybased algorithm for discovering clusters a density-based algorithm for discovering clusters in large spatial databases with noise. In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, KDD’96, pages 226-231. AAAI Press, 1996.
[10] M. Celik, F. Dada^ser-Celik, and A. JS. Dokuz. Anomaly detection in temperature data using dbscan algorithm. In 2011 International Symposium on Innovations in Intelligent Systems and Applications, pages 91-95, 06 2011.
[11] Fei Tony Liu, Kai Ming Ting, and Zhi hua Zhou. Isolation forest. In ICDM ’08: Proceedings of the 2008 Eighth IEEE International Conference on Data Mining. IEEE Computer Society, pages 413-422, 2008.
[12] V.N. Vapnik and A.Ya Chervonenkis. A class of algorithms for pattern recognition learning. Avtomat. i Telemekh.,25:937-945, 1964.
[13] Bernhard Scholkopf, Robert Williamson, Alex Smola, John Shawe- Taylor, and John Platt. Support vector method for novelty detection. In Proceedings of the 12th International Conference on Neural Information Processing Systems, NIPS’99, pages 582-588, Cambridge, MA, USA, 1999. MIT Press.
[14] Tianqi Chen and Carlos Guestrin. Xgboost: A scalable tree boosting system. CoRR, abs/1603.02754, 2016.
[15] Trevor Hastie, Robert Tibshirani, and Jerome Friedman. The Elements of Statistical Learning: Data Mining, Inference and Prediction. Springer, 2 edition, 2009.
[16] R.J. Hyndman and G. Athanasopoulos. Forecasting: Principles and Practice. OTexts, 2014.
... Всего источников –50.