Прогнозирование временных рядов является одной из важнейших задач в различных научных и практических областях, таких как экономика и финансы, геология, метеорология, экология, здравоохранение, производство и многие другие. Они используются для отслеживания изменений погоды, дорожного трафика, уровня рождаемости и смертности, колебаний на рынке, производительности сети и многих других областей. [1]
Временной ряд представляет собой последовательность значений некоторой переменной (или переменных), упорядоченных по времени и регистрируемых через некоторые временные интервалы (регулярные или нерегулярные). Это позволяет отслеживать изменения различных параметров с течением времени. Обычно предполагается, что временные ряды генерируются через определенные промежутки времени, такие ряды называются регулярными. Нерегулярные временные ряды поступают в неопределенные моменты времени, в таком случае большинство временных меток не могут характеризоваться повторяющимся шаблоном. [1]
Технически временной ряд состоит из одной или нескольких переменных, которые меняются в течение определенного периода времени. Если только одна переменная меняется с течением времени, то это называется одномерным временным рядом. Например, датчик, измеряющий температуру в помещении каждую секунду, создает одномерный временной ряд, где каждый момент времени имеет только одно значение температуры.
Многомерные временные ряды представляют собой наборы данных, состоящие из нескольких переменных, которые изменяются во времени и взаимосвязаны друг с другом. Методы прогнозирования многомерных временных рядов по своей сути предполагают взаимозависимость между переменными. Иными словами, каждая переменная зависит не только от своих исторических значений, но и от других переменных. Например, температурные показатели в городе подчиняются сезонным закономерностям, и кроме того, температуры в соседних городах также должны проявлять аналогичную сезонность; при прогнозирование курса акций можно учитывать не только историю курсов за предыдущий период, но и значения других переменных, таких как курсы валют, которые представляют собой отдельные временные ряды. [2]
Анализ временных рядов - процесс применения методов статистики и машинного обучения для выявления закономерностей в структуре временных рядов и предсказания будущего поведения описываемых этими рядами систем на основе ее предыдущих значений. В частности, к распространенным задачам анализа относятся:
• прогнозирование, т.е. предсказание будущих значений временного ряда;
• выявление аномалий или структурных изменений, вызванных в изучаемой системе влиянием внутренних или внешних факторов (например, всплески уровней продаж, обусловленные рекламными кампаниями; кратковременные неисправности в технических системах; изменения в экономических показателях, связанные с политическим событиями в стране; и т.п.);
• кластеризация, т.е. нахождение групп временных рядов, похожих по своим свойствам.
Прогнозирование временных рядов является важным инструментом для принятия решений и планирования в различных сферах деятельности. Правильные и точные прогнозы позволяют организациям эффективно управлять ресурсами, минимизировать риски и принимать обоснованные стратегические решения. [2]
Несмотря на значительный прогресс в этой области, прогнозирование временных рядов остается сложной задачей из-за их высокой степени неопределенности, изменчивости и сложной внутренней структуры. В последние годы интерес к применению методов машинного обучения и глубокого обучения для прогнозирования временных рядов значительно вырос. Эти методы позволяют учитывать сложные зависимости в данных и автоматически извлекать характеристики, что делает их более гибкими и мощными по сравнению с традиционными статистическими подходами.
В данной работе рассматриваются вопросы предсказания скорости дорожного трафика и показателей производительности в микросервисных архитектурах. Для обеих задач взаимосвязь между элементами сети имеет большое значение для точного прогнозирования. Модели, которые позволяют строить прогноз на основе как временных, так и пространственных данных являются идеальным выбором для прогнозирования показателей. Данный класс методов предсказывает будущие значения переменных на основе их положения и взаимосвязи друг с другом. Он состоит из компонентов, которые изучают пространственные и временные зависимости, таких как графовые нейронные сети (GNN) для пространственных связей и рекуррентные нейронные сети (RNN) для временных корреляций.
Прогнозирование дорожного движения - это процесс анализа условий движения на городских дорогах, включая поток, скорость и плотность трафика, поиск закономерностей движения и прогнозирование тенденций движения на дорогах. Прогнозирование движения может не только обеспечить научную основу для управления дорожным движением, чтобы определять пробки на дорогах и заранее ограничивать движение транспортных средств, но и обеспечить безопасность для автомобилистов, чтобы выбрать подходящие маршруты и повысить эффективность поездок. Точное прогнозирование трафика в реальном времени представляет собой большую проблему из-за сложных пространственно-временных зависимостей. Временная зависимость означает, что состояние трафика изменяется с течением времени, что проявляется в виде периодичности и тенденций. Пространственная зависимость подразумевает, что изменения в состоянии трафика зависят от структурной топологии дорожных сетей, что проявляется в передаче состояния трафика с одних участков на другие. [3, 4]
Микросервисная архитектура используется для различных программных решений, которые могут быть реализованы с использованием различных технологий или языков программирования. Однако, в отличие от монолитного приложения, необходимо обрабатывать взаимодействие между сервисами, которые развертываются независимо друг от друга. Это может привести к задержкам, несогласованности данных и сетевым ошибкам. В свою очередь, сбои могут угрожать надежности системы из-за размытой ответственности за сбой в системе, что создает проблемы с мониторингом и обслуживанием системы. Основные трудности, связанные с мониторингом производительности микросервисов, включают в себя выявление первопричины системных сбоев [5, 6, 7] обнаружение аномалий [8, 9, 10] и прогнозирование производительности [11, 12].
Производительность обычно измеряется с помощью ряда показателей (пропускная способность, время отклика, частота ошибок, использование ресурсов и т.д.), которые указывают на различные потенциальные проблемы. Например, пропускная способность относится к числу запросов, обработанных микросервисом за определенный промежуток времени (обычно это количество запросов в секунду). Этот параметр указывает на способность системы справляться с определенной нагрузкой и важен для определения общей эффективности системы. Показатели использования ресурсов, такие как загрузка процессора, памяти и пропускная способность сети, дают представление о том, насколько эффективно микросервис использует ресурсы, и помогают оптимизировать распределение ресурсов. Мониторинг частоты ошибок помогает выявлять проблемы, влияющие на надежность сервиса и удобство работы пользователей.
Динамическое поведение микросервисов, с их распределенной и взаимосвязанной природой, делает традиционные подходы к мониторингу недостаточными для понимания тонкостей этих систем. Прогнозирование показателей производительности и распространения сбоев, обнаружение аномалий и локализация их первопричин требуют более сложных методологий, которые могут адаптироваться к постоянно меняющейся природе архитектуры микросервисов.
В настоящее время предсказание временных рядов с учетом как временной, так и пространственной зависимости в различных областях применения приобретает все больший масштаб. В данной работе рассмотрены задачи анализа и прогнозирования скорости дорожного движения и метрик в микросер- висной архитектуре. Подобная задача может возникать в сферах финансов, медицины, науки и других.
В ходе работы были исследованы различные нейросетевые архитектуры, которые позволяют учитывать временные зависимости с использованием реккурентных нейронных сетей, в частности, наибольшее распространение получила сеть GRU в связи с упрощенной архитектурой и более быстрым обучением; и пространственные зависимости с использованием подходов, основанных на графовых нейросетях. Основанием для выбора такого подхода послужила постановка задачи, в которой учет пространственной структуры необходим для получения более точного прогноза. В качестве моделей для учета пространственной структуры рассматривались модели T-GCN, A3T- GCN, STGCT, DCRNN.
Помимо моделей, учитывающих сложные пространственные зависимости, были рассмотрены модели, которые учитывают только временные зависимости для сравнения качества результатов. К перечню данных методов относятся HA, SVR, LSTM, GRU.
При проведении экспериментальной части использовались данные о скоростях дорожного движения в Лос-Анджелесе и Сеуле. В обоих случаях при прогнозировании с горизонтом 15 и 30 минут в будущее, лучшие результаты продемонстрировала модель DCRNN, при прогнозировании на больший горизонт в 60 минут лучшие результаты прогнозирования скорости получились с использованием модели STGCN. Результаты показателей качества приведены в Таблицах 1 и 2, соответственно.
Эксперименты на наборе данных с микросервисной архитектурой включают в себя исследование прогнозирования двух метрик сервисов: количество запросов к сервису в секунду и время ответа сервиса. Кроме того, для этого набора данных были рассмотрены несколько частных случаев: как повлияет неточный граф причинно-следственной связи на качество моделей и их предсказательную способность; как модели, обученные на нормальных данных без выбросов, смогут выявлять выбросы в тестовых данных.
При работе с показателем количества запросов в секунду были получены следующие результаты. Во-первых, модели, обученные на восстановленном графе с неточностями в пространственной структуре сети, дают точность прогноза незначительно меньше по сравнению с моделями, обученными на точном графе. Этот вывод означает, что при изменении архитектуры или возникновении ошибки в исходном графе смежности, модели все равно будут демонстрировать хорошую предсказательную способность. Во-вторых, лучшей моделю на этом типе данных оказалась модель DCRNN во всех сценариях, как с истинной архитектурой, так и с восстановленной, превосходя остальные подходы. В-третьих, при тестировании на данных с введенной ошибкой во временные данные различных сервисов ситуация остается аналогичной. Все модели улавливают тенденции и изменения количества запросов в секунду даже с введенной ошибкой, но наиболее точный результат демонстрирует модель DCRNN.
Эксперимент на данных по времени ответа от сервиса демонстрирует следующие результаты. Во-первых, неточность в пространственной информации матрицы смежности в очередной раз дает незначительное снижение точности прогноза моделей в общем случае, что вновь подтверждает вывод о том, что небольшие ошибки в пространственных данных не оказывают сильного негативного влияния. Во-вторых, наилучшими моделями для этого типа данных оказались SVR и DCRNN, причем однозначно выделить лучшую из них сложно. В-третьих, тестирование на данных с аномалиями во временных данных демонстрирует аналогичную ситуацию, для всех случаев лучшие результаты демонстрируют модели SVR и DCRNN. Стоит выделить тот факт, что модель Support Vector Regression хорошо подходит для данных, в которых пространственных узлов (т.е. общее количество временных рядов) невелико, потому что при большом количестве узлов и временных данных в этих узлах скорость обучения становится значительно ниже, чем у модели DCRNN.
Таким образом, подводя итог к экспериментальной части на данных микросервисной архитектуры, можно сделать вывод, что среди рассмотренных моделей наиболее точный и стабильный результат демонстрирует именно модель DCRNN, которая во всех проведенных экспериментах показала одни из лучших результатов.
В дальнейшем планируется использовать лучшие из исследованных модели для применения к большим наборам данных и расширить задачу по обнаружению аномалий, путем добавления этапов классификации аномалий и исследования их первопричины. Кроме того, планируется рассмотреть модели на основе трансформеров, которые сейчас получили сильный скачок в развитии и применяются в различных приложениях, в частности, для предсказания временных рядов [50]. Дополнительно, не так давно вышла новая архитектрура xLSTM [51], которая является значительным улучшением стандартной LSTM. Данное улучшение уже сейчас может конкурировать с трансформерами по масштабируемости и качеству моделей. Таким образом, замена реккурентных слоев, которые используются в текущих реализациях моделей на xLSTM, вероятно, может значительно улучшить качество этих моделей.
[1] D. C. Montgomery, C. L. Jennings, M. Kulahci, «Introduction to time series analysis and forecasting». Second Edition, 2015.
[2] Hamilton, J.D., «Time Series Analysis». Princeton University Press, 1994.
[3] «L. Gao, X. Liu, Y. Liu, P. Wang, M. Deng, Q. Zhu, H. Li, «Measuring road network topology vulnerability by ricci curvature », Physica A: Statistical Mechanics and its Applications, 527:121071, 2019.
[4] Y. Jian, B. Fan, «Synthesis of short-term traffic flow forecasting research progress», Urban Transport of China, 2012.
[5] P. Chen, Y. Qi, P. Zheng., D. Hou, «CauseInfer: Automatic and distributed performance diagnosis with hierarchical causality graph in large distributed systems», IEEE INFOCOM 2014 - IEEE Conference on Computer Communications. pp. 1887-1895. IEEE, Toronto, ON, Canada, 2014.
[6] J. Soldani, A. Brogi, «Anomaly Detection and Failure Root Cause Analysis in (Micro)Service-Based Cloud Applications: A Survey», 2021.
[7] P. Wang, J. Xu, M. Ma, W. Lin, D. Pan, Y. Wang, P. Chen «CloudRanger: Root Cause Identification for Cloud Native Systems », 2018 18th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID). pp. 492-502. IEEE, Washington, DC, USA, 2018.
[8] Y. Chang, P. Li, R. Sosic, M. H. Afifi, M. Schweighauser, J. Leskovec «F- FADE: Frequency Factorization for Anomaly Detection in Edge Streams», Proceedings of the 14th ACM International Conference on Web Search and Data Mining. pp. 589-597. ACM, Virtual Event Israel, 2021.
[9] N. Jing, H. Li, Z. Zhao, «A microservice fault identification method based on LightGBM», 2022 IEEE 8th International Conference on Cloud Computing and Intelligent Systems (CCIS). pp. 709-713, 2022.
[10] P. Liu, H. Xu, Q. Ouyang, R. Jiao, Z. Chen, S. Zhang, J. Yang, L. Mo,
J. Zeng, W. Xue, D. Pei, «Unsupervised Detection of Microservice Trace Anomalies through Service-Level Deep Bayesian Networks», 2020 IEEE 31st International Symposium on Software Reliability Engineering (ISSRE). pp. 48-58. IEEE, Coimbra, Portugal, 2020.
[11] H. Liu, W. Zhang, X. Zhang, Z. Cao, R. Tian, «Context-Aware and QoS Prediction-based Cross-Domain Microservice Instance Discovery», 2022 IEEE 13th International Conference on Software Engineering and Service Science (ICSESS). pp. 30-34, 2022.
[12] Y. Yang, Y. Jiang, «Microservice Indicator Prediction Method Based on STE and CNN-BiLSTM », 2023 IEEE 9th International Conference on Cloud Computing and Intelligent Systems (CCIS). pp. 511-515, 2023.
[13] X. Y. Xu, J. Liu, H. Y. Li, J. Q. Hu, «Analysis of subway stationcapacity with the use of queueing theory», Transportation Research Part C Emerging Technologies, vol. 38, no. 1, pp. 28-43, 2014.
[14] P. Wei, Y. Cao, D. Sun, «Total unimodularity and decomposition method for large-scale air traffic cell transmission model», Transportation Research Part B, vol. 53, no. 3, pp. 1-16, 2013.
[15] F. F. Xu, Z. C. He, and Z. R. Sha, «Impacts of traffic managementmeasures on urban network microscopic fundamental diagram», Journal of Transportation Systems Engineering and Information Technology, vol. 13, no. 2, pp. 185-190,
2013.
[16] E. I. Vlahogianni, «Computational Intelligence and Optimization for Transportation Big Data: Challenges and Opportunitie», Springer International Publishing, pp. 107-128, 2015.
[17] Z. Shan, D. Zhao, Y. Xia, «Urban road traffic speed estimation for missing probe vehicle data based on multiple linear regression model», 16th International IEEE Conference on Intelligent Transportation Systems, pp. 118-123, 2013.
[18] J. Liu and W. Guan, «A summary of traffic flow forecasting methods», Journal of Highway Transportation Research Development, 2004.
[19] G. Box, G.M. Jenkins, G. C. Reinsel, G. M. Ljung, «Time Series Analysis: Forecasting and Control». Fifth Edition, 2016.
[20] M. V. D. Voort, M. Dougherty, S. Watson, «Combining kohonen maps with arima time series models to forecast traffic flow»,Transportation Research Part C Emerging Technologies, vol. 4, no. 5, pp. 307-318, 1996.
... Всего источников –51.