Данные в виде временных рядов встречаются в большом количестве научных отраслей. Наблюдения, меняющиеся во времени, обычно представляются ценным объектом для анализа, классификации, предсказаний и интерпретации [15,16,17,18]. Основной проблемой при сравнении сигналов остается вопрос, как определить сходство и в чем ее измерить. На практике оказывается, что это одно из важнейших значений для последующего анализа данных.
В современных исследованиях используются различные методы для решения этой задачи от простейших метрик до сложных нейронных сетей. Однако, бывают ситуации, в которых простые методы превосходят по качеству оценки специально разработанные под конкретную задачу алгоритмы [14].
Однако для каждой предметной области существуют свои законы и ограничения в интерпретации результатов. Текущая работа проводилась в сфере нефтедобычи. Существующие методы оценки расстояния между временными рядами оказались недостаточно подходящими для анализа, подробнее это рассмотрено в главе 3. На основе этих знаний, родилась гипотеза, что комбинация двух алгоритмов позволит обойти их проблемы и улучшить результат оценки для рядов со схожими ограничениями предметной области.
Цель работы:
• Разработать алгоритм подсчета расстояния между временными рядами на основе DTW и FFT.
Задачи:
1. Изучить существующие методы оценки расстояния.
2. Изучить и применить алгоритмы DTW и FFT.
3. Объединить результаты этих алгоритмов в один.
4. Протестировать полученный метод.
Структура работы:
Во введении рассмотрены современные идеи связанные с оценкой схожести временных рядов. Вся работа разбита на шесть разделов. В первом отражены основные сведения о работе с временными рядами. Во втором рассмотрены временные ряды в нефтяной отрасли - ГИС. В третьем находится обзор некоторых методов оценки схожести. В четвертом описывается подход к реализации нового алгоритма. В пятом - используемые инструменты. В последнем разделе описаны результаты проведенных экспериментов. В заключении находятся основные выводы о проделанной
За время работы были исследованы два алгоритма оценки схожести временных рядов. Были рассмотрены их плюсы и минусы, после чего рассмотрена гипотеза о возможности объединения алгоритмов в один с целью улучшения результатов. На основе различных идей из статей, в которых объединялись другие алгоритмы, был построен алгоритм общего метода.
Эксперименты показали, что алгоритм находится в рабочем состоянии.
Также в ходе работы были изучены инструменты языка Python, позволяющие реализовывать сравнение временных рядов, кластеризацию и визуализацию результатов.
1. Woodford O. J. Least Squares Normalized Cross Correlation //arXiv preprint arXiv:1810.04320. - 2018.
2. Serra J., Arcos J. L. An empirical evaluation of similarity measures for time series classification //Knowledge-Based Systems. - 2014. - Т. 67. - С. 305-314.
3. Lewis B. G., Herbert R. D., Bell R. D. The application of fourier analysis to forecasting the inbound call time series of a call centre //Proceedings of the International Congress on Modeling and Simulation MODSIM03); Townsville, Australia. - 2003. - С. 1281-1286.
4. Kazempour D. et al. Clustering Trend Data Time-Series through Segmentation of FFT-decomposed Signal Constituents //LWDA. - 2019. - С. 127-138.
5. Huo J. Dynamic time warping and FFT: A data preprocessing method for electrical load forecasting //International Journal of Advanced Computer Science and Applications. - 2018. - Т. 2. - №. 9.
6. Senin P. Dynamic time warping algorithm review //Information and Computer Science Department University of Hawaii at Manoa Honolulu, USA. - 2008. - Т. 855. - №. 1-23. - С. 40.
7. Von Luxburg U. A tutorial on spectral clustering //Statistics and computing. -
2007. - Т. 17. - №. 4. - С. 395-416.
8. Sheng J. et al. Fine Characterization of Sand Body in the Front of the Fluvial Delta: Taking the VII Oil Group of N21 Reservoir in Gasikule Oilfield as an Example //Geofluids. - 2021. - Т. 2021.
9. Delta Formation in a Stream Table // Emriver, Inc.; [youtube канал]. - URL:
https: //www.youtube. com/watch?v=mzoPBKT t64Q (дата обращения:
11.05.2022). - Формат изобр.: MP4.
10. Aghabozorgi S., Shirkhorshidi A. S., Wah T. Y. Time-series clustering-a decade review //Information Systems. - 2015. - Т. 53. - С. 16-38.
11. Giorgino T. Computing and visualizing dynamic time warping alignments in R: the dtw package //Journal of statistical Software. - 2009. - Т. 31. - С. 1-24.
12. Барабошкин Е. Ю. Практическая седиментология. Терригенные резервуары. - 2011.
13. Marteau P. F. Time warp edit distance with stiffness adjustment for time series matching //IEEE transactions on pattern analysis and machine intelligence. -
2008. - Т. 31. - №. 2. - С. 306-318.
14. Xi X. et al. Fast time series classification using numerosity reduction //Proceedings of the 23rd international conference on Machine learning. - 2006. - С. 1033-1040.
15. Fu T. A review on time series data mining //Engineering applications of artificial intelligence. - 2011. - Т. 24. - №. 1. - С. 164-181
...19