Тема: Исследование методов анализа и прогнозирования одномерных временных рядов
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Основные понятия в анализе временных рядов 9
1.1 Компоненты временного ряда 10
1.2 Виды трендовой компоненты и проверка гипотезы о существовании тренда 13
1.3 Методы выделения тренда 18
1.4 Методы выделения периодической компоненты. Модели сезонных колебаний ...19
2 Методы анализа временных рядов 23
2.1 Корреляционный анализ 23
2.2 Сглаживание и фильтрация 27
2.3 Модель авторегрессии и скользящего среднего 30
2.4 Прогнозирование временных рядов 35
3 Анализ и прогнозирование динамики солнечных вспышек 40
3.1 Описание исходных данных и постановка задачи исследования 40
3.2 Предобработка и анализ исходных данных 41
3.2.1 Визуальная инспекция временного ряда 41
3.2.2 Анализ временного ряда с помощью статистических тестов 43
3.2.3 Выявление существенных периодических зависимостей 47
3.3 Предсказание значений ряда и оценка качества полученных моделей 53
3.4 Описание результатов 62
ЗАКЛЮЧЕНИЕ 64
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ
📖 Введение
Существуют две основные цели анализа временных рядов: определение природы ряда и прогнозирование (предсказание будущих значений временного ряда по настоящим и прошлым значениям). Обе эти цели требуют, чтобы модель ряда была идентифицирована и, более или менее, формально описана. Как только модель определена, с ее помощью можно интерпретировать рассматриваемые данные. Затем, не обращая внимания на глубину понимания и справедливость теории, можно экстраполировать ряд на основе найденной модели, т.е. предсказать его будущие значения.
Несмотря на почти повсеместное использование в деловой индустрии и социальных науках, анализ временных рядов и, как следствие, прогнозирование временных рядов является одним из наименее понятных методов машинного обучения, которые применяются учеными и инженерами, занимающимися анализом больших данных и разработкой алгоритмов машинного обучения.
Первым шагом при анализе временного ряда для разработки прогностической модели является выявление и понимание закономерностей, лежащих в основе данных с течением времени. Эти основные закономерности обычно классифицируются как следующие четыре компонента: общий тренд, сезонные колебания, циклическая составляющая и шум.
При принятии решения о выборе метода прогнозирования необходимо провести анализ ряда: определить его характер, построить предположения о данных, определить факторы, влияющие на тенденцию и т.д.
Существуют как простые, так и сложные методы прогнозирования временных рядов. К простым методам можно отнести наивный прогноз - когда прогнозируемое значение равнозначно значению последнего наблюдения; Сезонный наивный метод, похожий на наивный прогноз за исключением того, что прогнозируемое значение является последним наблюдаемым значением из того же сезона временного период; среднестатистический метод - все прогнозы равны среднему значению всех исторических данных.
Можно разрабатывать линейные, полиномиальные и экспоненциальные регрессионные модели прогнозирования временных рядов, создавая переменную индекса времени от первого наблюдения до последнего. В результате получается модель тренда, а не сезонности. Это полезный метод, если в основе лежит предположение о том, что данный тренд является подходящим и актуальным для рассматриваемого временного периода. Если модель действительно нуждается в учете сезонности, это также можно сделать с помощью линейной регрессии.
В отличие от регрессионных моделей, основанных на предположениях о структуре тренда или шума, методы сглаживания временных рядов предназначены для адаптации к изменениям данных во времени. Сглаживание уменьшает шум за счет усреднения наблюдений за многократными периодами.
Итак, целью работы является исследование методов анализа и способов прогнозирования временных рядов. Целью анализа временного ряда является изучение его динамики, построение модели, описывающей структуру данных и, наконец, прогноз будущих значений ряда. Крайне важно построение эффективной модели с получением максимально возможной точности.
Для достижения поставленной цели необходимо решить ряд задач:
1) Изучение предметной области;
2) Изучение методов и порядка анализа временных рядов;
3) Исследование методов прогнозирования временных рядов;
4) Визуальный анализ ряда солнечных вспышек, его гистограммы, компонент;
5) Анализ ряда динамики солнечных вспышек на стационарность, нормальность, гомоскедастичность;
6) Выявление существенных периодических зависимостей и их лагов;
7) Удаление из ряда высокочастотных или сезонных колебаний;
8) Построение и оценка качества моделей для прогнозирования будущих значений временного ряда.
Объектом исследования является временной ряд ежемесячного количества солнечных вспышек.
Предмет анализа: методы анализа и прогнозирования временных рядов.
Решение поставленных в работе задач осуществлялось на основе применения общенаучных методов исследования в рамках сравнительного, логического и статистического анализа, а также методов машинного обучения.
В первой части работы рассматриваются основные понятия в анализе временных рядов, а также, приведен краткий обзор методов анализа данных, представленных в виде временных рядов. Во второй части работы описана методика анализа и прогнозирования динамики солнечных вспышек с применением как статистического аппарата, так и методов машинного обучения. В третьей части описана собственная методика построения и оценки качества моделей для прогнозирования будущих значений временного ряда.
Для предсказания будущих значений ряда выбраны модели класса ARIMA (Autoregressive Integrated Moving Average), а также модель глубокого обученияLong ShortTerm Memory Networks (LSTM).
Часть работы выполнена при финансовой поддержке РНФ в рамках научного проекта № 19-71-00049.
✅ Заключение
В то время как прогнозирование временных рядов является формой прогностического моделирования, анализ временных рядов является формой описательного моделирования.
Первым шагом при анализе временного ряда для разработки прогностической модели является выявление и понимание закономерностей, лежащих в основе данных с течением времени. Эти основные закономерности обычно классифицируются как следующие четыре компонента: общий тренд, сезонность, циклические колебания и случайная составляющая (ошибка или шум).
Не существует «автоматического» способа обнаружения тренда в временном ряде. Однако если тренд является монотонным (устойчиво возрастает или устойчиво убывает), то анализировать такой ряд обычно нетрудно. Если временные ряды содержат значительную ошибку, то первым шагом выделения тренда является сглаживание. Сглаживание всегда включает некоторый способ локального усреднения данных, при котором несистематические компоненты взаимно погашают друг друга.
Сезонные составляющие временного ряда могут быть найдены с помощью коррелограммы. Коррелограмма (автокоррелограмма) показывает численно и графически автокорреляционную функцию (ЛКФ), иными словами, коэффициенты автокорреляции (и их стандартные ошибки) для последовательности лагов из определенного диапазона.
Другой полезный метод исследования периодичности состоит в исследовании частной автокорреляционной функции (ЧАКФ), представляющей собой углубление понятия обычной автокорреляционной функции. В ЧАКФ устраняется зависимость между промежуточными наблюдениями (наблюдениями внутри лага). Другими словами, частная автокорреляция на данном лаге аналогична обычной автокорреляции, за исключением того, что при вычислении из нее удаляется влияние автокорреляций с меньшими лагами
На основании предыдущих значений временных рядов можно спрогнозировать тенденции в экономике и погоде или спланировать пропускную способность. Ввиду особенных свойств данных временных рядов для работы с ними применяются специализированные статистические методы и подходы. ARIMA - очень популярная техника для моделирования временных рядов. Она описывает корреляцию между точками данных и учитывает разницу значений. Улучшение по сравнению с ARIMA - это SARIMA (или сезонная ARIMA).
Существует также несколько типов моделей машинного обучения, которые можно использовать для прогнозирования временных рядов. В рамках данной работы рассматривается архитектура рекуррентных нейронных сетей Long Short-Term Memory (LSTM), способная к обучению долговременным зависимостям.
В работе представлен обзор методов, используемых для идентификации моделей временных рядов (таких как сглаживание, подгонка и автокорреляции). Затем описан общий класс моделей, которые могут быть использованы для описания рядов и построения прогнозов (модели авторегрессии и скользящего среднего), а также алгоритм машинного (глубокого) обучения.
В работе также изучена динамика ряда солнечных вспышек, построена модель, описывающая структуру данных и прогноз будущих значений ряда.
Сравнительный анализ двух алгоритмов на основе моделей LSTM и ARIMA определил превосходство модели LSTM.
Модель ARIMA на валидационной выборке не смогла предсказать тенденцию исследуемого ряда. Модели SARIMA удалось хорошо предсказать солнечный цикл (10 лет), второй предсказанный цикл в некоторых случаях выглядит как повторение первого. Средняя погрешность низкая. Модель не может хорошо предопределить зубчатый тренд, который, однако, восстанавливается на этапе обучения, возможно, что оптимизация параметров улучшила бы прогнозирование
Средняя абсолютная ошибка прогнозов, сделанных моделью LSTM, на валидационной выборке по сравнению с фактическими составляет 14,9258. Это значит, что для всех единиц модель предсказала на почти 15 вспышек больше или меньше фактического значения. Коэффициент детерминации равен 0,7652, что говорит о высокой точности предсказанных значений.



