Тема: Исследование и реализация гибридного алгоритма прогнозирования временных рядов
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Введение 4
Глава 1 Постановка задачи исследования алгоритма 6
Глава 2 Обзор методов прогнозирования временных рядов 11
Глава 3 Методология исследования 23
Глава 4 Экспериментальная оценка 33
Заключение 39
Список используемой литературы 43
Приложение А Листинг (реализация программы) 46
📖 Введение
Предложенный метод включает разделение временного ряда на тренд, сезонную компоненту и остатки с помощью метода STL, прогнозирование каждой компоненты отдельно и последующее объединение результатов.
Для тренда и сезонности применяются методы экспоненциального сглаживания (Holt и Holt-Winters), а для остатков - алгоритмы градиентного бустинга (XGBoost) и машины опорных векторов (SVR) с предварительным извлечением признаков.
Тестирование проводится на наборах данных NN3 и M4, содержащих месячные временные ряды с выраженной сезонностью и трендами.
Оценка качества прогнозов выполняется с использованием метрик sMAPE и MASE.
Объектом исследования являются временные ряды, представленные наборами данных NN3 и M4. Предмет исследования - гибридный алгоритм прогнозирования, объединяющий декомпозицию, статистические методы и машинное обучение.
Цель работы - разработка, реализация и тестирование гибридного алгоритма прогнозирования временных рядов, а также сравнение его эффективности с традиционными методами.
Для достижения цели необходимо решить следующие задачи:
- сформулировать постановку задачи исследования и
проанализировать методы прогнозирования временных рядов;
- изучить и проанализировать алгоритмы прогнозирования, включая статистические и комбинированные подходы;
- разработать и протестировать программу, реализующую предложенный алгоритм.
Методы исследования включают декомпозицию временных рядов, экспоненциальное сглаживание, алгоритмы машинного обучения, а также оценку качества с использованием метрик sMAPE и MASE. Реализация выполняется с применением языков программирования высокого уровня.
Практическая значимость работы заключается в создании программного обеспечения, которое позволяет эффективно прогнозировать временные ряды с учётом их сложной структуры, что может быть использовано в экономике, логистике и других областях.
Работа состоит из введения, трёх глав, заключения и списка литературы.
Первая глава посвящена постановке задачи и анализу методов прогнозирования.
Вторая глава включает обзор и анализ алгоритмов.
Третья глава описывает программную реализацию и тестирование алгоритма на наборах данных NN3 и M4.
В заключении представлены основные результаты исследования.
Бакалаврская работа содержит 48 страниц текста, 8 рисунков и 25 источников. В приложении представлены фрагменты кода.
✅ Заключение
Экспериментальная оценка проводилась на наборах данных NN3 и M4, что позволило получить следующие выводы.
Разработанный гибридный подход продемонстрировал высокую эффективность в сравнении с традиционными методами прогнозирования. Основные результаты включают:
- повышенная точность прогнозирования: на подмножестве из 11 рядов набора NN3 предложенная модель достигла значения sMAPE 14.17% и MASE 0.912, превосходя AutoARIMA (sMAPE 18.15%, MASE 0.906) и Holt-Winters (sMAPE 21.22%, MASE 1.495). На полном наборе из 111 рядов модель показала sMAPE 16.28% и MASE 1.300, оставаясь конкурентоспособной по сравнению с AutoARIMA (sMAPE 16.98%, MASE 1.228);
- эффективность декомпозиции: разделение временного ряда на компоненты позволило упростить задачу прогнозирования, обеспечив точное моделирование тренда и сезонности с помощью методов экспоненциального сглаживания. Это подтверждается низким стандартным отклонением ошибок, особенно на рядах с выраженной сезонностью;
- вклад машинного обучения: применение моделей XGBoost и SVR к остаткам после извлечения признаков с использованием библиотеки tsfresh позволило уловить нелинейные зависимости, что улучшило общую точность прогнозов. Сравнение с чистыми моделями машинного обучения (sMAPE 36.11% для XGBoost без декомпозиции) подчёркивает важность предварительной обработки данных;
- конкурентоспособность на больших наборах данных: на
подмножестве из 48 000 рядов набора M4 предложенная модель заняла третье место по метрике OWA (0.883), уступив AutoARIMA (0.789) и ETS (0.852), но опередив Holt-Winters (0.947). Это свидетельствует о масштабируемости подхода для обработки сложных данных.
Полученные результаты отвечают на сформулированные задачи исследования:
Гибридный подход превосходит традиционные статистические методы в задачах долгосрочного прогнозирования, особенно для рядов с выраженной сезонностью.
Интеграция методов машинного обучения в гибридную модель обеспечивает прирост точности за счёт моделирования остатков, что невозможно при использовании только статистических методов.
Декомпозиционный подход демонстрирует сопоставимую
производительность с другими комбинированными методами, сохраняя простоту реализации и интерпретируемость.
Несмотря на достигнутые результаты, предложенный подход имеет ряд ограничений, которые необходимо учитывать:
- ограниченная длина временных рядов: наборы данных NN3 и M4 содержат относительно короткие ряды (менее 150 наблюдений для NN3), что ограничивает возможности моделей машинного обучения, требующих большого объёма данных для эффективного обучения. Это проявилось в упрощённом прогнозировании остатков, где использовалось повторение последнего предсказания;
- положительные значения данных: оба набора данных включают только положительные значения, что ограничивает применимость модели к рядам с отрицательными значениями. Преобразование Бокса-Кокса дополнительно усиливает это ограничение, требуя корректировки данных перед обработкой;
- фокус на месячных данных: тестирование проводилось
исключительно на месячных временных рядах с сезонным периодом 12 месяцев. Производительность модели на дневных, недельных или годовых данных остаётся неизученной;
- отсутствие доменных знаний: модель не учитывает внешние факторы, такие как экономические события, праздники или другие контекстные переменные, которые могли бы повысить точность прогнозов;
- чувствительность к параметрам декомпозиции: метод STL
предполагает аддитивную структуру ряда после преобразования Бокса-Кокса, что может быть неоптимальным для мультипликативных рядов без соответствующей обработки;
- эти ограничения указывают на необходимость дальнейших исследований для расширения применимости модели и устранения выявленных недостатков.
На основе анализа результатов и ограничений исследования предлагаются следующие направления для дальнейшей работы:
- тестирование на разнообразных наборах данных: проведение экспериментов с временными рядами различной периодичности (дневные, недельные, годовые) позволит оценить универсальность предложенного подхода. Исследование рядов с отрицательными значениями или мультипликативной структурой также расширит область применения модели ;
- интеграция доменных признаков: включение внешних факторов, таких как календарные события, экономические показатели или отраслевые характеристики, может улучшить точность прогнозов, особенно для рядов с высокой зависимостью от контекста;
- динамическая настройка параметров: разработка алгоритмов для автоматической адаптации параметров декомпозиции STL и моделей машинного обучения (например, длины скользящего окна или гиперпараметров XGBoost) повысит устойчивость модели к различным типам данных;
- усовершенствование прогнозирования остатков: в текущей
реализации прогноз остатков упрощён из-за ограниченной длины рядов. Использование рекуррентных моделей или временных лагов для предсказания остатков на длительных горизонтах может повысить точность;...





