СРАВНИТЕЛЬНЫЙ АНАЛИЗ НЕСКОЛЬКИХ ПОДХОДОВ К РЕШЕНИЮ ЗАДАЧИ ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ НА ПРИМЕРЕ АНАЛИЗА ИНТЕНСИВНОСТИ ИНТЕРНЕТ-ТРАФИКА
|
АННОТАЦИЯ 5
ВВЕДЕНИЕ 8
1 ИСПОЛЬЗОВАНИЕ МЕТОДОВ АНАЛИЗА ВРЕМЕННЫХ РЯДОВ ДЛЯ
ПРОГНОЗИРОВАНИЯ ИНТЕНСИВНОСТИ СЕТЕВОГО ТРАФИКА 12
1.1 Особенности прогнозирования интенсивности сетевого трафика 12
1.2 Описание общих тенденций сетевого трафика в области
телекоммуникационных сетей 13
1.3 Методы анализа временных рядов для прогнозирования интенсивности
сетевого трафика 16
2 ОПИСАНИЕ КЛЮЧЕВЫХ ОСОБЕННОСТЕЙ МЕТОДОВ
ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ, ИСПОЛЬЗУЕМЫХ ДЛЯ АНАЛИЗА СЕТЕВОГО ТРАФИКА 18
2.1 Авторегрессионные модели 21
2.2 Метод скользящего среднего 22
2.3 Модель авторегрессии - проинтегрированного скользящего среднего
(ARIMA) 24
2.4 Многофакторные регрессионные модели 28
2.5 Деревья решений 31
2.5.1 Общие принципы работы деревьев решения 31
2.5.2 Применение деревьев решений в задачах прогнозирования
многомерных временных рядов 35
2.6 Анализ рассмотренных подходов 36
3 ОПИСАНИЕ И ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ 39
3.1 Анализ характеристик исходного ряда динамики 39
3.1.1 Сезонность 39
3.1.2 Стационарность 40
3.1.3 Автокорреляция (АКФ) 41
4 ПОСТРОЕНИЕ МОДЕЛЕЙ ПРОГНОЗИРОВАНИЯ 45
4.1 Описание параметров моделей 45
4.1.1 Параметры ARIMA модели 45
4.1.2 Параметры деревьев решения 46
4.1.3 Г енерация признаков для многофакторных моделей 46
4.2 Построение моделей и анализ результатов 46
4.2.1 Применение метода скользящего среднего для первичного анализа
исходного ряда динамики 46
4.2.2 Построение модели ARIMA 48
4.2.3 Построение модели множественной регрессии 51
4.2.4 Построение дерева решений 54
4.3 Проверка адекватности моделей 56
ЗАКЛЮЧЕНИЕ 62
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 65
ПРИЛОЖЕНИЯ
ПРИЛОЖЕНИЕ А 69
ПРИЛОЖЕНИЕ Б 75
ПРИЛОЖЕНИЕ В 78
ВВЕДЕНИЕ 8
1 ИСПОЛЬЗОВАНИЕ МЕТОДОВ АНАЛИЗА ВРЕМЕННЫХ РЯДОВ ДЛЯ
ПРОГНОЗИРОВАНИЯ ИНТЕНСИВНОСТИ СЕТЕВОГО ТРАФИКА 12
1.1 Особенности прогнозирования интенсивности сетевого трафика 12
1.2 Описание общих тенденций сетевого трафика в области
телекоммуникационных сетей 13
1.3 Методы анализа временных рядов для прогнозирования интенсивности
сетевого трафика 16
2 ОПИСАНИЕ КЛЮЧЕВЫХ ОСОБЕННОСТЕЙ МЕТОДОВ
ПРОГНОЗИРОВАНИЯ ВРЕМЕННЫХ РЯДОВ, ИСПОЛЬЗУЕМЫХ ДЛЯ АНАЛИЗА СЕТЕВОГО ТРАФИКА 18
2.1 Авторегрессионные модели 21
2.2 Метод скользящего среднего 22
2.3 Модель авторегрессии - проинтегрированного скользящего среднего
(ARIMA) 24
2.4 Многофакторные регрессионные модели 28
2.5 Деревья решений 31
2.5.1 Общие принципы работы деревьев решения 31
2.5.2 Применение деревьев решений в задачах прогнозирования
многомерных временных рядов 35
2.6 Анализ рассмотренных подходов 36
3 ОПИСАНИЕ И ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ 39
3.1 Анализ характеристик исходного ряда динамики 39
3.1.1 Сезонность 39
3.1.2 Стационарность 40
3.1.3 Автокорреляция (АКФ) 41
4 ПОСТРОЕНИЕ МОДЕЛЕЙ ПРОГНОЗИРОВАНИЯ 45
4.1 Описание параметров моделей 45
4.1.1 Параметры ARIMA модели 45
4.1.2 Параметры деревьев решения 46
4.1.3 Г енерация признаков для многофакторных моделей 46
4.2 Построение моделей и анализ результатов 46
4.2.1 Применение метода скользящего среднего для первичного анализа
исходного ряда динамики 46
4.2.2 Построение модели ARIMA 48
4.2.3 Построение модели множественной регрессии 51
4.2.4 Построение дерева решений 54
4.3 Проверка адекватности моделей 56
ЗАКЛЮЧЕНИЕ 62
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 65
ПРИЛОЖЕНИЯ
ПРИЛОЖЕНИЕ А 69
ПРИЛОЖЕНИЕ Б 75
ПРИЛОЖЕНИЕ В 78
Системы мониторинга трафика играют ключевую роль в эффективном управлении сетью. Они являются источником информации о работе корпоративных систем, такая информация учитывается при распределении средств, основываясь на ней производится планирование вычислительных мощностей, определение и локализации отказов, решение различных вопросов безопасности.
В настоящее время, для прогнозирования всевозможных параметров телекоммуникационных систем используется большое количество различных методов, в том числе, широкое распространение получили методы, основанные на анализе временных рядов. Существуют работы по данной тематике, основанные на авторегрессионных моделях [1]. В настоящее время появились работы, которые описывают возможность применения моделей Хольта-Винтерса и нейронных сетей [2]. В описанных работах используются временные ряды с интервалами наблюдения от 5 и более минут.
В данной выпускной квалификационной работе будет рассмотрено несколько методов и подходов к анализу и прогнозированию интенсивности сетевого трафика на примере данных по интернет-трафику (в битах) от частного интернет- провайдера с центрами в 11 европейских городах. Данные были собраны с 6:57 часов 7 июня до 11:17 часов 31 июля 2015 года. Данные собирались с пятиминутными интервалами.
Актуальность решения такой задачи обусловлена, так как для поддержания корректной работы сети необходимо как можно быстрее детектировать аномальную активность и предпринимать меры по устранению проблем . В выпускной квалификационной с помощью методов анализа временных рядов проводится исследование, целью которого является проверка эффективности рассматриваемых методов анализа временных рядов для прогнозирования с некоторой допустимой точностью объема использованного трафика в определенный момент времени.
Используя полученные в итоге модели для прогнозирования интенсивности трафика в сети, можно построить прогноз на некоторый период времени в будущем. Если принять прогнозные значения как ожидаемый нормальный уровень интенсивности трафика, то в случае значительного уменьшения объема интенсивности сетевого трафика (когда значение выходит за пределы доверительного интервала), с большой долей вероятности можно говорить о возникновении неполадок в работе сети.
Целью исследования выпускной квалификационной работы является проверка эффективности рассматриваемых методов анализа временных рядов для прогнозирования с некоторой допустимой точностью объема использованного трафика в определенный момент времени.
Достижение поставленной цели потребовало решения следующих задач.
1. Создание и обоснование применения наиболее подходящей модели прогнозирования для данного конкретного случая.
2. Сравнение нескольких моделей прогнозирования между собой, описание их преимуществ и недостатков, применимо к анализу временного ряда интенсивности сетевого трафика.
3. Тестирование наиболее эффективной модели прогнозирования для моделирования изменения сетевого трафика, анализ и структуризация полученных результатов.
Объект исследования - любое предприятие, для работы которого так или иначе требуется взаимодействие с передачей данных, в результате чего появляется возможность отслеживать и анализировать интенсивность входящего сетевого трафика.
Предметом исследования являются подходы к решению задачи прогнозирования временных рядов, на примере проблемы анализа интенсивности сетевого трафика, возникающей у какого-либо предприятия в процессе работы с потоками данных.
Информационная база включает в себя учебники по статистическим методом прогнозирования и анализу временных рядов за авторством (Дубровой Т.А., Афанасьева В.Н., Олифера В.Г., Бокса Д., Дженкинса Г.М. и др.), фундаментальные научные статьи по теме за авторством (Покровской М.А. и Лысяка А.С.).
Итоговые научные результаты исследования получены с использованием методов математического моделирования, сравнительного и функционального анализов, методов обработки и анализа данных. За основу для проведения математического моделирования и анализа данных был взят функционал языка программирования Python, в частности Python-библиотек, ориентированных на выполнение представленных задач (NumPy, Pandas, Statsmodels, SciPy, Sklearn), для визуализации результатов работы использовалась библиотека Matplotlib и Plotly. Дополнительно для проведения анализа данных использовался функционал программы MS Excel.
Работа состоит из четырех глав, введения, заключения, библиографического списка (27 наименований), трёх приложений.
Во введении обосновывается актуальность работы, приводятся цели и задачи работы, указываются объект и предмет исследований, обосновывается информационная база исследований и приводится краткое содержание работы.
В главе 1 описываются особенности прогнозирования временных рядов интенсивности сетевого трафика, проводится обзор существующих методов прогнозирования трафика и приводятся выводы по поводу частоты применимости тех или иных моделей для создания краткосрочных и долгосрочных прогнозов сетевого трафика.
В главе 2 представлены модели, используемые в работе для анализа временного ряда, содержащего данные по интенсивности сетевого трафика. В данной главе описаны особенности каждой модели и представлена необходимая математическая база.
В главе 3 описывается предварительный анализ данных, показано наличие дневной и недельной сезонности в исходном временном ряду, с помощью критерия Дики-Фуллера проведена проверка исходного временного ряда на стационарность, в ходе которой гипотеза о том, что исходный временной ряд стационарен подтвердилась.
В главе 4 проводится создание, описание и сравнение рассматриваемых в работе моделей, делается вывод о точности предсказания для различных прогнозных периодов, после чего, проводится анализ адекватности построенных моделей, основанный на проверке ряда остатков.
В заключении приводятся основные результаты работы, формулируются выводы и рекомендации, описываются направления дальнейших исследований.
В настоящее время, для прогнозирования всевозможных параметров телекоммуникационных систем используется большое количество различных методов, в том числе, широкое распространение получили методы, основанные на анализе временных рядов. Существуют работы по данной тематике, основанные на авторегрессионных моделях [1]. В настоящее время появились работы, которые описывают возможность применения моделей Хольта-Винтерса и нейронных сетей [2]. В описанных работах используются временные ряды с интервалами наблюдения от 5 и более минут.
В данной выпускной квалификационной работе будет рассмотрено несколько методов и подходов к анализу и прогнозированию интенсивности сетевого трафика на примере данных по интернет-трафику (в битах) от частного интернет- провайдера с центрами в 11 европейских городах. Данные были собраны с 6:57 часов 7 июня до 11:17 часов 31 июля 2015 года. Данные собирались с пятиминутными интервалами.
Актуальность решения такой задачи обусловлена, так как для поддержания корректной работы сети необходимо как можно быстрее детектировать аномальную активность и предпринимать меры по устранению проблем . В выпускной квалификационной с помощью методов анализа временных рядов проводится исследование, целью которого является проверка эффективности рассматриваемых методов анализа временных рядов для прогнозирования с некоторой допустимой точностью объема использованного трафика в определенный момент времени.
Используя полученные в итоге модели для прогнозирования интенсивности трафика в сети, можно построить прогноз на некоторый период времени в будущем. Если принять прогнозные значения как ожидаемый нормальный уровень интенсивности трафика, то в случае значительного уменьшения объема интенсивности сетевого трафика (когда значение выходит за пределы доверительного интервала), с большой долей вероятности можно говорить о возникновении неполадок в работе сети.
Целью исследования выпускной квалификационной работы является проверка эффективности рассматриваемых методов анализа временных рядов для прогнозирования с некоторой допустимой точностью объема использованного трафика в определенный момент времени.
Достижение поставленной цели потребовало решения следующих задач.
1. Создание и обоснование применения наиболее подходящей модели прогнозирования для данного конкретного случая.
2. Сравнение нескольких моделей прогнозирования между собой, описание их преимуществ и недостатков, применимо к анализу временного ряда интенсивности сетевого трафика.
3. Тестирование наиболее эффективной модели прогнозирования для моделирования изменения сетевого трафика, анализ и структуризация полученных результатов.
Объект исследования - любое предприятие, для работы которого так или иначе требуется взаимодействие с передачей данных, в результате чего появляется возможность отслеживать и анализировать интенсивность входящего сетевого трафика.
Предметом исследования являются подходы к решению задачи прогнозирования временных рядов, на примере проблемы анализа интенсивности сетевого трафика, возникающей у какого-либо предприятия в процессе работы с потоками данных.
Информационная база включает в себя учебники по статистическим методом прогнозирования и анализу временных рядов за авторством (Дубровой Т.А., Афанасьева В.Н., Олифера В.Г., Бокса Д., Дженкинса Г.М. и др.), фундаментальные научные статьи по теме за авторством (Покровской М.А. и Лысяка А.С.).
Итоговые научные результаты исследования получены с использованием методов математического моделирования, сравнительного и функционального анализов, методов обработки и анализа данных. За основу для проведения математического моделирования и анализа данных был взят функционал языка программирования Python, в частности Python-библиотек, ориентированных на выполнение представленных задач (NumPy, Pandas, Statsmodels, SciPy, Sklearn), для визуализации результатов работы использовалась библиотека Matplotlib и Plotly. Дополнительно для проведения анализа данных использовался функционал программы MS Excel.
Работа состоит из четырех глав, введения, заключения, библиографического списка (27 наименований), трёх приложений.
Во введении обосновывается актуальность работы, приводятся цели и задачи работы, указываются объект и предмет исследований, обосновывается информационная база исследований и приводится краткое содержание работы.
В главе 1 описываются особенности прогнозирования временных рядов интенсивности сетевого трафика, проводится обзор существующих методов прогнозирования трафика и приводятся выводы по поводу частоты применимости тех или иных моделей для создания краткосрочных и долгосрочных прогнозов сетевого трафика.
В главе 2 представлены модели, используемые в работе для анализа временного ряда, содержащего данные по интенсивности сетевого трафика. В данной главе описаны особенности каждой модели и представлена необходимая математическая база.
В главе 3 описывается предварительный анализ данных, показано наличие дневной и недельной сезонности в исходном временном ряду, с помощью критерия Дики-Фуллера проведена проверка исходного временного ряда на стационарность, в ходе которой гипотеза о том, что исходный временной ряд стационарен подтвердилась.
В главе 4 проводится создание, описание и сравнение рассматриваемых в работе моделей, делается вывод о точности предсказания для различных прогнозных периодов, после чего, проводится анализ адекватности построенных моделей, основанный на проверке ряда остатков.
В заключении приводятся основные результаты работы, формулируются выводы и рекомендации, описываются направления дальнейших исследований.
В настоящей выпускной квалификационной работе было произведён сравнительный анализ нескольких подходов к задаче прогнозирования временных рядов на примере анализа интенсивности интернет-трафика.
Данные в работе представлены интенсивностью сетевого трафика (в битах) от частного интернет-провайдера с центрами в 11 европейских городах. Данные были собраны с 6:57 часов 7 июня до 11:17 часов 31 июля 2015 года. Наблюдения проводились с интервалом в пять минут.
В выпускной квалификационной с помощью методов анализа временных рядов проводилось исследование, целью которого является проверка эффективности рассматриваемых методов анализа временных рядов для прогнозирования объема использованного трафика в определенный момент времени. Актуальность данного исследования обусловлена возможностью расчета допустимых отклонений для прогнозных значений интернет-трафика. Если реальное значение трафика вышло за доверительный интервал, можно говорить о возникновении аномалии, если точность прогноза является достаточной.
На основании информации из публикаций в данной области, можно сказать, что в настоящее время все еще существует потребность в прогнозировании сетевого трафика. Следует также учитывать, что структура трафика, как и его интенсивность за прошедшее время существенно изменилась, что необходимо учитывать при построении моделей прогнозирования.
Для прогнозирования интенсивности интернет-трафика использовались ARIMA-модели, имеющие подробное математико-статистическое обоснование, а также гибкость и универсальность в работе с временными рядами, модели данного вида являются одним из основных методов при работе с временными рядами, однако требовательность как к вычислительным ресурсам, так и к объему выборки, вкупе с дополнительной работой по периодической переоценке модели при получении новых данных не позволяют говорить об незаменимости такого подхода к анализу временных рядов.
В противоположность ARIMA-моделям в работе решено было использовать модели множественной регрессии и решающие деревья, которые в области анализа временных рядов являются достаточно спорными методами с недостаточно хорошо описанной базой. Данные модели более требовательны к параметрам анализируемых рядов динамики: необходимо приведение данных к сопоставимому виду с точки зрения автокорреляции, коллинеарности и временного лага. С другой стороны, при подходящих условиях данные модели показывают себя как менее требовательные к вычислительным ресурсам и времени альтернативы ARIMA- моделей.
После получения результатов оценки качества прогнозов представленных в работе моделей, можно сказать, что лучшей по качеству текущего прогноза в целом, является модель ARMA(5,5), текущий прогноз которой отклоняется от реальных показателей интенсивности интернет-трафика на 4,41%, а долгосрочный на 13,46%.
Следующим по качеству прогнозирования ряда динамики интенсивности ин- тернет-трафика является метод, основанный на деревьях решений. Самые худшие показатели качества остаются за моделью многофакторной регрессии. Характеристика полученных остатков, позволяет говорить о том, что по критериям проверки адекватности, построенное дерево решений и многофакторная регрессия, в данном случае можно назвать адекватными и применять в дальнейшем.
Дальнейшие разработки по данной теме рекомендовано вести в направлении изучения рядов динамики с более коротким интервалом времени, так как структура такого временного ряда будет существенно отличатся от используемого в работе. Возможно использование других методов, основанных в том числе и на деревьях решений, например, применение случайного леса, а также, оправдано использование нейронных сетей. В добавок, к моделям, работающим с многомерными временными рядами (в данной работе такие модели были представлены многомерной регрессией и деревьями решений) возможно включение дополнительных факторов, отвечающих за дневную сезонность, погодные условия для конкретной географической зоны и.т.д.
Данные в работе представлены интенсивностью сетевого трафика (в битах) от частного интернет-провайдера с центрами в 11 европейских городах. Данные были собраны с 6:57 часов 7 июня до 11:17 часов 31 июля 2015 года. Наблюдения проводились с интервалом в пять минут.
В выпускной квалификационной с помощью методов анализа временных рядов проводилось исследование, целью которого является проверка эффективности рассматриваемых методов анализа временных рядов для прогнозирования объема использованного трафика в определенный момент времени. Актуальность данного исследования обусловлена возможностью расчета допустимых отклонений для прогнозных значений интернет-трафика. Если реальное значение трафика вышло за доверительный интервал, можно говорить о возникновении аномалии, если точность прогноза является достаточной.
На основании информации из публикаций в данной области, можно сказать, что в настоящее время все еще существует потребность в прогнозировании сетевого трафика. Следует также учитывать, что структура трафика, как и его интенсивность за прошедшее время существенно изменилась, что необходимо учитывать при построении моделей прогнозирования.
Для прогнозирования интенсивности интернет-трафика использовались ARIMA-модели, имеющие подробное математико-статистическое обоснование, а также гибкость и универсальность в работе с временными рядами, модели данного вида являются одним из основных методов при работе с временными рядами, однако требовательность как к вычислительным ресурсам, так и к объему выборки, вкупе с дополнительной работой по периодической переоценке модели при получении новых данных не позволяют говорить об незаменимости такого подхода к анализу временных рядов.
В противоположность ARIMA-моделям в работе решено было использовать модели множественной регрессии и решающие деревья, которые в области анализа временных рядов являются достаточно спорными методами с недостаточно хорошо описанной базой. Данные модели более требовательны к параметрам анализируемых рядов динамики: необходимо приведение данных к сопоставимому виду с точки зрения автокорреляции, коллинеарности и временного лага. С другой стороны, при подходящих условиях данные модели показывают себя как менее требовательные к вычислительным ресурсам и времени альтернативы ARIMA- моделей.
После получения результатов оценки качества прогнозов представленных в работе моделей, можно сказать, что лучшей по качеству текущего прогноза в целом, является модель ARMA(5,5), текущий прогноз которой отклоняется от реальных показателей интенсивности интернет-трафика на 4,41%, а долгосрочный на 13,46%.
Следующим по качеству прогнозирования ряда динамики интенсивности ин- тернет-трафика является метод, основанный на деревьях решений. Самые худшие показатели качества остаются за моделью многофакторной регрессии. Характеристика полученных остатков, позволяет говорить о том, что по критериям проверки адекватности, построенное дерево решений и многофакторная регрессия, в данном случае можно назвать адекватными и применять в дальнейшем.
Дальнейшие разработки по данной теме рекомендовано вести в направлении изучения рядов динамики с более коротким интервалом времени, так как структура такого временного ряда будет существенно отличатся от используемого в работе. Возможно использование других методов, основанных в том числе и на деревьях решений, например, применение случайного леса, а также, оправдано использование нейронных сетей. В добавок, к моделям, работающим с многомерными временными рядами (в данной работе такие модели были представлены многомерной регрессией и деревьями решений) возможно включение дополнительных факторов, отвечающих за дневную сезонность, погодные условия для конкретной географической зоны и.т.д.





