Прогнозирование и анализ динамики сетевого трафика для систем информационной безопасности
|
ВВЕДЕНИЕ 3
ГЛАВА 1. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ РАСПОЗНАВАНИЯ В
ЗАДАЧАХ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ 6
1.1 Проблема распознавания в задачах информационной безопасности 6
1.2 Регрессионные методы анализа динамики сетевого трафика 10
1.3 Классификация временных рядов 11
1.3.1 Классификация по методу нахождения ближайшего среднего значения 12
1.3.2 Классификация по методу ближайших соседей 13
1.3.3 Байесовский классификатор 14
1.4 Искусственные нейронные сети 15
ГЛАВА 2. ОБЗОР НЕЙРОСЕТЕВОГО ПОДХОДА ПРОГНОЗИРОВАНИЯ С
ИСПОЛЬЗОВАНИЕМ МЕТОДА МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ... 18
2.1 Предварительная обработка временного ряда 18
2.2 Нейросетевой подход к прогнозированию временных рядов 18
ГЛАВА 3. ОЦЕНКА ЭФФЕКТИВНОСТИ ПРЕДЛОЖЕННОГО МЕТОДА
НЕЙРОСЕТЕВОГО ПРОГНОЗИРОВАНИЯ 27
3.1 Реализации системы анализа и распознавания 27
3.2 Поверка эффективности метода распознавания на модельных данных 27
3.3 Проверка эффективности метода прогнозирования на реальных данных . .. 33
3.4 Проверка эффективности предложенного метода в сравнении со
стандартным подходом 36
ГЛАВА 4. РАСПОЗНАВАНИЕ ВРЕМЕННОГО РЯДА С ДАННЫМИ
МАГНИТНО-ИМПУЛЬСНОЙ ДЕФЕКТОСКОПИИ 39
4.1 Технология магнитно-импульсной дефектоскопии 39
4.2 Подбор информативных признаков для распознавания муфтовых
соединений 42
4.3 Реализация распознавания муфтовых соединений в скважине 47
ЗАКЛЮЧЕНИЕ 51
СПИСОК ИСПОЛЬЗУЕМЫХ СОКРАЩЕНИЙ 5
ГЛАВА 1. ОБЗОР СУЩЕСТВУЮЩИХ МЕТОДОВ РАСПОЗНАВАНИЯ В
ЗАДАЧАХ ИНФОРМАЦИОННОЙ БЕЗОПАСНОСТИ 6
1.1 Проблема распознавания в задачах информационной безопасности 6
1.2 Регрессионные методы анализа динамики сетевого трафика 10
1.3 Классификация временных рядов 11
1.3.1 Классификация по методу нахождения ближайшего среднего значения 12
1.3.2 Классификация по методу ближайших соседей 13
1.3.3 Байесовский классификатор 14
1.4 Искусственные нейронные сети 15
ГЛАВА 2. ОБЗОР НЕЙРОСЕТЕВОГО ПОДХОДА ПРОГНОЗИРОВАНИЯ С
ИСПОЛЬЗОВАНИЕМ МЕТОДА МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ ... 18
2.1 Предварительная обработка временного ряда 18
2.2 Нейросетевой подход к прогнозированию временных рядов 18
ГЛАВА 3. ОЦЕНКА ЭФФЕКТИВНОСТИ ПРЕДЛОЖЕННОГО МЕТОДА
НЕЙРОСЕТЕВОГО ПРОГНОЗИРОВАНИЯ 27
3.1 Реализации системы анализа и распознавания 27
3.2 Поверка эффективности метода распознавания на модельных данных 27
3.3 Проверка эффективности метода прогнозирования на реальных данных . .. 33
3.4 Проверка эффективности предложенного метода в сравнении со
стандартным подходом 36
ГЛАВА 4. РАСПОЗНАВАНИЕ ВРЕМЕННОГО РЯДА С ДАННЫМИ
МАГНИТНО-ИМПУЛЬСНОЙ ДЕФЕКТОСКОПИИ 39
4.1 Технология магнитно-импульсной дефектоскопии 39
4.2 Подбор информативных признаков для распознавания муфтовых
соединений 42
4.3 Реализация распознавания муфтовых соединений в скважине 47
ЗАКЛЮЧЕНИЕ 51
СПИСОК ИСПОЛЬЗУЕМЫХ СОКРАЩЕНИЙ 5
Одной из основных задач, стоящей перед системами информационной безопасности внутренних компьютерных сетей, является своевременное выявление фактов несанкционированного доступа. Зачастую нарушение политики безопасности происходит посредством вредоносного программного обеспечения и, например, проявляется в виде аномального роста объемов сетевого трафика. Внедрение автоматизированных систем информационной безопасности позволяет улучшить качество защиты внутренних компьютерных сетей. Наиболее перспективными решениями в данной области могут служить интеллектуальные системы, способные адаптироваться к той или иной компьютерной сети. Поэтому задача развития автоматизированных систем анализа данных внутреннего и внешнего сетевого трафика является крайне актуальной и на сегодняшний день.
В основе подобных систем, как правило, лежит модель сетевой активности, которая четко описывает типичное поведение того или иного сотрудника (касательно его сетевой активности). В последующем автоматически могут выявляться значимые отклонения от полученной модели, которые будут рассматриваются как потенциально опасные события.
Анализ динамики внутреннего трафика является распространенной практикой во многих компаниях, так как людям, которые работают в компании, доверяют, но они могут совершить шпионаж. Также возможен несанкционированный доступ к внутренней сети компании с помощью различных вирусов. Выявление такого злоумышленника является не менее важной, но более сложной задачей. Подход с составлением модели поведения для каждого сотрудника организации является одним из методов решения. Выявление всех закономерностей и нахождение каких-либо отклонений помогают обнаружить признаки злоумышленника. Для примера, если рассмотреть активность обычного рабочего, он обращается к базе данных в течении дня с 8 до 17 часов. Если обнаружено увеличение внутреннего сетевого трафика с 1 до 3 ночи, то это считается подозрительной активностью, т.е. отклонение от обычного шаблона поведения, и ситуация анализируется специалистом по информационной безопасности.
Выделяют две основные проблемы обработки таких данных:
• большой объем данных;
• наличие в данных некоторых «скрытых знаний», т.е. какой-либо новой полезной информации, которая не обнаруживается при тривиальном анализе.
Современные информационные системы и сети претерпевают постоянные изменения, а объемы обрабатываемых данных растут с каждым годом. Поэтому для достижения необходимого уровня безопасности информации нужно использовать адаптивную систему защиты, которая будет приспосабливаться и саморазвиваться с изменениями входных условий. Система защиты информации должна предупреждать не только известные угрозы злоумышленников, но также и уметь распознавать ранее не встречающиеся атаки.
Согласно проанализированным статьям, интеллектуальный анализ данных является одним из современных способов обработки большого объема данных, содержащих скрытую информацию. Основными задачами данного способа являются: кластеризация, классификация, прогнозирование. Именно с помощью этих средств обработки данных в информационной безопасности реализуются системы защиты, обладающие свойствами самообучения, адаптации и представления информации экспертам в более понятной форме. Методы интеллектуального анализа часто позволяют выявить неявные закономерности, содержащие полезную информацию для администратора безопасности сети.
Цель бакалаврской работы - развитие методов прогнозирования и анализа динамики сетевого трафика для систем информационной безопасности с использованием искусственных нейронных сетей.
Для достижения данной цели были поставлены следующие задачи:
• Провести обзор существующих методов анализа и прогнозирования динамики временных рядов в задачах информационной безопасности;
• Подготовить базу данных с примерами временных рядов динамики интернет-трафика, проанализировать их статистические характеристики;
• Улучшить метод обучения нейронной сети для задачи прогнозирования динамики временных рядов с учетом их статистических свойств;
• Оценить эффективность предложенного подхода на примере базы данных запросов на сервер, а также в задачах распознавания геофизических данных.
В основе подобных систем, как правило, лежит модель сетевой активности, которая четко описывает типичное поведение того или иного сотрудника (касательно его сетевой активности). В последующем автоматически могут выявляться значимые отклонения от полученной модели, которые будут рассматриваются как потенциально опасные события.
Анализ динамики внутреннего трафика является распространенной практикой во многих компаниях, так как людям, которые работают в компании, доверяют, но они могут совершить шпионаж. Также возможен несанкционированный доступ к внутренней сети компании с помощью различных вирусов. Выявление такого злоумышленника является не менее важной, но более сложной задачей. Подход с составлением модели поведения для каждого сотрудника организации является одним из методов решения. Выявление всех закономерностей и нахождение каких-либо отклонений помогают обнаружить признаки злоумышленника. Для примера, если рассмотреть активность обычного рабочего, он обращается к базе данных в течении дня с 8 до 17 часов. Если обнаружено увеличение внутреннего сетевого трафика с 1 до 3 ночи, то это считается подозрительной активностью, т.е. отклонение от обычного шаблона поведения, и ситуация анализируется специалистом по информационной безопасности.
Выделяют две основные проблемы обработки таких данных:
• большой объем данных;
• наличие в данных некоторых «скрытых знаний», т.е. какой-либо новой полезной информации, которая не обнаруживается при тривиальном анализе.
Современные информационные системы и сети претерпевают постоянные изменения, а объемы обрабатываемых данных растут с каждым годом. Поэтому для достижения необходимого уровня безопасности информации нужно использовать адаптивную систему защиты, которая будет приспосабливаться и саморазвиваться с изменениями входных условий. Система защиты информации должна предупреждать не только известные угрозы злоумышленников, но также и уметь распознавать ранее не встречающиеся атаки.
Согласно проанализированным статьям, интеллектуальный анализ данных является одним из современных способов обработки большого объема данных, содержащих скрытую информацию. Основными задачами данного способа являются: кластеризация, классификация, прогнозирование. Именно с помощью этих средств обработки данных в информационной безопасности реализуются системы защиты, обладающие свойствами самообучения, адаптации и представления информации экспертам в более понятной форме. Методы интеллектуального анализа часто позволяют выявить неявные закономерности, содержащие полезную информацию для администратора безопасности сети.
Цель бакалаврской работы - развитие методов прогнозирования и анализа динамики сетевого трафика для систем информационной безопасности с использованием искусственных нейронных сетей.
Для достижения данной цели были поставлены следующие задачи:
• Провести обзор существующих методов анализа и прогнозирования динамики временных рядов в задачах информационной безопасности;
• Подготовить базу данных с примерами временных рядов динамики интернет-трафика, проанализировать их статистические характеристики;
• Улучшить метод обучения нейронной сети для задачи прогнозирования динамики временных рядов с учетом их статистических свойств;
• Оценить эффективность предложенного подхода на примере базы данных запросов на сервер, а также в задачах распознавания геофизических данных.
В данной работе были реализованы и протестированы различные методы распознавания состояния временных рядов на модельных и реальных данных применительно к задачам информационной безопасности. Наиболее перспективным методом прогнозирования определены нейронные сети. Для улучшения результатов прогнозирования динамики сетевого траффика был предложен и реализован метод обучения искусственных нейронных сетей, оптимизированный для случаев распределения флуктуаций, отличных от нормального закона распределения (например, Пуассона и Бернулли).
Эффективность прогнозирования с помощью модифицированной подхода к обучению нейронной сети была проверена на реальных данных из базы данных запросов на сервер Университета Саскачевана. После проведенного статистического анализа сделан вывод, что флуктуации этого временного ряда подчиняются распределению, близкому к Пуассону. По результатам анализа тестового множества четко видно, что для ночных значений использование нейросетевого подхода с учетом флуктуаций временного ряда дает лучший результат, так как распределение ночных значений ближе к распределению Пуассона, поэтому выигрыш от использования метода максимального правдоподобия при обучении нейросетевой модели выше.
Также было показано применение методов распознавания в прикладной задаче распознавания муфтовых соединений на данных скважинного магнитно-импульсного дефектоскопа, для которых временной ряд имеет флуктуации с распределением близким к Бернулли. Выбран оптимальный уровень значимости, для которого ошибка первого рода для обеих сетей составляет 0%. Для этого уровня значимости ошибка второго рода для сети с минимизацией MSE составила 25%, для сети с максимизацией функции правдоподобия - 2%.
Эффективность прогнозирования с помощью модифицированной подхода к обучению нейронной сети была проверена на реальных данных из базы данных запросов на сервер Университета Саскачевана. После проведенного статистического анализа сделан вывод, что флуктуации этого временного ряда подчиняются распределению, близкому к Пуассону. По результатам анализа тестового множества четко видно, что для ночных значений использование нейросетевого подхода с учетом флуктуаций временного ряда дает лучший результат, так как распределение ночных значений ближе к распределению Пуассона, поэтому выигрыш от использования метода максимального правдоподобия при обучении нейросетевой модели выше.
Также было показано применение методов распознавания в прикладной задаче распознавания муфтовых соединений на данных скважинного магнитно-импульсного дефектоскопа, для которых временной ряд имеет флуктуации с распределением близким к Бернулли. Выбран оптимальный уровень значимости, для которого ошибка первого рода для обеих сетей составляет 0%. Для этого уровня значимости ошибка второго рода для сети с минимизацией MSE составила 25%, для сети с максимизацией функции правдоподобия - 2%.



