ВВЕДЕНИЕ 6
1. МЕТОДИЧЕСКИЕ ОСНОВЫ ПРИМЕНЕНИЯ ИНТЕЛЕКТУАЛЬНОГО
АНАЛИЗА ДАННЫХ В ЗАДАЧАХ ОБНАРУЖЕНИЯ ВТОРЖЕНИЙ 12
1.1 Элементы интеллектуального анализа данных 12
1.2 Данные как материал интеллектуального анализа 13
1.3 Предпосылки к использованию МИАД в задачах сетевой ИБ 15
1.4 Обзор методов интеллектуального анализа данных 21
1.4.1 Наивный байесовский подход (Naive Bayes Approach) 21
1.4.2 Метод опорных векторов 24
1.4.3 Метод ближайших соседей (Nearest Neighbor) 26
1.4.4 Метод деревьев решений (Decision Trees) 27
1.4.5 Искусственные нейронные сети 29
1.4.6 Нечеткая логика 32
1.4.7 Генетические алгоритмы 34
1.5 Исследования в области интеллектуального анализа данных для выявления
сетевых вторжений 37
1.6 Оценка эффективности методик обнаружения сетевых вторжений 41
1.7 Выводы 43
2. РАЗРАБОТКА КОМПЛЕКСНОЙ МЕТОДИКИ ИССЛЕДОВАНИЯ
СТАТИСТИКИ СИБ В СЕТЯХ ТЕЛЕКОММУНИКАЦИЙ 45
2.1 Трудности, связанные с исследованием статистики СИБ, и пути их
преодоления 45
2.2 Анализ структуры данных СИБ и возможности применения существующих
решений для их кластеризации 47
2.3 Элементы теории информации и энтропиный подход 50
2.4 Общие принципы выбранного для исследований подхода 54
2.5 Вычисление наиболее информативного признака (НИП) 57
2.6 Вычисление наиболее информативного значения (НИЗ) 60
2.7 Контроль однородности кластеров 66
2.8 Вычисление динамической зависимости СИБ 67
2.9 Оценка степени угрозы ИБ 71
2.10 Выводы 78
3. ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ 81
3.1 Общие положения 81
3.2 Исходные данные 81
3.3 Кластеризация сетевых СИБ 82
3.3.1 Итерация 1: исследование множества А0 82
3.3.2 Итерация 2: исследование множества А0-1 91
3.3.3 Итерация 3: исследование множества А0-0 91
3.3.4 Итерация 4: исследование множества А0(2)-1 95
3.3.5 Итерация 5: исследование множества А0(2)-0 95
3.3.6 Итерация 6: исследование множества А0(3)-1 98
3.3.7 Итерация 7: исследование множества А0(3)-0 99
3.3.8 Итерация 8: исследование множества А0(4)-1 102
3.3.9 Итерация 9: исследование множества А0(4)-0 103
3.3.10 Итерация 10: исследование множества А0(5)-1 106
3.3.11 Итерация 11: исследование множества А0(5)-0 106
3.3.12 Итерация 12: исследование множества А0(6)-1 109
3.3.13 Итерация 13: исследование множества А0(6)-0 110
3.3.14 Итерация 14: исследование множества А0(7)-1 113
3.3.15 Итерация 15: исследование множества А0(7)-1-1 115
3.3.16 Итерация 16: исследование множества А0(7)-1-0 116
3.3.17 Итерация 17: исследование множества А0(7)-0 116
3.3.18 Итерация 18: исследование множества А0(8)-1 119
3.3.19 Итерация 19: исследование множества А0(8)-0 119
3.3.20 Итерация 20: исследование множества А0(9)-1 122
3.3.21 Итерация 21: исследование множества А0(9)-0 122
3.3.22 Итерация 22: исследование множества А0(10)-1 124
3.3.23 Итерация 23: исследование множества А0(10)-0 125
3.3.24 Итерация 24: исследование множества А0(11)-1 127
3.3.25 Итерация 25: исследование множества А0(11)-0 128
3.3.26 Результаты кластеризации СИБ 128
3.4 Вычисление динамической зависимости СИБ 130
3.5 Оценка угрозы зафиксированных СИБ 132
3.6 Выводы 137
4. ПРИКЛАДНОЕ ПРИМЕНЕНИЕ РАЗРАБОТАННЫХ АЛГОРИТМОВ И
МЕТОДИК 138
4.1 Значение прикладного применения МИАД при исследовании сетевых
СИБ 138
4.2 Структура ПАК 139
4.3 Вычислительная подсистема 140
4.4 Подсистема хранения данных 141
4.5 Подсистема визуализации 141
4.5.1 Главное окно 142
4.5.2 Окно детализации 146
4.6 Результаты опытно-экспериментальных испытаний 148
4.7 Перспективы дальнейшего развития ПАК 153
4.8 Выводы 155
ЗАКЛЮЧЕНИЕ 157
СПИСОК СОКРАЩЕНИЙ И УСЛОВНЫХ ОБОЗНАЧЕНИЙ 159
СЛОВАРЬ ТЕРМИНОВ 160
СПИСОК ЛИТЕРАТУРЫ 161
СПИСОК ИЛЛЮСТРАТИВНОГО МАТЕРИАЛА 178
ТОМ 2
ПРИЛОЖЕНИЕ
Актуальность темы. Все возрастающая роль информационной
безопасности (ИБ) в общей системе национальной безопасности Российской Федерации зафиксирована в таких документах как Доктрина информационной безопасности РФ и Стратегия развития информационного общества в РФ. Угрозы безопасности информационных и телекоммуникационных средств и систем относят к одному из видов общей направленности угроз ИБ РФ на современном этапе развития общества. Противодействие использованию потенциала информационных и телекоммуникационных технологий в целях угрозы национальным интересам России относят к числу основных задач, требующих решения [1-5].
Среди ключевых задач в парадигме обеспечения ИБ сетей и систем телекоммуникаций [6-7], выделяют противодействие компьютерным атакам, что обеспечивается за счет комплексного применения ряда технических средств, к числу которых относят и средства обнаружения вторжений (СОВ).
Неотъемлемой задачей, связанной с эксплуатацией СОВ является анализ событий информационной безопасности (СИБ), зарегистрированных в информационно-телекоммуникационной системе (ИТС). Ее результатом должно быть корректирующее воздействие, во-первых, в отношении ИТС (для предотвращения вторжения), во-вторых, в отношении СОВ (для повышения ее эффективности путем внесения соответствующих изменений в конфигурацию). Большое количество фиксируемых сетевых СИБ представляет объективную сложность для проведения их исследования. Средства анализа потенциально опасной сетевой активности на основе стандартных возможностей систем управления базами данных (СУБД) не всегда обеспечивают желаемый результат.
В настоящее время ведутся активные исследования, связанные с применением методов интеллектуального анализа данных (МИАД) для решения задач обработки больших массивов информации. Интеллектуальный анализ данных (ИАД) представляет собой процесс выявления неявных знаний о данных, например, в виде ранее неизвестных связей и закономерностей. Опыт применения подобных методов уже доказал свою эффективность во многих предметных областях.
Вышесказанное обусловливает актуальность темы диссертационной работы и необходимость проведения исследований указанной проблематики с позиций ИАД в целях поиска путей построения эффективных систем анализа сетевых СИБ.
Степень разработанности темы представляется относительно невысокой. Вопрос подходов к исследованию статистики СИБ остается мало изученным. Среди прочих следует выделить два направления, на которых сосредоточены значительные усилия исследователей в области ИБ. Первое касается оценки защищенности систем и сетей телекоммуникации (И.В. Котенко, А.А. Чечулин, М.В. Степашкина, А.А. Азарова и др.). Другое, активно разрабатываемое направление, связано с применением МИАД для выявления непосредственно фактов сетевых вторжений в сетевом трафике (В.Ю. Дайнеко, И.В. Шарабыров, А.К. Большев, С.В. Белим, М.Ю. Ваганов, С.А. Поздняков, D. Md. Farid, M.Z. Rahman, C.M. Rahman, N.K. Harhna, P.K. Sree, I.R. Babu, P. Docas, L. Ertoz, P.K. Chan, M.V. Mahoney, J. Markey, E. Beqiri и др.).
Учитывая общность предметной области, указанные исследования можно рассматривать в качестве наиболее близких к теме диссертационной работы. Их результаты были изучены на предмет возможного использования предлагаемых решений.
Объектом исследования является процесс исследования данных о СИБ, зафиксированных СОВ.
Предметом исследования является алгоритмическое и методическое обеспечение аналитического процесса при исследовании статистики СИБ.
Цели исследования: разработка критериев, алгоритмического,
программного и методического обеспечения повышения эффективности аналитической обработки информации о СИБ.
Для достижения поставленной цели были сформированы следующие задачи:
1. Изучить существующие МИАД, связанные с вопросами выявления сетевых вторжений, и определить основные критерии к методу анализа СИБ.
2. Разработать алгоритм и методику кластеризации данных на основе энтропийного подхода.
3. Разработать алгоритм и методику оценки согласованности времени наступления СИБ различных кластеров.
4. Разработать алгоритм и методику оценки уровня угрозы однородных СИБ на основе ретроспективных данных, прошедших экспертную оценку.
5. Разработать и апробировать программно-аппаратный комплекс (ПАК) для исследования статистики СИБ.
Соответствие паспорту специальности. Работа соответствует п.10 «Исследование и разработка новых методов защиты информации и обеспечение информационной безопасности в сетях, системах и устройствах телекоммуникаций» Паспорта специальности 05.12.13 - Системы, сети и
устройства телекоммуникаций.
В результате проведенных исследований были получены следующие
основные результаты:
1. Впервые выбраны критерии МИАД для анализа статистики сетевых СИБ,
заключающиеся в способности анализировать большие массивы данных,
характеризующиеся малым количеством признаков СИБ и высокой
вариативностью их значений с использованием номинальных шкал.
2. Впервые разработаны алгоритм и методика кластеризации данных о СИБ,
зафиксированных СОВ, на основе энтропийного подхода. Результатом их работы
является представление данных в виде однородных групп (кластеров), каждая из
которых соответствует предварительно заданным параметрам.
3. Впервые разработаны алгоритм и методика оценки динамической
зависимости между кластерами. Их применение позволяет получить числовую
величину, характеризующую степень согласованности по времени СИБ
различных кластеров. Важно отметить, что данные приобретают новый признак,
измеренный в шкале отношений, который может рассматриваться в качестве
эквивалента расстояния между кластерами и потенциально расширяет спектр
доступных МИАД для проведения дальнейших исследований.
4. Впервые разработаны алгоритм и методика оценки степени текущей
угрозы на основе данных, прошедших предварительную экспертную оценку. Для
этого введены две характеристики: степень изученности СИБ кластера и
показатель непротиворечивости экспертной оценки. Дано математическое
обоснование соответствия этих величин решаемой задаче. Согласованность
результата и исходных параметров подтверждена вычислительным
экспериментом.
5. Впервые разработана структура ПАК для исследования статистики СИБ,
основанная на предложенных МИАД, и выполнена его программная реализация.
ПАК состоит из трех подсистем (вычислительной, хранения данных и
визуализации) и решает задачи кластеризации данных о СИБ, вычисления158
динамической зависимости между полученными кластерами и взаимодействия с
БД. Для работы с результатами вычислений предусмотрен кроссплатформенный
графический интерфейс, позволяющий работать с данными в интерактивном
режиме.
Доктрина информационной безопасности Российской Федерации (утв.
Президентом РФ от 9 сентября 2000 г. №Пр-1895) // ЭПС "Система ГАРАНТ":
Гарант-Аэро / НПП "ГАРАНТ-СЕРВИС-УНИВЕРСИТЕТ". Версия от 03.12.2015.
2. Стратегия развития информационного общества в Российской Федерации
(утв. Президентом РФ 7 февраля 2008 г. №Пр-212) // ЭПС "Система ГАРАНТ":
Гарант-Аэро / НПП "ГАРАНТ-СЕРВИС-УНИВЕРСИТЕТ". Версия от 03.12.2015.
3. Указ Президента РФ от 12 мая 2009 г. N 537 "О Стратегии национальной
безопасности Российской Федерации до 2020 года" // ЭПС "Система ГАРАНТ":
Гарант-Аэро / НПП "ГАРАНТ-СЕРВИС-УНИВЕРСИТЕТ". Версия от 03.12.2015.
4. Указ Президента РФ от 15 января 2013 г. N 31с "О создании
государственной системы обнаружения, предупреждения и ликвидации
последствий компьютерных атак на информационные ресурсы Российской
Федерации // ЭПС "Система ГАРАНТ": Гарант-Аэро / НПП "ГАРАНТ-СЕРВИСУНИВЕРСИТЕТ". Версия от 03.12.2015.
5. Основы государственной политики Российской Федерации в области
международной информационной безопасности на период до 2020 года (утв.
Президентом РФ 24 июля 2013 г., N Пр-1753) // ЭПС "Система ГАРАНТ": ГарантАэро / НПП "ГАРАНТ-СЕРВИС-УНИВЕРСИТЕТ". Версия от 03.12.2015.
6. Зубков, Е.В. Безопасность инфотелекоммуникационных систем -
технический аспект / Е.В. Зубков, В.М. Белов // Информационная безопасность:
материалы Рос. науч.-тех. конф. - Новосибирск: СибГУТИ, 2015. - C. 588-591.
7. Зубков, Е.В. Об отдельных аспектах информационной безопаснсти / Е.В.
Зубков, В.М. Белов // Современные проблемы телекоммуникаций: материалы Рос.
науч.-тех. конф. - Новосибирск: СибГУТИ, 2013. - C. 301-304.
8. Интуит. Национальный открытый университет. Лекция 4: Задачи Data
Mining. Информация и знания [Электронный ресурс]. - Режим доступа:
http://www.intuit.ru/studies/courses/6/6/lecture/164.162
9. Барсегян А.А. Технологии анализа данных: Data Mining, Visual Mining,
Text Mining, OLAP / А.А. Барсегян, М.С. Куприянов, В.В. Степаненко, И.И.
Холод - 2-е изд., перераб. и доп. - СПб. : БХВ-Петербург, 2007. - 384 c.
10. Harshna. Fuzzy Data Mining Based Intrusion Detection System Using
Genetic Algorithm / Harshna, Navneet Kaur // International Journal of Advanced
Research in Computer and Communication Engineering. - 2014. - Vol. 3, №1. - P.
5021-5028.
11. Мандель, И.Д. Кластерный анализ / И.Д. Мандель. - М. : Финансы и
статистика, 1988. - 176 c.
12. Хили, Дж. Статистика: социологические и маркетинговые исследования
/ Дж. Хили. - СПб. : Питер, 2005. - 638 c.
13. Интуит. Национальный открытый университет. Лекция 2: Данные
[Электронный ресурс]. - Режим доступа: http://www.intuit.ru/studies/courses/6/6/
lecture/160.
14. Орлов, А.И. Прикладная статистика. Учебник для вузов / А.И. Орлов . -
М. : Экзамен, 2004. - 656 c.
15. Дубина, И.Н. Математические основы эмпирических социальноэкономических исследований / И.Н. Дубина. - Барнаул : Издательство Алтайского
университета, 2006. - 263 c.
16. Виды шкал и их особенности [Электронный ресурс]. - Режим доступа:
http://www.znaytovar.ru/new2619.html.
17. Зубков, Е.В. Безопасность как услуга - проблематика вопроса / Е.В.
Зубков, В.М. Белов // Общество, политика, финансы: материалы Рос. науч.-тех.
конф. - Новосибирск: СибГУТИ, 2014. - C. 30-32.
18. Большев, А.К. Алгоритмы преобразования и классификации трафика для
обнаружения вторжений в компьютерные сети: дис. ... канд. тех. наук: 05.13.11,
05.13.19 / Большев Александр Константинович. - СПб., 2011. - 155 с.
19. Дайнеко, В.Ю. Разработка модели и алгоритмов обнаружения
вторжений на основе динамических байесовских сетей: дис. ... канд. тех. наук:
05.13.19 / Дайнеко Вячеслав Юрьевич. - СПб., 2013. - 130 с.163
20. Шарабыров, И.В. Система обнаружения атак в локальных беспроводных
сетях на основе интеллектуального анализа данных: дис. ... канд. тех. наук:
05.13.19 / Шарабыров Илья Викторович. - Уфа, 2016. - 144 с.
21. Singh, S. Fast model-based penetration testing [Электронный ресурс] /
Sankalp Singh, Lyons James, David M. Nicol. - Режим доступа: http://www.informssim.org/wsc04papers/037.pdf.
22. Hariri, S. Impact Analysis of Faults and Attacks in Large-Scale Networks
[Электронный ресурс] / Salim Hariri, Guangzhi Qu, Tushneem Dharmagadda [и др.] -
Режим доступа: http://acl.ece.arizona.edu/projects/old/nvat/j5049.pdf.
23. Chou, T.S. Teaching network security through signature analysis of computer
network attacks / Te-Shun Chou // American Society for Engineering Education Annual
Conference and Exposition 2012, ISBN: 978-1-62276-191-3. - 2012. - Т. 20. - C.
17577-17590.