Тема: Разработка приложения для анализа сетевого трафика в режиме реального времени на основе ансамблевых методов машинного обучения
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ВВЕДЕНИЕ 6
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 9
2. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 23
2.1. Задача классификации трафика 23
2.2. Ансамблевые методы машинного обучения 23
2.3. Устройство сети 25
2.4. Анализатор пакетов 26
2.5. Набор данных 27
3. ПРОЕКТИРОВАНИЕ ПРИЛОЖЕНИЯ 31
3.1. Функциональные требования 31
3.2. Нефункциональные требования 31
3.3. Варианты использования приложения 31
3.4. Диаграмма компонентов 32
4. РЕАЛИЗАЦИЯ 34
4.1. Среда выполнения и программные средства разработки 34
4.2. Предобработка набора данных 34
4.3. Реализация ансамблевых алгоритмов 38
4.3.1. Реализация Random Forest 38
4.3.2. Реализация AdaBoost 39
4.4. Оценка качества алгоритмов 41
4.5. Реализация анализатора пакетов 42
4.6. Реализация интерфейса взаимодействия 43
5. ТЕСТИРОВАНИЕ 47
5.1. Функциональное тестирование 47
5.2. A/B тестирование 48
5.3. Подбор параметров модели 49
5.4. Тестирование анализатора пакетов 49
ЗАКЛЮЧЕНИЕ 52
ГЛОССАРИЙ 3
ВВЕДЕНИЕ 6
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 9
2. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 23
2.1. Задача классификации трафика 23
2.2. Ансамблевые методы машинного обучения 23
2.3. Устройство сети 25
2.4. Анализатор пакетов 26
2.5. Набор данных 27
3. ПРОЕКТИРОВАНИЕ ПРИЛОЖЕНИЯ 31
3.1. Функциональные требования 31
3.2. Нефункциональные требования 31
3.3. Варианты использования приложения 31
3.4. Диаграмма компонентов 32
4. РЕАЛИЗАЦИЯ 34
4.1. Среда выполнения и программные средства разработки 34
4.2. Предобработка набора данных 34
4.3. Реализация ансамблевых алгоритмов 38
4.3.1. Реализация Random Forest 38
4.3.2. Реализация AdaBoost 39
4.4. Оценка качества алгоритмов 41
4.5. Реализация анализатора пакетов 42
4.6. Реализация интерфейса взаимодействия 43
5. ТЕСТИРОВАНИЕ 47
5.1. Функциональное тестирование 47
5.2. A/B тестирование 48
5.3. Подбор параметров модели 49
5.4. Тестирование анализатора пакетов 49
ЗАКЛЮЧЕНИЕ 52
ЛИТЕРАТУРА 53
ПРИЛОЖЕНИЯ 58
Приложение А. Результаты обучения 58
Приложение Б. Спецификация вариантов использования 61
Приложение В. Исходный коды анализатора пакетов 63
Приложение Г. Матрицы возмущений 73
Приложение Д. График зависимости ошибки классификации 76
📖 Введение
В настоящее время продолжается рост количества пользовательских устройств, умных устройств, объединяющихся в системы умных домов, камер наблюдения. Одновременно с этим увеличивается объем трафика, используемого людьми и системами. Любое из представленных выше устройств может быть подвержено взломам и использовано при проведении DDoS-атак злоумышленниками.
В связи с этим, разработка новых систем обнаружения вторжений в последние годы становится все более и более приоритетной задачей для многих компаний.
Проведя анализ данных ресурсов «securelist.ru» и отчеты «Лаборатории Касперского» за период с 2020 по 2022 год [8-9], можно сделать вывод, что за это время выросло как общее количество атак, так и доля умных атак среди них. За первый квартал 2022 года количество атак выросло в 4-4,5 раза по сравнению с первым кварталом 2021 года, а в сравнении только с четвертым кварталом 2021 года, количество атак выросло в 1,5 раза. Сравнительная гистограмма представлена на рисунке 1. Помимо причин, описанных выше, росту способствует продолжающаяся пандемия и карантины в отдельных регионах. В следствии чего, люди больше пользуются интернетом. Почти вся жизнь людей за этот период перешла в сеть, что определенно сказалось на количестве атак в первом и втором квартале 2020 года, гистограммы представлены на рисунке 2.
Исходя из этих данных, можно сделать вывод о необходимости развития новых систем защиты с использованием алгоритмов машинного обучения.
Постановка задачи
Целью данной работы является разработка приложения для анализа сетевого трафика в режиме реального времени на основе ансамблевых методов машинного обучения.
Для достижения поставленной цели необходимо выполнить следующие задачи:
1) провести обзор научной литературы;
2) выбрать алгоритмы классификации;
3) реализовать выбранные алгоритмы классификации;
4) осуществить оценку качества использованных алгоритмов;
5) реализовать приложение для анализа трафика в реальном времени;
6) провести тестирование разработанного приложения.
Структура и объем работы
Работа состоит из введения, пяти глав, заключения и списка литературы. Объем работы составляет 76 страниц, объем списка литературы – 45 источников.
В первой главе описывается предметная область и производится анализ научной литературы.
Вторая глава посвящена рассмотрению алгоритмов Random Forest и AdaBoost, проведению анализа набора данных. Была рассмотрена задача классификации трафика, архитектура сети TCP/IP и анализаторы пакетов.
В третьей главе были определены основные требования к системе и разработаны диаграммы вариантов использования и компонентов.
Четвертая глава посвящена реализации ансамблевых моделей машинного обучения и приложения.
В пятой главе описывается процесс тестирования и оценки качества разработанного приложения и обученных моделей.
В приложениях содержатся спецификации вариантов использования, исходный код, графики ошибок и таблицы результатов.
✅ Заключение
В ходе работы были решены следующие задачи:
1) произведен обзор научной литературы;
2) реализованы выбранные методы машинного обучения;
3) осуществлена оценка качества реализованных алгоритмов;
4) реализован анализатор пакетов;
5) осуществлена оценка качества разработанного приложения.
По итогам проделанной работы была опубликована статья и сделан доклад в рамках международной конференции: G. Panyushkin and V. Varkentin, «Network Traffic and Ensemble Models in Machine Learning». International Conference on Quality Management, Transport and Information Security, Information Technologies (IT&QM&IS), 2021, pp. 526-532, doi: 10.1109/ITQMIS53292.2021.9642907.
В будущем планируется совершенствование разработанного приложения, улучшение качества классификации,
расширение функциональности.





