Тема: Разработка и реализация алгоритма обнаружения аномальной активности на конечных точках под управлением OC Windows (Московский технический университет связи и информатики)
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Учебное заведение:
Использовался язык программирования: Python (версия 3.10+).
Есть приложения (программный код).
Введение 3
1. Обзор существующих подходов 6
1.1. Проблема обнаружения аномалий и ее значимость 6
1.2. Анализ методов (статистические, машинное и глубокое обучение) 12
1.3. Оценка существующих наборов данных (ADFA-LD, ADFA-WD) 16
1.4. Обоснование необходимости нового набора данных 19
2. Методология создания набора данных 23
2.1. Структура набора данных: сетевые признаки, системные вызовы, метаданные 23
2.2. Алгоритм генерации нормальных и аномальных событий 25
2.3. Анализ и оценка набора данных 29
3. Разработка алгоритмов анализа данных 34
3.1.Выбор программных и аппаратных средств 34
3.2. Описание алгоритма обнаружения аномальной активности 35
3.3. Выбор алгоритмов машинного обучения 37
3.4. Обучение моделей и оценка их эффективности 39
3.5. Разработка пользовательского веб-приложения 43
Заключение 52
Список использованных источников 54
Приложение 59
📖 Введение
Обнаружение аномалий в сетевом трафике является важным аспектом обеспечения кибербезопасности, поскольку позволяет выявлять подозрительные активности, не соответствующие нормальному поведению сети [4]. Традиционные методы защиты, основанные на сигнатурах известных угроз, сталкиваются с ограничениями при обнаружении новых, ранее неизвестных видов атак, что подчеркивает необходимость разработки более гибких и адаптивных подходов [5]. В этом контексте методы машинного обучения приобретают особую значимость, предлагая инструменты для анализа больших объемов данных и выявления скрытых закономерностей, способных указывать на наличие аномалий [6].
Машинное обучение предоставляет широкий спектр алгоритмов, способных эффективно справляться с задачами обнаружения аномалий, обеспечивая высокую точность и адаптивность систем безопасности [7]. Среди них выделяются как методы классификации, так и алгоритмы кластеризации, а также подходы на основе нейронных сетей и глубинного обучения, которые демонстрируют высокую эффективность в условиях динамически изменяющихся сетевых сред [8]. Однако применение этих методов сопряжено с рядом вызовов, включая необходимость наличия качественных и репрезентативных наборов данных для обучения моделей, а также обеспечение их устойчивости к различным видам атак и ложноположительным срабатываниям [9].
Кроме того, важным аспектом исследований в области обнаружения аномалий является разработка и использование специализированных наборов данных, которые отражают реальные сценарии сетевых атак и позволяют проводить объективную оценку эффективности различных алгоритмов [10]. Наборы данных, такие как KDD Cup 99, NSL-KDD и Kyoto 2006+, стали стандартом де-факто для сравнительного анализа методов обнаружения вторжений, предоставляя исследователям возможность тестировать и оптимизировать свои модели в контролируемых условиях [11]. Тем не менее, постоянное развитие киберугроз требует создания новых, более сложных и разнообразных наборов данных, способных адекватно отражать современные вызовы в области сетевой безопасности [12].
Целью данной работы является разработка веб-приложения для обнаружения аномалий в сетевом трафике с использованием различных алгоритмов машинного обучения. Для достижения поставленной цели необходимо решить следующие задачи:
1. Исследовать и выбрать наиболее подходящие алгоритмы машинного обучения для задачи обнаружения аномалий.
2. Разработать процессы предварительной обработки данных, включая преобразование временных меток и кодирование категориальных признаков.
3. Создать и обучить модели на основе выбранных алгоритмов, обеспечивая их сохранение и загрузку для дальнейшего использования.
4. Разработать пользовательский интерфейс с помощью Streamlit для взаимодействия с моделями и отображения результатов предсказаний.
5. Интегрировать систему хранения данных с использованием базы данных SQLite для сохранения и управления результатами предсказаний.
Научная новизна работы заключается в комплексном подходе к разработке системы обнаружения аномалий, объединяющей несколько моделей машинного обучения и обеспечивающей удобный интерфейс для пользователей. Особое внимание уделяется автоматизации процессов предобработки данных и интеграции результатов предсказаний с базой данных, что позволяет создавать масштабируемые и надежные решения для анализа больших объемов данных.
Практическая значимость проекта обусловлена возможностью применения разработанного приложения в реальных условиях для мониторинга сетевого трафика, обнаружения мошеннических действий и предотвращения кибератак. Внедрение такого инструмента способствует повышению безопасности информационных систем и снижению рисков, связанных с несанкционированным доступом и нарушениями целостности данных.
Структура работы включает теоретическую часть, посвященную обзору методов машинного обучения и подходов к обнаружению аномалий, описание методологии разработки приложения, детальное изложение этапов реализации и интеграции компонентов системы, а также анализ результатов проведенных экспериментов. В работе используются методы анализа данных, машинного обучения, веб-разработки и работы с базами данных, что обеспечивает всестороннее освещение темы и практическую применимость представленных решений.
✅ Заключение
Для повышения эффективности алгоритмов применялись современные методы обработки данных, среди которых стоит выделить технологию SMOTE. Этот подход позволил сбалансировать классы в тренировочной выборке, обеспечив равномерное распределение целевых меток. В результате удалось существенно повысить точность предсказаний. Разнообразие использованных моделей машинного обучения, включая Random Forest, XGBoost и LightGBM, обеспечило возможность их сравнительного анализа. Это позволило выявить наиболее подходящие методы для решения поставленной задачи. Итоговые результаты, представленные в виде матриц ошибок, ROC- и PR-кривых, подтвердили высокую надежность и точность предложенных решений.
Отдельное внимание было уделено созданию веб-приложения с интуитивно понятным интерфейсом, разработанного для удобства анализа данных. Приложение дает пользователям возможность загружать модели и данные, вводить их вручную, получать предсказания и сохранять результаты в локальную базу данных. Универсальность системы обеспечивается ее совместимостью с различными алгоритмами машинного обучения, что делает ее применимой для широкого спектра задач.
В ходе проекта также была разработана логическая структура данных и механизмы их обработки, благодаря чему удалось добиться высокой производительности и стабильности приложения. Интерфейс прошел тестирование в различных сценариях использования, чтобы гарантировать его удобство и доступность для конечных пользователей. Такой подход позволил не только повысить точность работы алгоритмов, но и сделать процесс анализа данных максимально понятным и комфортным для пользователей.



