ВВЕДЕНИЕ 4
ГЛАВА 1 ОБЗОР ПРОБЛЕМАТИКИ. ПОСТАНОВКА ЗАДАЧ 6
1.1 Система больших данных 6
1.2 Анонимизация и ее место в публикации данных с сохранением
конфиденциальности 10
1.3 Стандартизация в области больших данных 14
1.4 к-анонимность 18
1.5 Дифференциальная анонимность 21
1.6 Процедуры, используемые при анонимизации 23
1.6.1 Обобщение и подавление 23
1.6.2 Стирание 25
1.6.3 Смешивание 26
1.6.4 Добавление шума 26
1.7 Потеря данных при анонимизации 29
1.8 (к-s) анонимность 30
1.9 Выводы по первой главе 32
ГЛАВА 2 МАТЕМАТИЧЕСКИЕ МЕТОДЫ И МОДЕЛИ. АЛГОРИТМЫ РЕШЕНИЯ 33
2.1 Модель потери информации 33
2.2 Оценка риска связывания 35
2.3 Виды к-анонимизации 36
2.4 Модель нарушителя 39
2.5 Примеры атак на анонимные наборы данных 41
2.5.1 Атака «Общий друг» 41
2.5.2 Атака «дружба» 41
2.5.3 Атака «ассоциация с группой» 42
2.6 Некоторые модели к-анонимности 43
2.6.1 k-NMF 43
2.6.2 к2-анонимность 43
2.7 Выводы по второй главе 45
ГЛАВА 3 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ 46
3.1 Описание программы 46
3.2. Системные требования 49
3.3 Алгоритм работы программы 50
3.4 Выводы по третьей главе 54
ГЛАВА 4 РЕЗУЛЬТАТЫ 55
4.1 к-анонимизация 57
4.2 Анализ потери данных для различных идентификаторов 59
4.3 Анализ модели (к-е)-анонимности 61
4.4 Анализ модели (к-е)-анонимности на предмет уязвимости к атакам
связывания 63
4.5 Сравнение потери информации моделей ^-анонимности и (к-е)-
анонимности 64
4.6. Стратегии обобщения 65
4.7. Выводы по четвертой главе 67
ЗАКЛЮЧЕНИЕ 68
СПИСОК ЛИТЕРАТУРЫ 69
Актуальность темы исследования. В современном мире объемы генерируемой информации постоянно растут и этот процесс является объективной реальностью. Предполагается, что к 2020 году общий объем данных, хранимых на серверах, возрастет до 40 ЗБ (зеттабайт). При таких темпах роста, объемы информации будут удваиваться ежегодно [1]. Большинство данных генерируется различными автономными устройствами, такими как роботы, датчики, различные интеллектуальные устройства. Для обработки таких больших объемов информации в настоящее время используется новая технология «большие данные» (big data).
Большие данные - это технологии и различные подходы обработки больших объемов информации. Данный подход призван выполнять три основные операции:
1) обработка больших объемов данных, по сравнению со стандартными сценариями обработки;
2) работа с данными, объем поступления которых постоянно растет;
3) обработка всех поступающих данных, то есть возможность обработки плохо структурированных данных.
Технология является относительно новой, и поэтому нет общепринятых стандартов построения больших данных, так же, как и нет стандартов в области обеспечения безопасности данных в подобных системах [1, 2].
Цель работы - разработка модели ^-анонимности и ее модификация с целью минимизации потери данных при осуществлении обезличивания больших данных.
Для достижения данной цели были сформулированы следующие задачи:
1) исследование существующих методов анонимизации традиционных баз данных и больших данных;
2) исследование существующих подходов по обеспечению информационной безопасности больших данных;
3) программная реализация исходной модели ^-анонимности;
4) исследование модели s-дифференциальной анонимности;
5) модификация исходной модели ^-анонимности путем реализации модели (£-£)-анонимности;
6) исследование эффективности модифицированной модели.
Объект исследования - модели анонимизации данных традиционных баз данных и больших данных.
Предмет исследования - подсистема анонимизации данных в системах обработки больших данных.
Научная новизна работы состоит в модификации модели анонимности данных, позволяющей минимизировать потери информации с сохранением уровня анонимности.
Практическая ценность работы состоит в применимости разработанной модели в системах больших данных, где обрабатываются как общедоступные, так и конфиденциальные данные.
Методы исследования:
Для решения поставленных в работе задач были использованы методы анонимизации данных традиционных баз данных, их усовершенствованные вариации для использования системах больших данных, кластеризация.
В ходе данной работы была рассмотрена процедура публикации данных с сохранением конфиденциальности. Исследованы существующие методы обезличивания традиционных баз данных и больших данных. Рассмотрены основные подходы по обеспечению безопасности больших данных на этапе их публикации сборщиком данных.
По результатам исследований, за основу разрабатываемой в рамках данной работы принята модель ^-анонимности, так как данная модель имеет высокую устойчивость к атакам связывания.
Произведена программная реализация модели ^-анонимности и ее исследование. Были рассмотрены основные характеристика моделей анонимности: устойчивость к атакам связывания и уровень потери информации при анонимизации. Результаты показали, что данная модель имеет высокую устойчивость к атакам связывания, которая увеличивается при увеличении значения параметра к, но при этом падает информативность анонимного набора данных. Было выяснено, что не все атрибуты следует анонимизировать методами модели к-анонимности, так как это приводит к существенным потерям информации.
Для решения проблемы потери информативности исходная модель к- анонимности была модифицирована путем комбинации ее методов с методами е-дифференциальной анонимности. Данный подход использует метод добавления контролируемого шума методом Лапласа.
Были проведены испытания модифицированной модели. Данная модель имеет преимущества перед исходной. Модифицированная модель имеет более низкие показатели потери информативности при анонимизации, уровень устойчивости к атакам связывания соответствует исходной модели. Данная модель имеет два настраиваемых параметра к и е, которые позволяют регулировать уровень устойчивости к атакам связывания и уровень потери информативности анонимного набора данных.