Тип работы:
Предмет:
Язык работы:


АНОНИМИЗАЦИЯ В ЗАДАЧАХ BIG DATA

Работа №33148

Тип работы

Магистерская диссертация

Предмет

информационные системы

Объем работы73
Год сдачи2019
Стоимость4900 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
389
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
ГЛАВА 1 ОБЗОР ПРОБЛЕМАТИКИ. ПОСТАНОВКА ЗАДАЧ 6
1.1 Система больших данных 6
1.2 Анонимизация и ее место в публикации данных с сохранением
конфиденциальности 10
1.3 Стандартизация в области больших данных 14
1.4 к-анонимность 18
1.5 Дифференциальная анонимность 21
1.6 Процедуры, используемые при анонимизации 23
1.6.1 Обобщение и подавление 23
1.6.2 Стирание 25
1.6.3 Смешивание 26
1.6.4 Добавление шума 26
1.7 Потеря данных при анонимизации 29
1.8 (к-s) анонимность 30
1.9 Выводы по первой главе 32
ГЛАВА 2 МАТЕМАТИЧЕСКИЕ МЕТОДЫ И МОДЕЛИ. АЛГОРИТМЫ РЕШЕНИЯ 33
2.1 Модель потери информации 33
2.2 Оценка риска связывания 35
2.3 Виды к-анонимизации 36
2.4 Модель нарушителя 39
2.5 Примеры атак на анонимные наборы данных 41
2.5.1 Атака «Общий друг» 41
2.5.2 Атака «дружба» 41
2.5.3 Атака «ассоциация с группой» 42
2.6 Некоторые модели к-анонимности 43
2.6.1 k-NMF 43
2.6.2 к2-анонимность 43
2.7 Выводы по второй главе 45
ГЛАВА 3 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ 46
3.1 Описание программы 46
3.2. Системные требования 49
3.3 Алгоритм работы программы 50
3.4 Выводы по третьей главе 54
ГЛАВА 4 РЕЗУЛЬТАТЫ 55
4.1 к-анонимизация 57
4.2 Анализ потери данных для различных идентификаторов 59
4.3 Анализ модели (к-е)-анонимности 61
4.4 Анализ модели (к-е)-анонимности на предмет уязвимости к атакам
связывания 63
4.5 Сравнение потери информации моделей ^-анонимности и (к-е)-
анонимности 64
4.6. Стратегии обобщения 65
4.7. Выводы по четвертой главе 67
ЗАКЛЮЧЕНИЕ 68
СПИСОК ЛИТЕРАТУРЫ 69


Актуальность темы исследования. В современном мире объемы генерируемой информации постоянно растут и этот процесс является объективной реальностью. Предполагается, что к 2020 году общий объем данных, хранимых на серверах, возрастет до 40 ЗБ (зеттабайт). При таких темпах роста, объемы информации будут удваиваться ежегодно [1]. Большинство данных генерируется различными автономными устройствами, такими как роботы, датчики, различные интеллектуальные устройства. Для обработки таких больших объемов информации в настоящее время используется новая технология «большие данные» (big data).
Большие данные - это технологии и различные подходы обработки больших объемов информации. Данный подход призван выполнять три основные операции:
1) обработка больших объемов данных, по сравнению со стандартными сценариями обработки;
2) работа с данными, объем поступления которых постоянно растет;
3) обработка всех поступающих данных, то есть возможность обработки плохо структурированных данных.
Технология является относительно новой, и поэтому нет общепринятых стандартов построения больших данных, так же, как и нет стандартов в области обеспечения безопасности данных в подобных системах [1, 2].
Цель работы - разработка модели ^-анонимности и ее модификация с целью минимизации потери данных при осуществлении обезличивания больших данных.
Для достижения данной цели были сформулированы следующие задачи:
1) исследование существующих методов анонимизации традиционных баз данных и больших данных;
2) исследование существующих подходов по обеспечению информационной безопасности больших данных;
3) программная реализация исходной модели ^-анонимности;
4) исследование модели s-дифференциальной анонимности;
5) модификация исходной модели ^-анонимности путем реализации модели (£-£)-анонимности;
6) исследование эффективности модифицированной модели.
Объект исследования - модели анонимизации данных традиционных баз данных и больших данных.
Предмет исследования - подсистема анонимизации данных в системах обработки больших данных.
Научная новизна работы состоит в модификации модели анонимности данных, позволяющей минимизировать потери информации с сохранением уровня анонимности.
Практическая ценность работы состоит в применимости разработанной модели в системах больших данных, где обрабатываются как общедоступные, так и конфиденциальные данные.
Методы исследования:
Для решения поставленных в работе задач были использованы методы анонимизации данных традиционных баз данных, их усовершенствованные вариации для использования системах больших данных, кластеризация.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе данной работы была рассмотрена процедура публикации данных с сохранением конфиденциальности. Исследованы существующие методы обезличивания традиционных баз данных и больших данных. Рассмотрены основные подходы по обеспечению безопасности больших данных на этапе их публикации сборщиком данных.
По результатам исследований, за основу разрабатываемой в рамках данной работы принята модель ^-анонимности, так как данная модель имеет высокую устойчивость к атакам связывания.
Произведена программная реализация модели ^-анонимности и ее исследование. Были рассмотрены основные характеристика моделей анонимности: устойчивость к атакам связывания и уровень потери информации при анонимизации. Результаты показали, что данная модель имеет высокую устойчивость к атакам связывания, которая увеличивается при увеличении значения параметра к, но при этом падает информативность анонимного набора данных. Было выяснено, что не все атрибуты следует анонимизировать методами модели к-анонимности, так как это приводит к существенным потерям информации.
Для решения проблемы потери информативности исходная модель к- анонимности была модифицирована путем комбинации ее методов с методами е-дифференциальной анонимности. Данный подход использует метод добавления контролируемого шума методом Лапласа.
Были проведены испытания модифицированной модели. Данная модель имеет преимущества перед исходной. Модифицированная модель имеет более низкие показатели потери информативности при анонимизации, уровень устойчивости к атакам связывания соответствует исходной модели. Данная модель имеет два настраиваемых параметра к и е, которые позволяют регулировать уровень устойчивости к атакам связывания и уровень потери информативности анонимного набора данных.



1. Xu., Jiang X. Information security in big data: privacy and data mining // IEEE Access. - 2014. - Vol 2. - P. 1149-1176.
2. Matwin S. Privacy-preserving data mining techniques: Survey and challenges // Discrimination and Privacy in the Information Society. - 2013. - P. 209-221.
3. NIST SP 1500-5 - Volume 5: Architectures white paper survey.
4. NIST SP 1500-6r1 - Volume 5: Reference architecture.
5. Han J., Kamber M., Pei J. Data Mining: Concepts and Techniques // San Mateo, CA, USA: Morgan Kaufmann. - 2006.
6. Brankovic L., Estivill-Castro V. Privacy issues in knowledge discovery and data mining // Proc. Austral. Inst. Comput. Ethics Conf. - 1999. - P. 89-99.
7. Morris M. The utilization and management of sockpuppets within online communities // A Capstone project. - 2014. - P. 55.
8. Carter S. Techniques to pollute electronic profiling [Электронный ресурс]. Режим доступа: https://www.google.com/ patents/US20070094738 (Дата обращения: 5.10.2018).
9. MaskMe: the nextbest thing to total web anonymity [Электронный ресурс]. Режим доступа: https://www.itworld.com/article/2833166/maskme--the- next-best-thing-to-total-web-anonymity.html (Дата обращения: 10.10.2018).
10. Ciriani V. Microdata protection/ Ciriani V., Foresti S., Samarati P. // Secure Data Management in Decentralized Systems. - 2007. - P. 291-321.
11. Fung B. C. M. Privacy-preserving data publishing: A survey of recent developments/ Fung B. C. M., Wang K., Chen R., Yu P. S. // ACM Comput. Surv. - 2010. - Vol. 42.
12. Hafez M. Attack vector analysis and privacy preserving social network data publishing // Proc. IEEE 10th Int. Conf. Trust, Secur. Privacy Comput. Com- mun. (TrustCom). - 2011. - P. 847-852.
13. ISO/IEC CD 20547-4 - Big data reference architecture - part 4: security and privacy.
14. NIST SP 1500-4r1 - Volume 4: Security and privacy.
15. Narayanan A., Shmatikov V. Robust de-anonymization of large sparse datasets // Proc. IEEE Symp. Secur. Privacy (SP). - 2008. - P. 111-125.
16. Волокитина Е.С. Способ идентификации субъекта персональных данных по обезличенным данным // . - 2012.
17. Big data безопасность [Электронный ресурс]. Режим доступа: http://rtbinsight.ru/articles/big-data-security.html. (Дата обращения: 28.10.2018).
18. Савельев А.И. Проблемы применения законодательства о персональных данных в эпоху «Больших данных» (Big Data) // Право. Журнал Высшей школы экономики. - 2015. - С. 43-66.
19. Первый закон о больших данных [Электронный ресурс]. Режим
доступа: http://www.cnews.ru/news/top/20181023_napisan_zakon_o_sbore_bol-
shih_dannyh_s_grazhdan (Дата обращения: 2.02.2019).
20. Новый законопроект о защите больших пользовательских данных
(БПДн) [Электронный ресурс]. Режим доступа:
https://habr.com/ru/company/cloud4y/blog/427975 (Дата обращения: 02.02.2019).
21. Ciriani V. k-anonymity / Ciriani V., De Capitani di Vimercati S., For- esti S., Samarati P. // Advance in information Security. - 2007.
22. Kumar K. Achieving k-anonymity using parallelism in full domain generalization.
23. FeiFei Z. , LiFeng D., Kun W. Privacy protection algorithm based on k-anonymity // Physics Procedia. - 2012. - Vol. 33. - P. 483-490.
24. Build R. SafePub: a truthful data anonymization algorithm with strong privacy guarantees / Build.R, Kuhn. Klaus A., Passer F. // De Gruyter open. - 2018.
- Vol. 1. - P. 67-87.
25. Simi S. An extensive study of data anonymization algorithm based on k-anonymity / Simi S., Sankara-Nayaki K., Shudheep M. // IOP Publishing. - 2017.
- Vol. 225. - P. - 225-234.
26. LeFevre K. Mondrian multidimensional k-anonymity/ LeFevre K., DeWitt D. J., Ramakrishnan R. // Proc. 22nd Int. Conf. Data Eng. (ICDE). - 2006. - P. 25-78.
27. Holohan N., Leith D. J., Mason O. Differentially private response mechanisms on categorical data // Discrete Applied Mathematics. - 2016. - Vol. 211. - P. 86-98.
28. Dwork C. Differential privacy // inProc. 33rdInt. Conf. Autom.,Lang. -
2006. - P. 1-12.
29. Bambauer J., Muralidhar K., Sarathy R. Fool’s gold: An illustrated critique of differential privacy // Vanderbilt Journal of Entertainment and Technology Law. - 2013. - Vol. 16. - P. 701,
30. Holohan N., Leith D. J., Mason O. Differential privacy in metric spaces: Numerical, categorical and functional data under the one roof // Information Sciences. - 2015. - Vol. 305. - P. 256-268.
31. Holohan N., Leith D. J., Mason O. Optimal differentially private mechanisms for randomized response // IEEE Transactions on Information Forensics and Security. - 2017. - Vol. 12. - P. 2726-2735.
32. Tang J., Korolova A., Bai X., Wang X., Wang X. Privacy Loss in Apple’s Implementation of Differential Privacy on MacOS 10.12 // ArXiv e-prints. - 2017.
33. Kellaris G. Papadopoulos S. Practical differential privacy via grouping and smoothing // Proceedings of the 39th international conference on Very Large Data Bases. - 2013. - ser. PVLDB’13. VLDB Endowment. - C. 301-312.
34. P.C. Chu. Cell suppression methodology: The importance of suppressing marginal totals// IEEE Trans. on Know ledge Data Systems. - 1997. - Vol.4. - P. 513-523.
35. Li T., Li N. Optimal k-anonymity with flexible generalization schemes through bottom-up searching.
36. Kargupta H., Datta S., Wang Q., Sivakumar K. On the privacy preserving properties of random data perturbation techniques// Third IEEE International Conference on Data Mining. - 2003. - P. 99-106.
37. Modi C. N., Rao U. P., Patel D. R. Maintaining privacy and data quality in privacy preserving associateion rule mining // Proc. Int. Conf. Comput. Commun. Netw. Technol. (ICCCNT). - 2010. - P. 1-6.
38. Greenberg A. Apple’s ‘differential privacy’ is about collecting your data - but not your data [Электронный ресурс]. Режим Доступа: https://www.wired.com/2016/ 06/apples-differential-privacy-collecting-data (Дата обращения: 28.12.2018).
39. Bertino E. A framework for evaluating privacy preserving data mining algorithm // Data mining and knowledge discovery. - 2005. - Vol. 11. - P.121-154.
40. Pierangela S., Latanya S. Protecting Privacy when disclosing information: k-anonymity and its enforcement through generalization and suppression.
41. Bickerstaffe E. Data Leakage Prevention // Information security forum limited. - 2018.
42. Couture E., Cain C. Establishing a security metrics program
[Электронный ресурс]. Режим доступа: https://www.sans.edu/student-
files/projects/jwp-caincouture-whitepaper (Дата обращения 7.01.2019).
43. Wang B., Yang J. Personalized (a, k)-anonymity algorithm based on entropy classification // J. Comput. Inf. Syst. - 2012. -Vol. 8. - P. 259-266.
44. Privacy preserving social network publication against mutual friend attacks [Электронный ресурс]. Режим доступа: http://arxiv.org/abs/1401.3201 (Дата обращения: 12.11.18).
45. Tai C.H. Privacy-preserving social network publication against friendship attacks / Tai C.H., Yu P. S., Yang D.-N,. Chen M.-S. // Proc. 17th ACM SIGKDD Int. Conf. Knowl. Discovery Data Mining. - 2011. - P. 1262-1270.
46. Zhu T. Structural attack to anonymous graph of social networks / Zhu T., Wang S., Li X., Zhou Z., Zhang R. // Math. Problems Eng. - 2013. - Vol. 2013.
47. Peng W. A two-stage deanonymization attack against anonymized social networks / Peng W., Li F., Zou X., Wu J. // IEEE Trans. Comput. - 2014. - Vol. 63. - P. 290-303
48. Qing-Jiang K. Xiao-Hao W., Jun Z. The (p, a, k)-anonymity model for privacy protection of personal information in the social networks // Proc. 6th IEEE Joint Int. Inf. Technol. Artif. Intell. Conf. (ITAIC). - 2011. - Vol. 2. - P. 420-423.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ