Введение 4
1. Описание предметной области 12
1.1. Актуальность исследования 12
1.2. Обоснование целей и задач работы 13
2. Используемые подходы и программные средства 15
2.1. Подход к идентификации пользователей социальных сетей 15
2.2. Описание используемых программных средств 16
2.3. Описание используемых теоретических методов 16
2.3.1.Процедура скользящего контроля 16
3. Восстановление мета-профиля пользователя и агрегирование данных 18
3.1. Восстановление фрагмента мета-профиля пользователя 18
3.2. Сбор и агрегирование данных из различных социальных сетей 22
3.2.1. Формализация задачи агрегации данных из различных социальных сетей 23
3.2.2. Подходы к определению наиболее вероятной конфигурации набора параметров мета-профиля пользователя 26
4. Прототип программного модуля для восстановления фрагмента мета-профиля пользователя 27
4.1. Разработка программного модуля 27
4.2. Тестирование 29
Заключение 32
Список литературы 33
Словарь терминов 36
ПРИЛОЖЕНИЕ А. СВИДЕТЕЛЬСТВО О РЕГИСТРАЦИИ 38
Актуальность темы исследования. На сегодняшний день информационные технологии являются неотъемлемой частью жизни практически каждого человека. Интернет, смартфоны, технологии умного дома предоставляют огромный спектр возможностей, а также большую опасность [16, 8, 22]. Это связано с тем, что информационные технологии оперируют огромным количеством данных, в частности личными данными пользователей. При каком-либо успешном несанкционированном взломе хранилищ данных информационной системы (ИС)информация может подвергаться модификации, удалению и т.д., что абсолютно неприемлемо для той или иной компании. Атаки, производимые на информационные системы тех или иных компаний, могут происходить из-за разных вторжений в структуру ИС. Это могут быть программно-технические атаки, а также социоинженерные. В настоящее время область защиты ИС от программно-технических атак довольно хорошо изучена и активно развивается по настоящее время[17]. В свою очередь одной из менее изученных сфер информационной безопасности является сфера защиты пользователей информационных систем от социоинженерных атак (СИА). Сотрудники компании —одно из уязвимых мест в общем устройстве информационной системы. Из-за интенсивно растущей статистики ущерба от киберпреступлений, количества инцидентов, которые становятся известны из СМИ, увеличения времени, необходимого для расследования подобных преступлений задачи защиты пользователей информационных систем от социоинженерных атак являются сегодня очень актуальными, что подчёркивается в [9].
Существуют подходы [1, 15] к анализу степени защищённости пользователей информационных систем, основанные на оценке параметров моделей комплекса «критичные документы — информационная система —пользователь—злоумышленник» Согласно им, производится оценка защищённости пользователей информационных систем от социоинженерных атак путем построения профиля уязвимостей пользователя. Профиль уязвимостей пользователя строится на основании социальных, культур антропологических, психологических и иных особенностей пользователя [15]. В настоящей работе рассматривается подход к восстановлению фрагмента мета-профиля пользователя, способствующий оценке степени выраженности ряда психологических особенностей пользователей, как основы для построения их профилей уязвимостей. Под мета-профилем в данном контексте понимается набор анкетных данных пользователя, таких как ФИО, возраст, родной город, город проживания и др. Степень выраженности психологических особенностей пользователя может оцениваться на основании мнений экспертов, исходя из результатов анкетирования, а также на основании данных, извлекаемых из социальных сетей.
Основной подход, который описан в этой работе, будет основываться на работе с социальными сетями. Социальные сети сегодня — один из важных источников информации о пользователях киберфизических/киберсоциальных систем. Ежемесячно в Интернет в России выходят 65,9 млн человек, из которых социальные сети посещают более 90% [3]. По данным BrandAnalytics, каждый день в социальных сетях появляется порядка 30 млн. новых сообщений (350 постов в секунду), и 35 млн. человек оставляют хотя бы одно публичное сообщение в месяц [22]. В России наиболее популярными социальными сетями являются ВКонтакте (https://vk.com/), Одноклассники (https://ok.ru/), Instagram (https://www.instagram.com/), Twitter (https://twitter.com/), Facebook (https://www.facebook.com/) и Мой Мир (https://my.mail.ru/)[21]. Каждая из представленных социальных сетей ориентирована на свой сегмент пользователей.
С помощью анализа различных данных о пользователе, полученных из социальных сетей можно оценить различные особенности пользователя. Например, для оценки психологических особенностей пользователей, служащих основой для построения профиля уязвимостей, важно анализировать наиболее подробную информацию о пользователе, но часто в аккаунте заполнены не все анкетные данные. Недостающие данные можно извлекать из аккаунтов пользователя в других социальных сетях, а также исходя из социального круга пользователя. Данная работа посвящена методике и реализации восстановления фрагмента мета-профиля пользователя на основании информации, извлекаемой из социальной сети ВКонтакте.
Степень разработанности темы. На базе лаборатории теоретических и междисциплинарных проблем информатики Санкт-Петербургского института информатики и автоматизации РАН (ТиМПИ СПИИРАН) проводятся исследования, направленные на разработку автоматизированной системы анализа защищённости пользователей киберфизических/киберсоциальных систем от социоинженерных атак. Результаты, достигнутые коллективом исследователей, в проблемно-постановочной и методологической части, отражены в монографии Азаров А.А., Тулупьева Т.В., Суворова А.В., Тулупьев А.Л., Абрамов М.В., Юсупов Р.М. Социоинженерные атаки. Проблемы анализа. СПб.: Наука, 2016. 352 с. Разработаны модели и алгоритмы для идентификации аккаунтов сотрудников компании в социальной сети [8, 1].
Также проводились исследования в сфере идентификации пользователей социальных сетей на основе представленных данных и имеющихся ссылок на аккаунты других социальных сетей пользователя [16].
Цель данной работы заключается в восстановлении фрагмента мета-профиля пользователя за счёт агрегации данных, извлекаемых из контента, публикуемого пользователями в социальных сетях.
Для достижения цели работы были поставлены и решены следующие задачи:
1. Исследовать предметную область, изучить разработанные ранее подходы к агрегации сведений, получаемых из контента и связей пользователей в социальных сетях.
2. Исследовать предложенные средства APIразработки различных социальных сетей.
3. Разработать подход к восстановлению фрагмента мета-профиля (родного города, города проживания, года рождения) пользователя на основании анализа сведений, извлекаемых из социальной сети.
4. Разработать алгоритмы для восстановления фрагмента мета-профиля пользователя, основанные на агрегации сведений из социальной сети.
5. Разработать алгоритмы, решающие задачу агрегации данных из социальных сетей для определения наиболее вероятной конфигурации пропущенных значений параметров мета-профиля пользователя.
6. Разработать прототип программного модуля, целью которого является восстановление фрагмента мета-профиля пользователя по сведениям из социальной сети ВКонтакте.
Объектом исследования являются аккаунты пользователей социальной сети.
Предметом исследования являются методы автоматизированного получения информации, входящий в мета-профиль пользователя, но не указанной им в явном виде.
Научная новизна исследования заключается в том, что предложены новые алгоритмы определения более вероятной комбинации значений атрибутов мета-профиля пользователя на основе его социального окружения.
Рассмотрены новые подходы агрегации нескольких мета-профилей одного пользователя из различных социальных сетей на основе тех данных, которые указал пользователь и на основе анализа его социального окружения.
Теоретическая и практическая значимость исследования. В ходе исследования были разработаны новые подходы к агрегированию и анализу данных о пользователях в социальных сетях, которые используются для дополнения мета-профиля. Дополненный мета-профиль ляжет в основу оценок психологических особенностей сотрудников компании. Психологические особенности пользователя играют важную роль при построении профиля уязвимостей.
Полученная разработка, в свою очередь будет входить в общий комплекс программ для автоматизированной оценки защищённости пользователей информационных систем от социоинженерных атак.
Методология бакалаврской работы заключается в постановке и формализации задач, связанных с возможностью дополнения недостающих параметров мета-профиля пользователя социальной сети, описании моделей сущностей, используемых для построения оценок, разработке алгоритмов для определения недостающих данных мета-профиля и способам агрегации данных из нескольких социальных сетей, а также описание полученных теоретических результатов посредством реализации алгоритмов и методов в комплексе программ.
Методы. В процессе разработки практической части исследования бакалаврской квалификационной работы были использованы методы объектно-ориентированного программирования (ООП). Также в процессе создания архитектуры программного модуля использовались различные паттерны проектирования. В теоретической части исследования применялись утверждения и методы таких дисциплин, как теория вероятностей и эмпирическое оценивание алгоритмов, в частности, процедура скользящего контроля.
Положения, выносимые на защиту. На защиту выносятся следующие положения:
1. Подход к восстановлению фрагмента мета-профиля (родного города, города проживания, года рождения) пользователя на основании анализа сведений, извлекаемых из социальной сети.
2. Алгоритмы для восстановления фрагмента мета-профиля пользователя, основанные на агрегации сведений из социальной сети.
3. Алгоритмы, решающие задачу агрегации данных из социальных сетей для определения наиболее вероятной конфигурации пропущенных значений параметров мета-профиля пользователя.
4. Прототип программного модуля, целью которого является восстановление фрагмента мета-профиля пользователя по сведениям из социальной сети ВКонтакте.
Апробация результатов. Итоги исследования были представлены на ряде научных мероприятий:
• Информационная безопасность регионов России (ИБРР-2017). X Санкт-Петербургская межрегиональная конференция. (Санкт-Петербург, 1–3 ноября 2017 г.);
• Первая Всероссийская научно-практическая конференция (г. Ульяновск, 14-15 ноября, 2017 г.).
Результаты, полученные в работе, были использованы в научно-исследовательских проектах, поддержанных грантами РФФИ №18-37-00323, №18-01-00626 и проектом по госзаданию СПИИРАН №0073-2018-0001.
Публикации. По теме выпускной квалификационной работы бакалавра было сделано3 научных публикации, 2 из которых индексируются в РИНЦ [20, 19], а 1 из них принята к публикации в издании, индексируемом Scopus, также было получено свидетельство о регистрации программы для ЭВМ в Роспатент (приложение А), а также отправлены 2 новые заявки.
Благодарности. Данная выпускная квалификационная работа бакалавра содержит материалы исследований, частично поддержанных грантами: №18-01-00626 — «Методы представления, синтеза оценок истинности и машинного обучения в алгебраических байесовских сетях и родственных моделях знаний с неопределенностью: логико-вероятностный подход и системы графов», №18-37-00323 — «Социоинженерные атаки в корпоративных информационных системах: подходы, методы и алгоритмы выявления наиболее вероятных траекторий» и проектом по госзаданию СПИИРАН №0073-2018-0001.
Структура и объем работы. Представленная работа состоит из введения, четырех глав, заключения, используемой литературы, словаря терминов и приложения, содержащие свидетельства о регистрации программ для ЭВМ. Общий объем работы— 38 страниц.
Глава 1 содержит описание предметной области, основные определения и понятия, связанные с областью работы, а также список используемых средств.
Глава 2 посвящена разработке системы восстановления мета-профиля пользователя социальной сети ВКонтакте: описаны основные разработанные алгоритмы и подходы, представлены полученные результаты.
Глава 3 посвящена построению системы агрегирования данных из различных социальных сетей. Рассказывается в рамках каких социальных сетях разрабатывалась программа, основные алгоритмы сбора данных, анализы полученных данных.
Глава 4 описывает подход объединения систем в программу, работающую с различными социальными сетями. В ней рассказывается о выбранных алгоритмах слияния нескольких информационных блоков одного человека в один, выставление приоритетов этих данных, распознавания схожести аккаунтов двух пользователей и вывод получившейся статистики.
В рамках данной работы были получены следующие результаты:
1. Исследована предметная область, изучены разработанные ранее подходы к агрегации сведений, получаемых из контента и связей пользователей в социальных сетях;
2. Исследованы предложенные средства APIразработки различных социальных сетей;
3. Разработан подход к восстановлению фрагмента мета-профиля (родного города, города проживания, года рождения) пользователя на основании анализа сведений, извлекаемых из социальной сети;
4. Разработаны алгоритмы для восстановления фрагмента мета-профиля пользователя, основанные на агрегации сведений из социальной сети;
5. Разработаны алгоритмы, решающие задачу агрегации данных из социальных сетей для определения наиболее вероятной конфигурации пропущенных значений параметров мета-профиля пользователя.
6. Разработан прототип программного модуля, целью которого является восстановление фрагмента мета-профиля пользователя по сведениям из социальной сети ВКонтакте.
Таким образом, все поставленные задачи выполнены, цель работы, которая заключалась в создании программы, нацеленной на восстановление недостающих данных о пользователе и агрегирование страниц пользователя в различных социальных сетях, достигнута.
1. Bagretsov G.I., Shindarev N.A., Abramov M.V., Tulupyeva T.V. Approaches to development of models for text analysis of information in social network profiles in order to evaluate user’s vulnerabilities profile //Soft Computing and Measurements (SCM), 2017 XX IEEE International Conference on. —IEEE, 2017. —P. 93–95
2. Irani D., Webb S., Kang L., Calton P. Large online social footprints—an emerging threat //Computational Science and Engineering, 2009. CSE'09. International Conference on. —IEEE, 2009. —Т. 3. —С. 271–276.
3. James A. Lewis, Assessing the Risks of Cyber Terrorism, Cyber War and Other Cyber Threats // Center for Strategic and International Studies, 2002.
4. Kohavi R. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. — 14th International Joint Conference on Artificial Intelligence, Palais de Congres Montreal, Quebec, Canada. — 1995. — С. 1137–1145.
5. Kontaxis G., Polakis I., Ioannidis S., Markatos E.P. Detecting social network profile cloning //Pervasive Computing and Communications Workshops (PERCOM Workshops), 2011 IEEE International Conference on. —IEEE, 2011. —С. 295–300.
6. Langford J. Quantitatively Tight Sample Complexity Bounds. — Carnegie Mellon Thesis. — 2002. — 124 с.
7. Malhotra A., Totti L., Meira Jr W., Kumaraguru P., Almeida V. Studying user footprints in different online social networks //Advances in Social Networks Analysis and Mining (ASONAM), 2012 IEEE/ACM International Conference on. —IEEE, 2012. —С. 1065–1070.
8. Shindarev N., Bagretsov G., Abramov M., Tulupyeva T., Suvorova A. Approach to identifying of employees profiles in websites of social networks aimed to analyze social engineering vulnerabilities //Advances in Intelligent Systems and Computing. Proceedings of the Second International Scientific Conference “Intelligent Information Technologies for Industry” (IITI’17). Vol. 1. 2017. P.441–447.
9. TheHumanFactorinITSecurity: HowEmployeesareMakingBusinessesVulnerablefromWithin [Электронный ресурс]// KasperskyLab. — 2017. — URL: https://www.kaspersky.com/blog/the-human-factor-in-it-security/ (дата обращения: 06.10.2017)
10. Wikipedia: API. URL: https://ru.wikipedia.org/wiki/API.
11. Wikipedia: Интегрированнаясредаразработки. URL: https:// ru.wikipedia.org/wiki/Интегрированная_среда_разработки.
12. Wikipedia: Социальная сеть. URL: https://ru.wikipedia.org/ wiki/Социальная_сеть.
13. Wikipedia: Фреймворк. URL: https://ru.wikipedia.org/wiki/Фреймворк.
14. Абрамов М.В., Азаров А.А., Тулупьева Т.В., Тулупьев А.Л. Модель профиля компетенций злоумышленника в задаче анализа защищённости персонала информационных систем от социоинженерных атак //Информационно-управляющие системы. 2016. №4. С. 77–84
15. Азаров А.А., Тулупьева Т.В., Суворова А.В., Тулупьев А.Л., Абрамов М.В., Юсупов Р.М. Социоинженерные атаки: проблемы анализа. СПб.: Наука, 2016
16. Бартунов С., Коршунов А. Идентификация пользователей социальных сетей в Интернет на основе социальных связей //Труды конференции по Анализу Изображений Сетей и Текстов (АИСТ). —2012.
17. Егоров С.В., Иванов М.С., Рядчин Ю.И.Предотвращение угрозы вирусных атак в автоматизированных системах // Текст научной статьи по специальности «Автоматика. Вычислительная техника», 2006
18. Лицензионное соглашение социальной сети «ВКонтакте». URL:https://vk.com/licence.
19. Слезкин Н.Е., Абрамов М.В., Тулупьева Т.В. Подход к восстановлению мета-профиля пользователя информационной системы на основании данных из социальных сетей // Сборник научных трудов Первой Всероссийской научно-практической конференции (г. Ульяновск, 14–15 ноября, 2017 г.). —Ульяновск, УлГТУ, 2017. С. 394–399
20. Слезкин Н.Е., Азаров А.А. Восстановление профиля уязвимостей пользователей информационных систем на основании информации, которая может быть получена из социальных сетей // Информационная безопасность регионов России (ИБРР-2017). X Санкт-Петербургская межрегиональная конференция. (Санкт-Петербург, 1–3 ноября 2017 г.): Материалы конференции. СПб: СПОИСУ, 2017. С. 426–427
21. Социальные сети в России: исследование BrandAnalytics, лето 2017. URL:http://blog.br-analytics.ru/sotsialnye-seti-v-rossii-leto-2017-tsifry-i-trendy/
22. Социальные сети в России: исследование Mail.RuGroup. URL: https://corp.imgsmail.ru/media/files/issledovanie-auditorij-sotcialnykh-setej.pdf
23. Тулупьева Т.В., Тулупьев, А.Л., Пащенко А.Е., Азаров А.А., Степашкин М.В. Социально-психологические факторы, влияющие на степень уязвимости пользователей автоматизированных информационных систем с точки зрения социоинженерных атак //Труды СПИИРАН. —2010. —Т. 1. —№. 12. —С. 200–214.