Тип работы:
Предмет:
Язык работы:


Прогнозирование возраста пользователя в социальной сети: ансамбль классификаторов

Работа №128230

Тип работы

Бакалаврская работа

Предмет

информационные системы

Объем работы37
Год сдачи2021
Стоимость4260 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
41
Не подходит работа?

Узнай цену на написание


Введение 4
1. Описание предметной области 8
1.1. Восстановление атрибутов пользователей 8
1.2. Обоснование целей и задач работы 9
1.3. Выбор социальной сети 10
1.4. Вывод по главе 10
2. Используемые подходы 11
2.1. Формализация задачи 11
2.2. Вычисление моды атрибутов окружения пользователя 11
2.3. Кластеризация 14
2.4. Метод средних значений сообществ пользователя 15
2.5. Ансамбль классификаторов 16
2.6. Вывод по главе 17
3. Теоретическая часть 18
3.1. Кросс-валидация 18
3.2. Метрики оценки качества методов 19
3.3. Вывод по главе 20
4. Реализация 21
4.1. Используемые программные инструменты 21
4.2. Сбор данных 21
4.3. Реализация метода «Мод» 24
4.4. Реализация метода кластеризации 24
4.5. Реализация метода средних значений сообществ пользователя 25
4.6. Реализация ансамбля 27
4.7. Сравнение результатов 29
4.8. Вывод по главе 31
Заключение 32
Список литературы 34
Приложение А: список терминов 38


Актуальность темы. В настоящее время все больше людей пользуются социальными сетями: по данным на 2021 год, в мире насчитывается 4.2 миллиарда пользователей социальных сетей, что составляет более 50% всего населения Земли [15]. Из отчета Федерального Бюро Расследований за 2020 год видно, что с увеличением числа пользователей, растет и количество зарегистрированных киберпреступлений [3]. Как следствие, увеличиваются материальные потери: убытки жертв таких преступлений на 2020 год составили более 4 миллиардов долларов. Для сравнения, в 2019 эта сумма составила 3.5 миллиарда [3].
Вопрос безопасности в мире информационных технологий выходит на первый план. Для защиты своих клиентов, IT-компании увеличивают бюджет, предотвращение кибератак [20]. Кроме того, страны повышают цифровую грамотность своего населения. Например, в Российской Федерации на специальной платформе проводится акция ’’Цифровой Диктант” (https://digitaldictation.ru/). Таким образом, данное направление становится одним из самых актуальных. Хотя вопросу безопасности уделяется большое внимание, количество преступлений продолжает расти. Можно предположить, что это связано не столько с безуспешностью борьбы с кибератаками, сколько о развитии данной отрасли криминального мира.
По данным Verizon за 2020 год, 22% всех атак содержали элементы социальной инженерии [14]. Из отчета компании видно, что в большинстве всех зафиксированных преступлений использовалось два вида нападений: фишинг и претекстинг. Процентное соотношение данных методов составляет примерно 90% к 10% соответственно. Представленная статистика показывает, что при кибератаках на информационные системы, уязвимости, связанные с человеческим фактором, часто используются злоумышленниками.
Успешность подобных методов сильно зависит от информации о целевом пользователе, которой владеет злоумышленник. Например, данные о возрасте человека. Так, интересы, а значит и сферы давления на слабые места детей и взрослых сильно отличаются [11]. Исследования компании Google показывают, что подростков больше интересует развлекательный контент, а людей более старшего возраста интересуют видео развивающего и прикладного характера. К примеру, люди возрастной категории 25-29 лет смотрят обучающие видео чаще, чем люди 13-17 лет [21]. Таким образом, можно предположить, что детей и подростков скорее заинтересует реклама какой-нибудь бесплатной игры, чем образовательные курсы. Опираясь на вышесказанное, можно допустить, что знание возраста потенциальной жертвы может помочь злоумышленникам.
Для предсказания возможных вариантов атак и их упреждения необходимо понимать, к какой возрастной категории относится пользователь. Эту информацию можно получить из аккаунтов людей в социальных сетях. Усложняется выявление возраста тем, что далеко не каждый заполняет поле «Возраст» или «Дата рождения» на своей странице в различных социальных сетях. Таким образом, вопрос определения возраста по данным, полученным со страницы пользователя, является актуальной областью исследования для предотвращения социоинженерных атак.
Целью данной работы является улучшение существующих (повышение точности и применимости) и разработка новых подходов восстановления возраста пользователей социальной сети для опосредованного повышения вероятности предотвращения социоинженерных атак. В том числе, подходов, использующих методы ансамблирования.
Для достижения этой цели были поставлены следующие задачи:
• Произвести идентификацию социальных сетей, которые будут наилучшим образом соответствовать критериям (популярность в русскоязычном сегменте интернет; отсутствуют значительные ограничения на работу с данными, такие как, например, невозможность их получения ранее реализованными способами)
• Провести сравнительный анализ существующих методов и подходов, для выявления применимых к выбранным социальным сетям
• Адаптировать существующие методы для возможности их применения на выбранных социальных сетях и провести сравнение их работы на собранных со страниц пользователей данных
• Синтезировать новые методы восстановления возраста для опосредованного повышения вероятности предотвращения социоинженерных атак
• Провести сопоставление разработанных методов с адаптированными для выявления преимуществ и недостатков
• Внедрить разработку в существующий комплекс для анализа пользователей социальных сетей
Объект исследования: аккаунты пользователей в социальных сетях.
Предмет исследования: методы восстановления возраста пользователей в социальных сетях.
Научная новизна заключается в том, что предложены новые способы агрегации данных и методы восстановления пропущенных возрастов пользователей.
Теоретическая и практическая значимость исследования. Теоретическая значимость заключается в создании новых подходов восстановления возрастов, которые позволят уточнить получаемые оценки для пользователей в социальной сети «ВКонтакте» (https://vk.com).
Практическая значимость заключается в интеграции полученных подходов в существующий комплекс программ для оценки защищенности пользователей информационных систем от социоинженерных атак. Это позволит повысить устойчивость к кибератакам, содержащим элементы социальной инженерии.
Структура и объем работы. Данная работа состоит из введения, - глав, заключения, списка используемой литературы и словаря терминов. Общий объем работы — 38 страницы.
В главе 1 проводится описание предметной области, обоснование актуальности целей и задач.
В главе 2 описываются существующие подходы к восстановлению пропущенных атрибутов пользователей.
В главе 3 описывается теоретическая составляющая проводимых расчетов.
В главе 4 представлено описание реализации рассмотренных методов.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках дипломной работы были реализованы существующие методы восстановления возраста пользователей. Предложено два новых способа восстановления возраста пользователей, позволившие повысить точность классификаторов.
Для достижения представленных результатов была поставлена следующая цель: улучшить существующие (повысить точность и применимость) и разработать новые подходов восстановления возраста пользователей социальной сети для опосредованного повышения вероятности предотвращения социоинженерных атак, в том числе, подходов, использующих методы ансамблирования. Решены следующие задачи:
• Произведена идентификация социальных сетей. Выбрана сеть, лучше всего удовлетворяющая рассматриваемым критериям. Данные, полученные со страниц её пользователей использовались для дальнейшей работы
• Проведен анализ существующих методов и подходов
• Рассмотренные методы адаптированы под конкретную социальную сеть и проведено сравнение их точности на тестовых данных
• Синтезированы новые методы восстановления возраста пользователей социальных сетей
• Проведено сопоставление разработанных методов с адаптированными
• Осуществленно внедрение синтезированных методов в существующий комплекс для анализа пользователей социальных сетей
Таким образом был выполнен ряд поставленных задач, способствующих достижению цели выпускной квалификационной работы. Реализованные методы помогут повысить точность восстановления возраста
пользователей социальной сети «ВКонтакте», что в свою очередь позволит улучшить определение типов кибератак, которым подвержены различные пользователи.



[1] Boehm U. Matzke D. Gretton-M. Castro S.-Cooper J. Skinner- М. Strayer D. Heathcote A. Real-time prediction of short-timescale fluctuations in cognitive workload // Cognitive Research: Principles and Implications Volume 6, Issue 1, December 2021, Article 30, doi:10.1186/s41235-021-00289-y.
[2] Derbentsev V. Babenko V. Khrustalev-K. Obruch H.-Khrustalova S. Comparative Performance of Machine Learning Ensemble Algorithms for Forecasting Cryptocurrency Prices// International Journal of Engineering Volume: 34, Issue: 1, Pages: 140-148, doi:10.5829/ije.2021.34.01a.164.
[3] Internet crime report 2020.— URL: https://www.ic3.gov/Media/PDF/AnnualReport/2020_IC3Report.pdf (дата обращения: 26.04.2021).
[4] Kaveeva A.D. Gurin K.E. Vkontakte’ local friendship networks: Identifying the missed residence of users in profile data// Monitoring Obshchestvennogo Mneniya: Ekonomicheskie i Sotsial’nye Peremeny Volume 145, Issue 3, May-June 2018, Pages 78-90, doi:10.14515/monitoring.2018.3.05.
[5] Meng T. Huang R. Lu-Y. Liu H.-Ren J. Zhao-G. Hu W. Highly sensitive terahertz non-destructive testing technology for stone relics deterioration prediction using SVM-based machine learning models // Heritage Science Volume 9, Issue 1, December 2021, Artcicle 24, doi:10.1186/s40494-021-00502-7.
[6] Metrics and scoring: quantifying the quality of predictions.— URL: https://scikit-learn.org/stable/modules/model_evaluation.html (дата обращения: 28.11.2020).
[7] Mulders D. de Bodt C.-Bjelland J. Pentland-A. Verleysen M.-de Montjoye YA. Inference of node attributes from social network assortativity// Neural Computing Applications Volume: 32, Issue: 24, Pages: 18023-18043, doi:10.1007/s00521-018-03967-z.
[8] Muller P.L. Odainic A. Treis-T. Herrmann P.-Tufail A. Holz-F.G. Pfau M. Inferred retinal sensitivity in recessive Stargardt disease using machine learning // Scientific Reports Volume 11, Issue 1, December 2021, Artcicle 1466, doi:10.1038/s41598-020-80766-4.
[9] Nie L. Zhang L. Wang M. Hong R.-Farseev A. Chua T. Learning user attributes via mobile social multimedia analytics // ACM Transactions on Intelligent Systems and Technology Volume 9, Issue 1, December 2021, Artcicle 24, doi:10.1145/2963105.
[10] Pirizadeh M. Alemohammad N. Manthouri M. Pirizadeh M. A new machine learning ensemble model for class imbalance problem of screening enhanced oil recovery methods// Journal of Petroleum Science and Engineering Volume 198, Article 108214, doi:10.1016/j.petrol.2020.108214.
[11] Samuel C. McQuade James P. Colt Nancy B. Meyer. Cyber Bullying: Protecting Kids and Adults from Online Bullies. — 2020.
[12] Seryasat OR. Kor I. Zadeh HG. Taleghani AS. Predicting the number of comments on Facebook posts using an ensemble regression model// International Journal of Nonlinear Analysis and Applications Volume: 12, Issue: 24, Pages: 49, doi:10.22075/IJNAA.2021.4796.
[13] TirtaH. Perdana N.J. Mulyawan B. Sparepart sales clusterization and prediction using automatic clustering algorithm // IOP Conference Series: Materials Science and Engineering, Volume 1007, Issue 1, Article 012191, doi:10.1088/1757-899X/1007/1/012191. — 2020.
[14] Verizon Data Breach Investigations Report.— 2020.— URL:
https://enterprise.verizon.com/resources/reports/2020-data-breach-investigations-report.pdf (дата обращения: 28.11.2020).
[15] Web Canape.— 2021.— URL: https://www.web-canape.ru/
business/vsya-statistika-interneta-i-socsetej-na-2021-god-cifry-(дата обращения: 26.04.2021).
[16] Wei C.-N. Wang L.-Y. Chang X.-Y. Zhou Q.-H. A prediction model using machine-learning algorithm for assessing intrathecal hyperbaric bupivacaine dose during cesarean section // BMC Anesthesiology Volume 21, Issue 1, December 2021, Artcicle 116, doi:10.1186/s12871- 021-01331-8.
[17] You Are Who You Know: Inferring User Profiles in Online Social Networks// WSDM 2010 - Proceedings of the 3rd ACM International Conference on Web Search and Data Mining, doi:10.1145/1718487.1718519 2010, Pages 251-260.
[18] Гомзин А.Г. Кузнецов С. Д. Метод автоматического определения возраста пользователей с помощью социальных связей //Труды института системного прогаммирования РАН Том: 28, номер: 6, страницы: 171-184 doi:10.15514/ISPRAS-2016-28(6)-12. — 2016.
[19] Как правильно выбрать метрику оценки для моделей машинного обучения: часть 1 Регрессионные метрики. — URL: https://www.machinelearningmastery.ru/how-to-select-the-right-evaluation-metric-for-machine-learning-i(дата обращения: 28.11.2020).
[20] Кибербезопасность 2019-2020.— URL: https://www.ptsecurity.com/ru-ru/research/analytics/cybersecurity-2019-2020/ (дата обращения: 28.11.2020).
[21] Новое поколение интернет-пользователей: исследование привычек и поведения российской молодежи онлайн.— 2017.— URL: https://www.thinkwithgoogle.
com/intl/ru-ru/consumer-insights/consumer-trends/novoe-pokolenie-internet-polzovatelei-issledovanie-privychek-i-j(дата обращения: 26.04.2021).
[22] Социальные сети в цифрах.— 2019.— URL: https:
//mediascope.net/upload/iblock/f97/18.04.2019_Mediascope_ Екатерина7о20Курносова_РИФ+КИВ7о202019.рЬ£ (дата обращения: 28.11.2020).
[23] Трофимович Ю.С. Козлов И.С. Турдаков Д.Ю. Подходы к определению основного места проживания пользователей социальных сетей на основе социального графа.— URL: https://cyberleninka.ru/article/n/
podhody-k-opredeleniyu-osnovnogo-mesta-prozhivaniya-polzovatele^(online; accessed: 28.11.2020).


Работу высылаем на протяжении 30 минут после оплаты.




©2024 Cервис помощи студентам в выполнении работ