Прогнозирование возраста пользователя в социальной сети: ансамбль классификаторов
|
Введение 4
1. Описание предметной области 8
1.1. Восстановление атрибутов пользователей 8
1.2. Обоснование целей и задач работы 9
1.3. Выбор социальной сети 10
1.4. Вывод по главе 10
2. Используемые подходы 11
2.1. Формализация задачи 11
2.2. Вычисление моды атрибутов окружения пользователя 11
2.3. Кластеризация 14
2.4. Метод средних значений сообществ пользователя 15
2.5. Ансамбль классификаторов 16
2.6. Вывод по главе 17
3. Теоретическая часть 18
3.1. Кросс-валидация 18
3.2. Метрики оценки качества методов 19
3.3. Вывод по главе 20
4. Реализация 21
4.1. Используемые программные инструменты 21
4.2. Сбор данных 21
4.3. Реализация метода «Мод» 24
4.4. Реализация метода кластеризации 24
4.5. Реализация метода средних значений сообществ пользователя 25
4.6. Реализация ансамбля 27
4.7. Сравнение результатов 29
4.8. Вывод по главе 31
Заключение 32
Список литературы 34
Приложение А: список терминов 38
1. Описание предметной области 8
1.1. Восстановление атрибутов пользователей 8
1.2. Обоснование целей и задач работы 9
1.3. Выбор социальной сети 10
1.4. Вывод по главе 10
2. Используемые подходы 11
2.1. Формализация задачи 11
2.2. Вычисление моды атрибутов окружения пользователя 11
2.3. Кластеризация 14
2.4. Метод средних значений сообществ пользователя 15
2.5. Ансамбль классификаторов 16
2.6. Вывод по главе 17
3. Теоретическая часть 18
3.1. Кросс-валидация 18
3.2. Метрики оценки качества методов 19
3.3. Вывод по главе 20
4. Реализация 21
4.1. Используемые программные инструменты 21
4.2. Сбор данных 21
4.3. Реализация метода «Мод» 24
4.4. Реализация метода кластеризации 24
4.5. Реализация метода средних значений сообществ пользователя 25
4.6. Реализация ансамбля 27
4.7. Сравнение результатов 29
4.8. Вывод по главе 31
Заключение 32
Список литературы 34
Приложение А: список терминов 38
Актуальность темы. В настоящее время все больше людей пользуются социальными сетями: по данным на 2021 год, в мире насчитывается 4.2 миллиарда пользователей социальных сетей, что составляет более 50% всего населения Земли [15]. Из отчета Федерального Бюро Расследований за 2020 год видно, что с увеличением числа пользователей, растет и количество зарегистрированных киберпреступлений [3]. Как следствие, увеличиваются материальные потери: убытки жертв таких преступлений на 2020 год составили более 4 миллиардов долларов. Для сравнения, в 2019 эта сумма составила 3.5 миллиарда [3].
Вопрос безопасности в мире информационных технологий выходит на первый план. Для защиты своих клиентов, IT-компании увеличивают бюджет, предотвращение кибератак [20]. Кроме того, страны повышают цифровую грамотность своего населения. Например, в Российской Федерации на специальной платформе проводится акция ’’Цифровой Диктант” (https://digitaldictation.ru/). Таким образом, данное направление становится одним из самых актуальных. Хотя вопросу безопасности уделяется большое внимание, количество преступлений продолжает расти. Можно предположить, что это связано не столько с безуспешностью борьбы с кибератаками, сколько о развитии данной отрасли криминального мира.
По данным Verizon за 2020 год, 22% всех атак содержали элементы социальной инженерии [14]. Из отчета компании видно, что в большинстве всех зафиксированных преступлений использовалось два вида нападений: фишинг и претекстинг. Процентное соотношение данных методов составляет примерно 90% к 10% соответственно. Представленная статистика показывает, что при кибератаках на информационные системы, уязвимости, связанные с человеческим фактором, часто используются злоумышленниками.
Успешность подобных методов сильно зависит от информации о целевом пользователе, которой владеет злоумышленник. Например, данные о возрасте человека. Так, интересы, а значит и сферы давления на слабые места детей и взрослых сильно отличаются [11]. Исследования компании Google показывают, что подростков больше интересует развлекательный контент, а людей более старшего возраста интересуют видео развивающего и прикладного характера. К примеру, люди возрастной категории 25-29 лет смотрят обучающие видео чаще, чем люди 13-17 лет [21]. Таким образом, можно предположить, что детей и подростков скорее заинтересует реклама какой-нибудь бесплатной игры, чем образовательные курсы. Опираясь на вышесказанное, можно допустить, что знание возраста потенциальной жертвы может помочь злоумышленникам.
Для предсказания возможных вариантов атак и их упреждения необходимо понимать, к какой возрастной категории относится пользователь. Эту информацию можно получить из аккаунтов людей в социальных сетях. Усложняется выявление возраста тем, что далеко не каждый заполняет поле «Возраст» или «Дата рождения» на своей странице в различных социальных сетях. Таким образом, вопрос определения возраста по данным, полученным со страницы пользователя, является актуальной областью исследования для предотвращения социоинженерных атак.
Целью данной работы является улучшение существующих (повышение точности и применимости) и разработка новых подходов восстановления возраста пользователей социальной сети для опосредованного повышения вероятности предотвращения социоинженерных атак. В том числе, подходов, использующих методы ансамблирования.
Для достижения этой цели были поставлены следующие задачи:
• Произвести идентификацию социальных сетей, которые будут наилучшим образом соответствовать критериям (популярность в русскоязычном сегменте интернет; отсутствуют значительные ограничения на работу с данными, такие как, например, невозможность их получения ранее реализованными способами)
• Провести сравнительный анализ существующих методов и подходов, для выявления применимых к выбранным социальным сетям
• Адаптировать существующие методы для возможности их применения на выбранных социальных сетях и провести сравнение их работы на собранных со страниц пользователей данных
• Синтезировать новые методы восстановления возраста для опосредованного повышения вероятности предотвращения социоинженерных атак
• Провести сопоставление разработанных методов с адаптированными для выявления преимуществ и недостатков
• Внедрить разработку в существующий комплекс для анализа пользователей социальных сетей
Объект исследования: аккаунты пользователей в социальных сетях.
Предмет исследования: методы восстановления возраста пользователей в социальных сетях.
Научная новизна заключается в том, что предложены новые способы агрегации данных и методы восстановления пропущенных возрастов пользователей.
Теоретическая и практическая значимость исследования. Теоретическая значимость заключается в создании новых подходов восстановления возрастов, которые позволят уточнить получаемые оценки для пользователей в социальной сети «ВКонтакте» (https://vk.com).
Практическая значимость заключается в интеграции полученных подходов в существующий комплекс программ для оценки защищенности пользователей информационных систем от социоинженерных атак. Это позволит повысить устойчивость к кибератакам, содержащим элементы социальной инженерии.
Структура и объем работы. Данная работа состоит из введения, - глав, заключения, списка используемой литературы и словаря терминов. Общий объем работы — 38 страницы.
В главе 1 проводится описание предметной области, обоснование актуальности целей и задач.
В главе 2 описываются существующие подходы к восстановлению пропущенных атрибутов пользователей.
В главе 3 описывается теоретическая составляющая проводимых расчетов.
В главе 4 представлено описание реализации рассмотренных методов.
Вопрос безопасности в мире информационных технологий выходит на первый план. Для защиты своих клиентов, IT-компании увеличивают бюджет, предотвращение кибератак [20]. Кроме того, страны повышают цифровую грамотность своего населения. Например, в Российской Федерации на специальной платформе проводится акция ’’Цифровой Диктант” (https://digitaldictation.ru/). Таким образом, данное направление становится одним из самых актуальных. Хотя вопросу безопасности уделяется большое внимание, количество преступлений продолжает расти. Можно предположить, что это связано не столько с безуспешностью борьбы с кибератаками, сколько о развитии данной отрасли криминального мира.
По данным Verizon за 2020 год, 22% всех атак содержали элементы социальной инженерии [14]. Из отчета компании видно, что в большинстве всех зафиксированных преступлений использовалось два вида нападений: фишинг и претекстинг. Процентное соотношение данных методов составляет примерно 90% к 10% соответственно. Представленная статистика показывает, что при кибератаках на информационные системы, уязвимости, связанные с человеческим фактором, часто используются злоумышленниками.
Успешность подобных методов сильно зависит от информации о целевом пользователе, которой владеет злоумышленник. Например, данные о возрасте человека. Так, интересы, а значит и сферы давления на слабые места детей и взрослых сильно отличаются [11]. Исследования компании Google показывают, что подростков больше интересует развлекательный контент, а людей более старшего возраста интересуют видео развивающего и прикладного характера. К примеру, люди возрастной категории 25-29 лет смотрят обучающие видео чаще, чем люди 13-17 лет [21]. Таким образом, можно предположить, что детей и подростков скорее заинтересует реклама какой-нибудь бесплатной игры, чем образовательные курсы. Опираясь на вышесказанное, можно допустить, что знание возраста потенциальной жертвы может помочь злоумышленникам.
Для предсказания возможных вариантов атак и их упреждения необходимо понимать, к какой возрастной категории относится пользователь. Эту информацию можно получить из аккаунтов людей в социальных сетях. Усложняется выявление возраста тем, что далеко не каждый заполняет поле «Возраст» или «Дата рождения» на своей странице в различных социальных сетях. Таким образом, вопрос определения возраста по данным, полученным со страницы пользователя, является актуальной областью исследования для предотвращения социоинженерных атак.
Целью данной работы является улучшение существующих (повышение точности и применимости) и разработка новых подходов восстановления возраста пользователей социальной сети для опосредованного повышения вероятности предотвращения социоинженерных атак. В том числе, подходов, использующих методы ансамблирования.
Для достижения этой цели были поставлены следующие задачи:
• Произвести идентификацию социальных сетей, которые будут наилучшим образом соответствовать критериям (популярность в русскоязычном сегменте интернет; отсутствуют значительные ограничения на работу с данными, такие как, например, невозможность их получения ранее реализованными способами)
• Провести сравнительный анализ существующих методов и подходов, для выявления применимых к выбранным социальным сетям
• Адаптировать существующие методы для возможности их применения на выбранных социальных сетях и провести сравнение их работы на собранных со страниц пользователей данных
• Синтезировать новые методы восстановления возраста для опосредованного повышения вероятности предотвращения социоинженерных атак
• Провести сопоставление разработанных методов с адаптированными для выявления преимуществ и недостатков
• Внедрить разработку в существующий комплекс для анализа пользователей социальных сетей
Объект исследования: аккаунты пользователей в социальных сетях.
Предмет исследования: методы восстановления возраста пользователей в социальных сетях.
Научная новизна заключается в том, что предложены новые способы агрегации данных и методы восстановления пропущенных возрастов пользователей.
Теоретическая и практическая значимость исследования. Теоретическая значимость заключается в создании новых подходов восстановления возрастов, которые позволят уточнить получаемые оценки для пользователей в социальной сети «ВКонтакте» (https://vk.com).
Практическая значимость заключается в интеграции полученных подходов в существующий комплекс программ для оценки защищенности пользователей информационных систем от социоинженерных атак. Это позволит повысить устойчивость к кибератакам, содержащим элементы социальной инженерии.
Структура и объем работы. Данная работа состоит из введения, - глав, заключения, списка используемой литературы и словаря терминов. Общий объем работы — 38 страницы.
В главе 1 проводится описание предметной области, обоснование актуальности целей и задач.
В главе 2 описываются существующие подходы к восстановлению пропущенных атрибутов пользователей.
В главе 3 описывается теоретическая составляющая проводимых расчетов.
В главе 4 представлено описание реализации рассмотренных методов.
В рамках дипломной работы были реализованы существующие методы восстановления возраста пользователей. Предложено два новых способа восстановления возраста пользователей, позволившие повысить точность классификаторов.
Для достижения представленных результатов была поставлена следующая цель: улучшить существующие (повысить точность и применимость) и разработать новые подходов восстановления возраста пользователей социальной сети для опосредованного повышения вероятности предотвращения социоинженерных атак, в том числе, подходов, использующих методы ансамблирования. Решены следующие задачи:
• Произведена идентификация социальных сетей. Выбрана сеть, лучше всего удовлетворяющая рассматриваемым критериям. Данные, полученные со страниц её пользователей использовались для дальнейшей работы
• Проведен анализ существующих методов и подходов
• Рассмотренные методы адаптированы под конкретную социальную сеть и проведено сравнение их точности на тестовых данных
• Синтезированы новые методы восстановления возраста пользователей социальных сетей
• Проведено сопоставление разработанных методов с адаптированными
• Осуществленно внедрение синтезированных методов в существующий комплекс для анализа пользователей социальных сетей
Таким образом был выполнен ряд поставленных задач, способствующих достижению цели выпускной квалификационной работы. Реализованные методы помогут повысить точность восстановления возраста
пользователей социальной сети «ВКонтакте», что в свою очередь позволит улучшить определение типов кибератак, которым подвержены различные пользователи.
Для достижения представленных результатов была поставлена следующая цель: улучшить существующие (повысить точность и применимость) и разработать новые подходов восстановления возраста пользователей социальной сети для опосредованного повышения вероятности предотвращения социоинженерных атак, в том числе, подходов, использующих методы ансамблирования. Решены следующие задачи:
• Произведена идентификация социальных сетей. Выбрана сеть, лучше всего удовлетворяющая рассматриваемым критериям. Данные, полученные со страниц её пользователей использовались для дальнейшей работы
• Проведен анализ существующих методов и подходов
• Рассмотренные методы адаптированы под конкретную социальную сеть и проведено сравнение их точности на тестовых данных
• Синтезированы новые методы восстановления возраста пользователей социальных сетей
• Проведено сопоставление разработанных методов с адаптированными
• Осуществленно внедрение синтезированных методов в существующий комплекс для анализа пользователей социальных сетей
Таким образом был выполнен ряд поставленных задач, способствующих достижению цели выпускной квалификационной работы. Реализованные методы помогут повысить точность восстановления возраста
пользователей социальной сети «ВКонтакте», что в свою очередь позволит улучшить определение типов кибератак, которым подвержены различные пользователи.



