Тема: Определение скрытых демографических характеристик пользователя социальной сети
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 4
Обзор литературы 5
Глава 1. Сбор и подготовка данных 6
1.1. Сбор данных 6
1.2. Предобработка данных 8
1.3. Формирование выборок 9
Глава 2. Методы машинного обучения с учителем 11
2.1. Виды машинного обучения с учителем 11
2.2. Метрики качества 11
2.3. Линейная регрессия 12
2.4. Логистическая регрессия 14
2.5. Метод опорных векторов 15
2.6. Метод k-ближайших соседей 17
2.7. Случайный лес 18
2.8. Градиентный бустинг 20
Глава 3. Графовые эмбеддинги 24
3.1. DeepWalk 24
3.2. Node2Vec 28
Глава 4. Графовые нейронные сети 31
4.1. Оригинальная концепция графовой нейронной сети 32
4.2. GraphSAGE 33
4.3. Реализация графовой нейронной сети 35
Анализ результатов 38
Заключение 40
Список литературы 41
📖 Введение
Подъем сервисов социальных сетей привел к растущему потенциалу для персонализации в компьютерных системах, начиная от интеллектуальных пользовательских интерфейсов или диалоговых агентов и систем рекомендаций до крупномасштабной аналитики здравоохранения, опроса в режиме реального времени, онлайн-рекламы и маркетинга. Исследователи начали добывать массивные объемы персонализированных и разнообразных данных, полученных в социальных сетях, с целью изучения демографических характеристик пользователей, таких как пол, возраст, политические предпочтения, пользовательские интересы, а также эмоции, психодемографический профиль и мнения, которые они выражают. В результате было реализовано несколько интеллектуальных аналитических услуг в социальных сетях [1,2]. Эти службы принимают на вход профиль из социальной сети и выводят прогнозы о личности, эмоциях, настроениях и демографических характеристиках человека, владеющего профилем.
Вывод демографических характеристик из социальных сетей является полезным механизмом, позволяющим лучше понять свою аудиторию и облегчить взаимодействие с этой аудиторией. На сегодняшний день, общим подходом к определению демографических характеристик является использование методов машинного обучения с учителем, обученных по текстовым признакам. Однако, основным ограничением этого подхода является то, что он мало использует топологию сети. Поэтому для борьбы с ограничениями этого подхода предложены методы, базирующиеся на векторном представлении вершин графов и подходы, которые используют нейронные сети для изучения общей структуры социального графа.
✅ Заключение
Также были рассмотрены и использованы алгоритмы для агрегирования информации из структуры социального графа, которая представляется в виде конечномерных векторов.
В данной работе было показано, что векторные представления вершин социального графа могут являться довольно значимыми признаками для определения демографических атрибутов и следовательно есть основания применять их для данной задачи, в том числе совместно с признаками, извлекаемыми из профилей пользователей. Однако проблемой использования данных признаков является то, что их вычисление, как правило, вычислительно затратно, поэтому при изменении структуры социального графа переобучение модели занимает продолжительное время.
С вышеупомянутой проблемой прекрасно справляется графовая нейронная сеть, которая не стремится обучать векторное представления для каждого узла, а напротив обучает набор агрегирующих функций, которые способны преобразовать исходные данные узла в векторное представление.
В качестве продолжения данной работы можно рассмотреть применение текстовой информации из постов пользователей в дополнении к информации, получаемой из структуры социального графа. Также можно сформулировать и решить задачу одновременного определения нескольких атрибутов пользователей, поскольку между разными демографическими атрибутами часто существуют неявные связи, которые могут улучшить качество определения скрытого атрибута.





