Введение 3
Постановка задачи 4
Обзор литературы 5
Глава 1. Сбор и подготовка данных 6
1.1. Сбор данных 6
1.2. Предобработка данных 8
1.3. Формирование выборок 9
Глава 2. Методы машинного обучения с учителем 11
2.1. Виды машинного обучения с учителем 11
2.2. Метрики качества 11
2.3. Линейная регрессия 12
2.4. Логистическая регрессия 14
2.5. Метод опорных векторов 15
2.6. Метод k-ближайших соседей 17
2.7. Случайный лес 18
2.8. Градиентный бустинг 20
Глава 3. Графовые эмбеддинги 24
3.1. DeepWalk 24
3.2. Node2Vec 28
Глава 4. Графовые нейронные сети 31
4.1. Оригинальная концепция графовой нейронной сети 32
4.2. GraphSAGE 33
4.3. Реализация графовой нейронной сети 35
Анализ результатов 38
Заключение 40
Список литературы 41
Стремительный рост социальных сетей привел к огромным ежедневно генерируемым пользователями потокам данных. И, как оказалось, информация, извлекаемая из большого количества свободно доступного публичного контента потенциально может выявить многие черты, предпочтения и мнения владельца профиля.
Подъем сервисов социальных сетей привел к растущему потенциалу для персонализации в компьютерных системах, начиная от интеллектуальных пользовательских интерфейсов или диалоговых агентов и систем рекомендаций до крупномасштабной аналитики здравоохранения, опроса в режиме реального времени, онлайн-рекламы и маркетинга. Исследователи начали добывать массивные объемы персонализированных и разнообразных данных, полученных в социальных сетях, с целью изучения демографических характеристик пользователей, таких как пол, возраст, политические предпочтения, пользовательские интересы, а также эмоции, психодемографический профиль и мнения, которые они выражают. В результате было реализовано несколько интеллектуальных аналитических услуг в социальных сетях [1,2]. Эти службы принимают на вход профиль из социальной сети и выводят прогнозы о личности, эмоциях, настроениях и демографических характеристиках человека, владеющего профилем.
Вывод демографических характеристик из социальных сетей является полезным механизмом, позволяющим лучше понять свою аудиторию и облегчить взаимодействие с этой аудиторией. На сегодняшний день, общим подходом к определению демографических характеристик является использование методов машинного обучения с учителем, обученных по текстовым признакам. Однако, основным ограничением этого подхода является то, что он мало использует топологию сети. Поэтому для борьбы с ограничениями этого подхода предложены методы, базирующиеся на векторном представлении вершин графов и подходы, которые используют нейронные сети для изучения общей структуры социального графа.
В рамках данной работы были рассмотрены и применены методы машинного обучения с учителем к задаче определения неизвестных демографических атрибутов пользователя. Эксперименты были проведены для таких характеристик как возраст и пол.
Также были рассмотрены и использованы алгоритмы для агрегирования информации из структуры социального графа, которая представляется в виде конечномерных векторов.
В данной работе было показано, что векторные представления вершин социального графа могут являться довольно значимыми признаками для определения демографических атрибутов и следовательно есть основания применять их для данной задачи, в том числе совместно с признаками, извлекаемыми из профилей пользователей. Однако проблемой использования данных признаков является то, что их вычисление, как правило, вычислительно затратно, поэтому при изменении структуры социального графа переобучение модели занимает продолжительное время.
С вышеупомянутой проблемой прекрасно справляется графовая нейронная сеть, которая не стремится обучать векторное представления для каждого узла, а напротив обучает набор агрегирующих функций, которые способны преобразовать исходные данные узла в векторное представление.
В качестве продолжения данной работы можно рассмотреть применение текстовой информации из постов пользователей в дополнении к информации, получаемой из структуры социального графа. Также можно сформулировать и решить задачу одновременного определения нескольких атрибутов пользователей, поскольку между разными демографическими атрибутами часто существуют неявные связи, которые могут улучшить качество определения скрытого атрибута.
[1] ApplyMagicSauce URL: https://applymagicsauce.com/demo (дата обращения: 11.04.2019).
[2] PersonalityInsights URL: https://personality-insights-demo.ng.bluemix.net (дата обращения: 11.04.2019).
[3] Benton A., Arora R., Dredze M. Learning multiview embeddings of twitter users //Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). - 2016. - Т. 2. - С. 14-19.
[4] Sap M. et al. Developing age and gender predictive lexica over social media //Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). - 2014. - С. 1146-1151.
[5] Jaika K., Guntuku S. C., Ungar L. H. Facebook vs. twitter: Cross-platform differences in self-disclosure and trait prediction. - 2018.
[6] Volkova S., Bachrach Y. Inferring perceived demographics from user emotional tone and user-environment emotional contrast //Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). - 2016. - Т. 1. - С. 1567-1578.
[7] Mikolov T. et al. Efficient estimation of word representations in vector space //arXiv preprint arXiv:1301.3781. - 2013.
[8] Perozzi B., Al-Rfou R., Skiena S. Deepwalk: Online learning of social representations //Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. - ACM, 2014. - С. 701-710.
[9] Grover A., Leskovec J. node2vec: Scalable feature learning for networks //Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. - ACM, 2016. - С. 855-864.
[10] Tang J. et al. Line: Large-scale information network embedding //Proceedings of the 24th international conference on world wide web. - International World Wide Web Conferences Steering Committee, 2015. - С. 1067-1077.
[11] Wang D., Cui P., Zhu W. Structural deep network embedding //Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. - ACM, 2016. - С. 1225-1234.
[12] Perozzi B., Skiena S. Exact age prediction in social networks //Proceedings of the 24th International Conference on World Wide Web. - ACM, 2015. - С. 91-92.
[13] Zhou J. et al. Graph neural networks: A review of methods and applications //arXiv preprint arXiv:1812.08434. - 2018.
[14] Hamilton W., Ying Z., Leskovec J. Inductive representation learning on large graphs //Advances in Neural Information Processing Systems. - 2017. • С. 1024-1034.
[15] API ВКонтакте URL: https://vk.com/dev (дата обращения: 11.04.2019).
...