Тип работы:
Предмет:
Язык работы:


Определение скрытых атрибутов пользователей социальных сетей с помощью анализа социального графа

Работа №68234

Тип работы

Бакалаврская работа

Предмет

информационные системы

Объем работы41
Год сдачи2016
Стоимость4850 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
45
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Обзор литературы 6
Основные определения 7
Глава 1. Данные и работа с ними 8
1.1. Коллекция данных 8
1.2. Взаимосвязь между дружбой пользователей и их атрибутами 9
Глава 2. Работа с социальным графом 12
2.1. Эвристические алгоритмы 12
2.2. Результаты 14
2.3. Вывод 16
Глава 3. Метод обучения с частичным привлечением учителя .... 18
3.1. Описание метода 18
3.2. Решение задачи оптимизации 19
3.3. Машинное обучение 21
3.4. Результаты 27
3.5. Вывод 30
Глава 4. Задача линейного программирования 31
4.1. Постановка задачи 31
4.2. Решение задачи 32
4.3. Вывод 33
Анализ методов 34
Заключение 36
Список литературы 37
Приложение 39


В настоящее время распространенность и значимость социальных сетей весьма высока. Существует достаточно большое число различных площадок, которые охватывают разные сферы интересов человека. Некоторые из таких сетей небольшие, но узко специализированные, например, сообщество Executive.ru [1] объединяет менеджеров, которые заинтересованы в профессиональном росте и в получении новых знаний для повышении квалификации. Сообщество, по его данным, насчитывает около 300 тысяч пользователей. Среди широкого спектра различных социальных сетей находятся и известные крупные сети глобального характера. Среди русских сетей это, например, «Одноклассники» и «ВКонтакте», а среди мировых — «Facebook» и «Google+». В сети «ВКонтакте» по данным компании зарегистрировано более 350 миллионов пользователей [2], а «Facebook» ежемесячно посещают 1,59 млрд. активных пользователей по данным от 31 декабря 2015 года [3].
Крупнейших сетей по всему миру насчитывают в количестве около 22 штук [4]. В них люди взаимодействуют с другими пользователями, создают свой круг общения по интересам и обмениваются информацией. В социальной сети у каждого пользователя есть профиль — некоторая информация, доступная другим пользователям. Атрибутами профиля, например, могут быть: имя, фамилия, возраст, город, университет и др. К сожалению, многие пользователи не стремятся указывать полную информацию о себе, например, возраст в профиле может быть неверным или вовсе опущен. Данное обстоятельство затрудняет поиск новых друзей, а также ограничивает возможности в разных областях человеческой деятельности.
Многие владельцы бизнеса продвигают свои услуги и продукты в социальных сетях, создавая для этого отдельные страницы или предлагая их в переписке другим пользователям. Любая компания имеет свою целевую аудиторию, и для нее очень важно продвигать свой продукт заинтересованным людям.
Кроме того, социальные сети — это удобная площадка для проведения социологических исследований. Важнейшими параметрами в социологическом опросе являются пол и возраст человека. Определение возраста пользователей социальной сети позволит сформировать репрезентативную выборку, то есть каждый пользователь, вне зависимости от того, указал он свой возраст или нет, имеет шанс попасть в данную выборку. Таким образом в итоговой выборке будут присутствовать представители разных подгрупп, что обеспечивает правильность дальнейших расчетов и исследований.
Таким образом, наличие полной информации из профиля пользователя является важным критерием для успешной работы в самых разных сферах человеческой деятельности.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной работы реализован и исследован общий метод определения скрытых атрибутов пользователей социальных сетей. Более того, проведены эксперименты на двух задачах: определение атрибутов пользователя по его эго-сети; определение атрибутов всех пользователей в рассматриваемом социальном графе.
В начале исследования проведен анализ социальных сетей, в результате которого выбрана наиболее подходящая сеть, а также отражен процесс загрузки данных и их хранение.
В ходе работы установлена зависимость между равенством атрибутов и дружбой пользователей, которая позволила разработать эвристические методы для определения атрибута пользователя на основе информации из его эгосети. Рассмотрен ряд недостатков этих методов и способ их устранения — метод обучения с частичным привлечением учителя. Для этого сформулирована оптимизационная задача, предложен способ ее решения и проведено исследование с различными метриками на двух поставленных задачах. Кроме того, в качестве возможного решения поставленных задач адаптирована задача линейного программирования и предложен способ ее решения.
В результатах работы отражен анализ предложенных методов для обеих поставленных задач. Метод обучения с частичным привлечением учителя показал наиболее точные результаты, достигая тем самым цели работы.



[1] Executive.ru URL: http://www.e-xecutive.ru/pages/about (дата обраще¬ния: 10.04.2016).
[2] ВКонтакте URL: http://vk.com/about?w=page-47200925_44240810 (да¬та обращение: 10.04.2016).
[3] Facebook newsroom URL: http://newsroom.fb.com/company-info/ (дата обращения: 10.04.2016).
[4] Список социальных сетей // Википедия URL: https://ru.wikipedia.org/wiki/Список_социальных_сетей (дата об¬ращения: 10.04.2016).
[5] Jure Leskovec, Julian J. Mcauley Learning to Discover Social Circles in Ego Networks // Advances in Neural Information Processing Systems 25. 2012. P. 548 -556.
[6] Yuxin Ding, Shengli Yan, YiBin Zhang, Wei Dai, Li Dong Predicting the attributes of social network users using a graph-based machine learning method // Computer Communications. 2016. No 73. P. 3 -11.
[7] Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston, Bernhard Scholkopf Learning with local and global consistency // Advances in neural information processing systems. 2004. No 16. P. 321 -328.
[8] Jon Kleinberg, ‘Eva Tardos Approximation Algorithms for Classification Problems with Pairwise Relationships: Metric Labeling and Markov Random Fields // Journal of the ACM, Vol. 49. 2002. No 5. P. 616 -639.
[9] SimilarWeb // Википедия URL: https://ru.wikipedia.org/wiki/SimilarWeb (дата обращения: 10.04.2016).
[10] ВКонтакте URL: https://vk.com/dev (дата обращения: 10.04.2016).
[11] JSON URL: http://www.json.org/json-ru.html (дата обращения: 10.04.2016).
[12] Community detection for NetworkX’s documentation // [Электронный ресурс]: URL: http://perso.crans.org/aynaud/communities/ (дата обраще-ния: 08.03.2016).
[13] Dengyong Zhou and Christopher J. C. Burges Spectral clustering and transductive learning with multiple views //In Proceedings of the 24th iternational conference on Machine learning. ACM, 2007. ICML ’07. P. 1159-1166.
[14] Dengyong Zhou, Olivier Bousquet, Thomas Navin Lal, Jason Weston, Bernhard Scholkopf Learning with local and global consistency //In Advances in Neural Information Processing Systems 16. MIT Press, 2004. P. 321-328.
[15] Konstantin Avrachenkov, Vladimir Dobrynin, Danil Nemirovsky, Son Kim Pham, Elena Smirnova Pagerank based clustering of hypertext document collections //In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2008. SIGIR ’08. P. 873-874.
[16] Scikit learn URL: http://scikit-learn.org/stable/documentation.html (дата обращения: 15.04.2016).
[17] Кривая ошибок // MachineLearning.ru URL: http://www.machinelearning.ru/wiki/index.php?title=ROC-кривая (дата обращения: 16.04.2016).
[18] Метод ближайших соседей // MachineLearning.ru URL: http://www.machinelearning.ru/wiki/index.php?title=Метод_ближайше- го_соседа (дата обращения: 16.04.2016).
[19] Скользящий контроль // MachineLearning.ru URL: http://www.machinelearning.ru/wiki/index.php?title=Скользящий_конт- роль (дата обращения: 16.04.2016).
[20] COIN-OR URL: http://www.coin-or.org (дата обращения 04.05.2016).
[21] PuLP 1.1 // Python URL: https://pypi.python.org/pypi/PuLP/1.1 (дата обращения: 04.05.2016).
[22] Optimization with PuLP // PuLP 1.6.0 documentation URL: http://pythonhosted.org/PuLP/ (дата обращения: 04.05.2016).
[23] LP file format URL: http://lpsolve.sourceforge.net/5.1/lp-format.htm (да¬та обращения: 04.05.2016).


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ