Введение 3
1. Анализ современных систем Social Network 5
2. Анализ моделей выявления влиятельных пользователей в системах Social Network 9
2.1. Анализ класса задач максимизации влияния 9
2.2. Анализ класса моделей влияния 11
2.2.1. Модель k-мерной декомпозиции 11
2.2.2. Модель ранжирования влиятельных пользователей на основе
кратчайшего пути - геодезической графа 12
2.2.3. Модель ранжирования влиятельных пользователей на основе
топологии графа 13
2.3. Анализ класса эмпирических мер влияния 15
3. Модель определения ранга влияния пользователей социальной сети
Instagram 18
3.1 Обоснование модели 18
3.1.1. Методика выбора признаков определения ранга влияния
пользователей из реальных социальных сетей 18
3.1.2. Описание особенностей социальной сети Instagram 21
3.2. Анализ мер оценки влияния пользователей сети Instagram 23
3.3. Описание метода определения ранга влияния пользователей в сети
Instagram 26
4. Проектирование системы 31
4.1. Схема базы данных хранения информации о пользователях социальной сети Instagram 31
4.2. Алгоритм сбора данных информации о пользователях сети Instagram 33
4.3. Пользовательский интерфейс 42
5. Экспериментальные исследования 45
5.1. Сбор данных 45
5.2. Обработка и стратегия анализа данных 46
5.3. Результаты анализа данных 48
Заключение 55
Список использованной литературы
Информация играет все большее и большее значение в современном мире. Кто владеет информацией, тот владеет миром [18]. В настоящее время существует довольно много средств, форм и способов оперативного обмена информацией, и немалая часть из них так или иначе связана с современными техническими возможностями, которые в частности представлены использованием глобальной компьютерной сети - Интернет. Следует заметить, что Интернет развивается довольно стремительно. Так, на сегодняшний день суточная посещаемость универсальных систем Social Network превышает численность многих стран мира. Это означает, что постепенно меняется подход к восприятию информации человеком: все больше людей перестают постоянно смотреть телевизор, слушать радио, читать газеты, а пользуются средствами Интернет, для удовлетворения своих информационных желаний и интересов [19]. Одним словом, Интернет стал полноценным источником всевозможной полезной информации.
В последнее время все больше и больше информации воспринимается через системы Social Network, через друзей пользователя. Человек, а в особенности молодое поколение, начинают доверять тому, что пишут в Интернет. Формируется определенный перечень лиц, которым пользователь доверяет больше всего, и которые соответственно имеют влияние на данного пользователя. Лицо, которое имеет влияние на пользователя Social Network или группу пользователей Social Network называется лидером (влиятельным пользователем сети).
Тема выявления влиятельных пользователей является популярной в науке [7,8,9]. Эта проблема изучается в социологии, теории графов, анализе социальных сетей, статистике, интеллектуальном анализе данных и машинном обучении.
Данная тема становится популярной из-за ее значимости для многих приложений. Например, компании могут продвигать свои товары или услуги использую влиятельных пользователей сети Instagram. Информация о
товарах и услугах может быстро распространиться через влиятельных пользователей сети Instagram. Такой вид продвижения снижает стоимость рекламы, потому что требует меньше усилий от компаний, чтобы достичь своих потенциальных клиентов.
Также нахождение влиятельных пользователей может иметь очень большое значение для политики. Например, влиятельные пользователи могут быть использованы для формирования и доведения определенной информации до широкой аудитории, а также для контроля тем новостей.
Быстрый рост социальных сетей и появление новых сетей означает возникновение новых каналов продвижения продукции. Влиятельные пользователи, таким образом, выступают важной средой для распространения информации.
Целью данной выпускной квалификационной работы является определение ранга влияния пользователей, на основе признаков, которые могут быть обнаружены в социальной сети Instagram. Также в исследование предлагается методика выбора признаков из реальных социальных сетей для определения ранга влияния пользователей.
Для достижения данной цели необходимо решить следующие задачи:
1. Рассмотреть предыдущие исследования по определению ранга влияния пользователей.
2. Описать модель определения ранга влияния пользователей в социальной сети Instagram.
3. Разработать программу для сбора информации о пользователях социальной сети Instagram.
4. Реализовать программу для определения ранга влияния пользователей на основе признаков, которые мы можем найти в социальной сети Instagram.
5. Реализовать пользовательский интерфейс.
В рамках данной выпускной квалификационной работы был разработан метод определения ранга влияния пользователей в социальной сети Instagram.
Была предложена модель, которая позволяет найти ранги влияния пользователей, основанная на особенностях, которые мы можем получить из сети Instagram. Эта модель включает в себя учет четырех мер влияния:
1) центральности по входной степени;
2) центральности по выходной степени;
3) количества упоминаний;
4) количества «лайков».
Эти меры влияния были выбраны из реальной социальной сети, которая предлагается в данной работе.
Также была дана классификация существующих систем Social Network, описаны модели выявления влиятельных пользователей, лидеров систем Social Network.
В работе представлен алгоритм сбора данных о пользователях сети, разработана программа, которая позволяет узнать ранг влияния пользователей в социальной сети Instagram.
Экспериментальные исследования показали, что:
1. Количество подписчиков имеет сильную положительную корреляцию с количеством «лайков» - чем больше число подписчиков у пользователя, тем больше количество «лайков» на постах пользователя.
2. «Лайки» могут распространять информацию (если пользователь ставит «лайк» на фото влиятельного пользователя, то подписчики могут видеть это).
Но обычно это предположение не выполняется. Поскольку подписчики не проверяют список действий своих подписок.
3. Количество подписчиков имеет слабую положительную корреляцию с числом упоминаний. Это означает, что большое количество подписок не означает большого количества упоминаний другими пользователями.
4. В таблице 5.4 представлены наиболее влиятельные пользователи в социальной сети Instagram.
Результаты показывают, что центральность по входной степени и количество «лайков» являются хорошими критериями для определения ранга влияния пользователя в Instagram.
В дальнейшей работе мы продолжим изучение и улучшим наш набор данных.
Изучение данных можно продолжить следующим образом:
1) Найти влиятельных пользователей на основе геолокаций, основанных на имени местоположения или долготе, широте.
2) Найти влиятельных пользователей на основе определенной темы, например, спорта, кухни, моды, музыки и т.д.
Таким образом, в результате решения поставленных в начале работы задач была достигнута цель выпускной квалификационной работы.
1. Емеличев В.А., Мельников О.И. и другие. Лекции по теории графов. - М.: Наука, 1990. - 392 с.
2. Харари Ф. Теория графов. - М.: Издательство «Либроком», 2009. - 302 с.
3. Лутц М. Изучаем Python (4-е издание). - СПБ: Издательство «Символ- Плюс», 2011. - 1280 с.
4. Головатый А., Каплан-Мосс Д. Django. Подробное руководство. - СПБ: Издательство «Символ-Плюс», 2010. - 560 с.
5. Фаронов В. В. Создание приложений с помощью C#: Руководство программиста. - М.: Эксмо, 2008. - 572 с.
6. Эндрю Троелсен. Язык программирования C# 5.0 и платформа .NET 4.5 (6¬е издание). - М.: Издательство «Вильямс», 2015. - 1312 с.
7. Cha M., Haddadi H., Benevenuto F., Gummadi K.P. Measuring User Influence in Twitter: The Million Follower Fallacy // ICWSM. - 2010. - Vol. 10. - P. 10-17.
8. Chen W., Wang Y., Yang S. Efficient Influence Maximization in Social Networks // Knowledge Discovery and Data Mining (KDD). - 2009. - P.199-208.
9. Ghosh R., Lerman K. Predicting Influential Users in Online Social Networks // Proceedings of KDD Workshop on Social Network Analysis. - 2010.
10. Zhang H., Mishra S., Thai M.T. Recent Advances in Information Diffusion and Influence Maximization of Complex Social Networks // Opportunistic Mobile Social Networks. - 2015. - P. 37-70.
11. Kempe D., Kleinberg J., Tardos E. Maximizing the Spread of Influence through a Social Network // Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. - 2003. - P. 137-146.
12. Pei S., Muchnik L., Andrade J.S.Jr., Zheng Z., Makse H.A. Searching for superspreaders of information in real-world social media // Scientific reposts. - 2014.
13. Basaras P., Katsaros D., Tassiulas L. Detecting Influential Spreaders in Complex, Dynamic Networks // IEEE Computer magazine. - 2013. - Vol. 46(4). - P. 26-31.
14. M. Kitsak, L.K. Gallos, S. Havlin, F. Liljeros, L. Muchnik, H.E. Stanley, H.A. Makse. Identifying Influential Spreaders in Complex Networks // Nature Physics. - 2010. - Vol. 6. - P. 888-893.
15. Brown P.E., Feng J. Measuring User Influence on Twitter Using Modified K- Shell Decomposition // Fifth International AAAI Conference on Weblogs and Social Media. - 2011. - P. 18-23.
16. P. Bonacich. Eigenvector-like measures of centrality for assymetric relations // Social Networks. - 2001. - Vol. 23. - P. 191-201.
17. Lee C., Kwak H., Park H., Moon S. Finding influentials from temporal order of information adoption in Twitter // Proceedings of the 19thInternational Conference on World Wide Web. - 2010. - P. 1137-1138.
18. Секрет фирмы. Кто владеет информацией, тот владеет миром [Электронный ресурс] - Режим доступа: http://www.moscowtorgi.ru/news/bezopasnost_biznesa/869/
19. Развитие мультимедийной культуры в информационном обществе [Электронный ресурс] - Режим доступа: http://www.dissercat.com/content/razvitie-multimediinoi-kultury-v- informatsionnom-obshchestve