Введение 3
Актуальность 4
Цель работы 5
Задачи работы 5
Практическая значимость работы 6
Глава 1. Обзор алгоритмов визуализации графов и существующих решений 7
1.1 Представление структуры пользовательской дискуссии 7
1.2 Обзор Force-directed алгоритмов 8
1.3 Обзор существующих инструментов 21
Глава 2. Адаптация методов раскладки графов для анализа
пользовательских дискуссий 23
2.1 Постановка эксперимента 23
2.2 Проведение эксперимента 24
2.3 Результаты 34
Глава 3. Разработка программного комплекса для визуализации
пользовательских дискуссий 36
3.1 Функциональные характеристики приложения 37
Заключение 45
Результаты работы 45
Перспективы развития 46
Список литературы 47
В наши дни веб активно эволюционирует. Люди со всех уголков земли могут принимать активное участие в генерации контента. Им не нужно знать технологии, языки программирования и т.п., чтобы создать свой веб-ресурс. Каждый человек может с легкостью завести сообщество или страницу в социальной сети, так как для всего этого есть интуитивно понятные и доступные инструменты. В связи с этим пользователей социальных сетей становится все больше и больше (на данный момент в Twitter зарегистрировано 1.3 миллиарда аккаунтов, 330 миллионов из них являются активными пользователями), а следовательно, и количество информации, которое они генерируют, непрерывно растет.
Исследования, которые ведутся в настоящий момент [7], [8], [12], направлены на изучение поведения пользователей в дискуссиях в контексте реальных событий. Так как любое событие, происходящее в нашем мире, всегда сопровождается его обсуждением в социальных сетях.
Наука, занимающаяся исследованием социальных сетей в терминах теории графов — это и есть анализ социальных сетей (АСС или “social network analysis / SNA” в англоязычной литературе). Две основные задачи АСС — это сентиментный и структурный анализ сетей. Сентиментный анализ занимается изучением эмоций пользователей в сети, в его основе лежат нейролингвистическое программирование и машинное обучение. Структурный же анализ занимается исследованием сетей, посредством представления их в виде графов, в его основе лежит поиск эффективного метода визуализации графа для моделирования его структуры.
Данная работа посвящена структурному анализу пользовательских дискуссий в сети по реальным событиям.
Актуальность
В связи с активно растущим количеством информации в сети из-за разного контингента, числа пользователей и т.п. перед нами стоим интересная и при этом сложная задача — как лучше усвоить данную информацию.
Проблематика больших данных крайне актуальна из-за их разнообразия, высокой скорости поступления и конечно же большого объёма. Исследования, занимающиеся данной проблемой, решают такие задачи, как нахождение важных пользователей в сети [7], выявление их влияния на других пользователей [8], а также нахождение скрытых сообществ [12]. Поэтому семантический и структурный анализ дискуссий в сети является очень важным.
Проблема визуализации больших данных связана в первую очередь с нахождением и развитием методов, которые помогут компактно и эргономично их представить.
Глобальной же проблемой является именно восприятие большой информации, так как количество узлов в графе может достигать нескольких миллионов. Выбор эффективного метода раскладки графа позволяет отследить образовавшиеся сообщества, оценить важность узла по его расположению и размеру (например концентрация популярных пользователей в центре раскладки или же наоборот на ее периферии; зависимость размера узла от его степени), а так же выявить структуру и основные свойства графа. Всё это необходимо для качественного усвоения большой информации различными специалистами.
Цель работы
Целью данной работы является разработка методов и инструментов для визуализации структуры дискуссий разного объёма в рамках реальных событий в социальных сетях, позволяющих эффективным образом представлять пользователей и их связи для качественного усвоения даже самой большой информации экспертами из смежных предметных областей: социологами, политологами и т.д.
В данной выпускной квалификационной работе были выполнены следующие задачи:
• Проведен обзор научной литературы по теме исследования
• Проведен обзор алгоритмов раскладки графов
• Проведен обзор существующих решений для визуализации графов
• Проведено тестирование и апробация существующих алгоритмов раскладки графов на четырех реальных дискуссиях разного объёма, а также выявлены эффективные методы визуализации графов - Force Atlas 2 и Circle pack layout
• Разработан и реализован программный комплекс на основе клиент- серверного приложения, состоящий из алгоритма Force Atlas 2 и двух интерактивных карт (по сообществам и по степеням вершин), позволяющий эффективно взаимодействовать со структурой дискуссии в виде пользовательского веб-графа, а также имеющий возможность просмотра дискуссии
о Кодовая база приложения доступна по данной ссылке: https://github.com/IrinaS-77/Analysis of the Biryulyovo- Russia discussion
• Созданы интерактивные карты по сообществам для четырех дискуссий. Ознакомиться с ними можно перейдя по следующим ссылкам:
о Бирюлево: https://irinas-77.github.io/Biryulyovo web-
graph/network/
о Кельн: https://irinas-77.github.io/Cologne web-graph/network/
о Фергюсон: https://irinas-77.github.io/Ferguson web-graph/network/
о Шарли Эбдо: https://irinas-77.github.io/Charlie Hebdo web-
graph/network/
Перспективы развития
Данная дипломная работа несет следующие перспективы развития:
• Расширение функционала приложения
о Добавление не менее эффективных методов визуализации графов в программный компонент
о Принятие на вход различных форматов данных: csv, json, xml, gexf и другие
о Добавление возможностей в интерактивные карты: скрытие слабо активных пользователей (число связей меньше 3, например)
• Тестирование работы приложения на большем числе дискуссий разного объёма
[1] Yifan Hu. Efficient and High-Quality Force-Directed Graph Drawing. - Wolfram Research Inc, 2005.
[2] Applying Graph Layout Techniques to Web Information Visualization and Navigation / Wei Lai, Xiaodi Huang, Quang Vinh Nguyen, Mao Lin Huang. - CGIV, 2007.
[3] Носов, В.И. Элементы теории графов. - Новосибирск: СГУТИ, 2008.
[4] Richard Klavans. OpenOrd: An Open-Source Toolbox for Large Graph Layout / Richard Klavans, Kevin Boyack, Shawn Martin. - Proceedings of SPIE - The International Society for Optical Engineering, January 2011.
[5] ForceAtlas2, A Continuous Graph Layout Algorithm for Handy Network Visualization / Mathieu Jacomy, Sebastien Heymann, Tommaso Venturini, Mathieu Bastian. - August 1, 2012.
[6] Jie Hua. Drawing Large Weighted Graphs Using Clustered Force-Directed Algorithm / Jie Hua, Mao Lin Huang, Quang Vinh Nguyen. - 18th International Conference on Information Visualisation, 2014.
[7] Ivan Blekanov. Comparing influencers: activity vs. connectivity measures in defining key actors in twitter ad hoc discussions on migrants in Germany and Russia / Blekanov I.S., Bodrunova S.S, Litvinenko A.A. - Springer Verlag, 2017.
[8] Ivan Blekanov. Measuring influencers in twitter ad-hoc discussions: Active users vs. internal networks in the discourse on biryuliovo bashings in 2013 / Blekanov I.S., Bodrunova S.S, Maksimov A. - Institute of Electrical and Electronics Engineers Inc., 2017.
[9] Se-Hang Cheong. Snapshot Visualization of Complex Graphs with Force- Directed Algorithms / Se-Hang Cheong, Yain-Whar Si. - IEEE International Conference on Big Knowledge, 2018.
[10] Zhenhua Huang. Visualizing complex networks by leveraging community structures / Zhenhua Huang, Junxian Wu, Yangyang Zhao. - Physica A: Statistical Mechanics and its Applications, 2020.
[11] Derek L. Hansen. Installation, orientation, and layout / Derek L. Hansen, Itai Himelboim. - Analyzing Social Media Networks with NodeXL (Second Edition), 2020.
[12] Ivan Blekanov. Detection of Hidden Communities in Twitter Discussions of Varying Volumes / Ivan Blekanov, Svetlana S. Bodrunova, Askar Akhmetov. - Selected Papers from the 9th Annual Conference "Comparative Media Studies in Today's World" (CMSTW'2021)), 2021.
[13] Yanyan Wang. G6: A web-based library for graph visualization / Yanyan Wang, Zhanning Bai, Wei Chen. - Visual Informatics Available online, 2021.