Введение 3
Постановка задачи 5
1. Описание предметной области 6
1.1. Актуальность работы 6
1.2. Обзор литературы 7
2. Известные алгоритмы 8
2.1. Методы случайной выборки по вершинам 8
2.2. Методы случайной выборки по рёбрам 10
2.3. Аналитические методы 12
2.3.1. Метод “Снежного кома” 12
2.3.2. Метод случайных блужданий 13
2.3.3. Алгоритм Метрополиса-Хастингса 17
2.3.4. Алгоритм Метрополиса-Хастингса с ограничением 19
2.3.5. Forest Fire 20
3. Эксперимент 22
3.1. Модификация метода случайного обхода 22
3.2. Описание эксперимента 23
3.3. Результаты эксперимента 24
Заключение 27
Список литературы 28
Исследование свойств больших сетей является на данный момент актуальной задачей не только в мире математики, но и в других областях науки.
В настоящее время размеры сетевых структур могут достигать несколько миллионов элементов, и тогда возникает задача об оптимальном анализе свойств сети в условиях ограниченности времени и вычислительных мощностей. Существует множество известных алгоритмов для вычисления мер сети ( кратчайших путей, центральности, плотности, степени узлов, коэффициентов кластеризации и т.д.). Но некоторые из них становятся непрактичными для больших графов. Таким образом, встаёт вопрос возможно ли получить репрезентативный подграф, меньший по размеру, но с сохранением свойств изначального графа? Если это так, то запуск алгоритма на преобразованном графе будет иметь тот же эффект, что и на исходном. Кроме того, мы можем оценить характеристики исходного графа, используя только подграф.
Для того, чтобы уменьшить размер графа, и одновременно сохранить его свойства, существует множество сложных подходов. Например, можно сформулировать задачу математического программирования, чтобы минимизировать расстояние между исходным и выборочным графом. Этот подход, будучи очень точным, может быть чрезвычайно дорогостоящим. Например, решение задачи уменьшения размера графа таким образом, чтобы разрезы сохранялись, является NP-трудной [2]. Другим недостатком этих подходов является то, что они обычно требуют полной информации ( всего графа ). Это делает его бесполезным в некоторых сценариях, например в децентрализованных социальных сетях (DSN), где мы можем получить только часть данных и предположить, что это выборка (по некоторому распределению) из исходного графа.
Простой, но эффективный способ преобразования графа заключается в построении выборки (Graph Sampling): выбрать подмножество вершин или рёбер исходного графа. Самым большим преимуществом методов выборки является их эффективность выполнения, так что процедура преобразования не займет больше времени, чем простое вычисление на исходном графе.
В данной работе будут рассмотрены основные характеристики и существующие методы для обработки, прогнозирования и оценки структуры сложных сетей. Основной задачей будет являться выявление новых зависимостей и способов для решения проблемы анализа веб- графов в сети.
В выпускной квалификационной работе изучены и проанализированы существующие методы и алгоритмы для обработки, прогнозирования и оценки структуры сложных веб-графов, а также предложен собственный метод для извлечения эффективных выборок графа. В том числе получены следующие научные результаты:
1. Изучены существующие статьи и описанные в них методы и подходы.
2. Реализовано построение веб-графов, а также методов, предложенных в изученных статьях.
3. Предложен свой метод к извлечению эффективных выборок.
4. Предложен подход к сравнению методов.
5. Получен результат эксперимента сравнения полученных в ходе работы методы на основании предложенного подхода.
Таким образом были выполнены все поставленные задачи и достигнута цель работы. Результаты данной работы могут быть применимы, например, в анализе социальных сетей(ЗМЛ) для моделирования распространения сети, анализа характерных признаков и поведения элементов графа, а также прогнозирования связей в веб-графах.
[1] Github. Реализация методов // Приватный репозиторий, писать на почту al.kurapov@gmail.com. — 2021.—Режим доступа: https: //github.com/akrpv/graphs.
[2] Harvey N. Graph sparsifiers: A survey. — Proceedings Scientific- Computing presentation slides, 2011.
[3] J. Leskovec, J. Kleinberg, and C. Faloutsos. Graphs over time: densification laws, shrinking diameters and possible explanations. —In Proceedings of the eleventh ACM SIGKDD international conference on Knowledge discovery in data mining, pages 177-187, 2005.
[4] Jure Leskovec and Christos Faloutsos. Sampling from large graphs. — In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, 2006.
[5] L. A. Goodman. Snowball sampling. — The annals of mathematical statistics, 32(1):148-170, 1961.
[6] L. Jin, Y. Chen, P. Hui, C. Ding, T. Wang, A. V. Vasilakos, B. Deng, and X. Li. Albatross sampling: robust and effective hybrid vertex sampling for social graphs. — In Proceedings of the 3rd ACM international workshop on MobiArch, pages 11-16, 2011.
[7] M. Kurant, M. Gjoka, Y. Wang, Z. W. Almquist, C. T. Butts, and A. Markopoulou. Coarse-grained topology estimation via graph sampling. — In Proceedings of ACM SIGCOMM Workshop on Online Social Networks (WOSN) ’12, Helsinki, Finland, 2012.
[8] Michael PH Stumpf, Carsten Wiuf, and Robert M May. Subnets of scale-free networks are not scale-free: sampling properties of networks. — Proceedings of the National Academy of Sciences 102, 12 (2005), 4221-4224, 2005.
[9] Minas Gjoka, Maciej Kurant, Carter T Butts, and Athina Markopoulou. Walking in facebook: A case study of unbiased sampling of osns. — In 2010 Proceedings IEEE Infocom. leee, 1-9, 2010.
[10] N. Metropolis, A. W. Rosenbluth, M. N. Rosenbluth, A. H. Teller, and E. Teller. Equation of state calculations by fast computing machines. — The journal of chemical physics, 21:1087, 1953.
[11] Pili Hu, Wing Cheong Lau. A Survey and Taxonomy of Graph Sampling. — Department of Information Engineering Chinese University of Hong Kong, 2013.
[12] Rong-Hua Li, Jeffrey Xu Yu, Lu Qin, Rui Mao, and Tan Jin. On random walk based graph sampling. —In 2015 IEEE 31st International Conference on Data Engineering, 2015.
[13] S. Brin and L. Page. The anatomy of a large-scale hypertextual web search engine. — Comput. Netw.ISDN Syst., 30 (1-7), pp. 107-117, 1998.
[14] S. Chib and E. Greenberg. Understanding the Metropolis-Hastings algorithm. — The Americian Statistician, vol. 49, no. 4, pp. 327-335, 1995.
[15] Vaishnavi Krishnamurthy, Michalis Faloutsos, Marek Chrobak, Li Lao, J-H Cui, and Allon G Percus. Reducing large internet topologies for faster simulations. — s. In International Conference on Research in Networking, 2005.