Тип работы:
Предмет:
Язык работы:


Применение методов топологического анализа данных при балансировке нагрузки в вычислительных сетях

Работа №131019

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы75
Год сдачи2016
Стоимость5700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
15
Не подходит работа?

Узнай цену на написание


Введение 4
Постановка задачи 6
Глава 1. Теоретические основы. Обзор литературы 7
1.1 Балансировка нагрузки 8
1.2 Топологические методы анализа данных 11
1.3 Применение методов анализа данных в задачах балансировки нагрузки 14
Выводы по главе 16
Глава 2. Предлагаемые подходы и вычислительные эксперименты 17
2.1 Подготовка данных 17
2.2 Кластеризация методом k-средних 20
2.3 Кластеризация с помощью смеси гауссиан 22
2.4 Выявление различных типов задач с помощью устойчивых гомологий 23
2.5 Алгоритм Mapper 25
Выводы по главе 25
Глава 3. Реализация и результаты 27
3.1 Подготовка данных 27
3.2 Реализация алгоритма кластеризации k-средних, подбор параметров и
результаты 32
3.3 Анализ данных с использованием смеси гауссиан с процессом Дирихле 38
3.4 Реализация выявления типов задач с помощью устойчивых гомологий 41
3.5 Поиск компонент сильной связности в облаке данных с помощью алгоритма
Mapper 43
Выводы по главе 47
Заключение 49
Список литературы 50
Приложение

За довольно непродолжительное время количество данных, генерируемых человечеством в единицу времени, невероятно возросло. Буквально каждую минуту генерируется информация сравнимая по объёму с информацией, на создание которой в прошлом требовались десятки лет. Одной из причин такого роста является развитие технологий, в частности, развитие интернета и вычислительных сетей.
Интернет можно рассматривать как совокупностью информационных систем, каждая из которых осуществляет обработку информации. При увеличении объёма данных, которые обрабатывает информационная система, производительности, которую может обеспечить одна вычислительная машина становится недостаточно, что послужило причиной объединения вычислительных машин в вычислительные сети, обеспечивающие работу информационных систем.
Становление вычислительных сетей в качестве основы для работы информационных систем привело к увеличению вычислительных возможностей, доступных к использованию в рамках информационной системы. Однако переход к распределенной архитектуре сопровождается рядом новых проблем и задач, с которыми не приходится сталкиваться в рамках нераспределённой архитектуры. К таким задачам можно отнести: обеспечение согласованности данных в рамках вычислительной сети, обнаружение завершения выполнения задачи, необходимость коммутации пакетов в рамках вычислительной сети и балансировка нагрузки в рамках информационной системы.
Есть основания полагать, что в будущем количество данных, генерируемых человечеством, будет продолжать быстро расти. Этому будут способствовать и многие нововведения из мира информационных технологий, в качестве примера можно указать набирающие всё большую популярность устройства, относящиеся к классу интернета вещей. Очевидно, что при увеличении количества таких устройств, информационная нагрузка, как на частные локальные сети, так и на вычислительные сети информационных систем, обеспечивающие работу таких устройств, будет возрастать. В условиях увеличивающейся нагрузки работа информационных систем, в том числе и алгоритмы обеспечивающие внутреннюю работу вычислительной сети, должны совершенствоваться и работать более эффективно.
Одним из аспектов требующих наиболее эффективной работы программного комплекса вычислительной сети является пост-обработка и анализ результатов выполнения вычислительной сетью входящих задач. Данная работа нацелена на решение именно этой задачи, а именно на анализ набора данных, описывающих работу вычислительного комплекса, с целью выявления типов выполненных операция для последующей выработки стратегии балансировки нагрузки.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Целью данной работы была проверка гипотезы о том, что применение топологических методов анализа данных позволит выбирать более эффективные стратегии балансировки нагрузки в вычислительной сети, за счёт выявления дополнительных особенностей, не выявляемых традиционными методами анализа данных.
Был проанализирован набор данных описывающих месяц работы вычислительных кластеров Google.
Были реализованы и применены несколько методик выявления особенностей задач, выполняемых вычислительным кластером Google.
Результаты работы топологических и традиционных методов анализа данных были рассмотрены и проанализированы. На основе проведённого анализа были сделаны выводы о применимости топологического анализа данных и конкретных аспектах его применения в задаче балансировки нагрузки в вычислительной сети.



1. John Wilkes, Charles Reiss, ClusterData2011_2 traces,
2. ГОСТ 22402-88 Телеобработка данных и вычислительные сети. Термины и определения., 2010
3. K. A. Nuaimi, N. Mohamed, M. A. Nuaimi, J. Al-Jaroodi, A Survey of Load Balancing in Cloud Computing: Challanges and Algorithms., 2012
4. R. G. Rajan, V. Jeyakrishnan, A Survey on Load Balancing in Cloud Computing Environments, 2013 International Journal of Advanced Research in Computer and Communication Engineering, Vol. 2, Iss. 12
5. D. Kashyap, J. Viradiya, A Survey of Various Load Balancing Algorithms in Cloud Computing., 2014 International Journal of Scientific & Technology Research, Vol. 3, Iss. 11
6. M. Lesnick, M. Wright, Interactive Visualisation of 2-D Persistence Modules, 1512.00180v1
7. Peter Bubenik, Statistical Topological Data Analysis using Persistence Landscapes., 2015 Journal of Machine Learning Research
8. R. Ghrist, Barcodes: The Persistent Topology of Data., 2008 Bulletin of The American Mathematical Society
9. G. Carlsson, R. Jardine, D. Feichtner-Kozlov, D. Morozov., Topological Data Analysis and Machine Learning Theory., 2012
10. Jesse Johnson, Topological Graph Clustering With Thin Position., arXiv:1206.0771
11. M. Scharlemann, A. Thompson, Thin Position for 3-Mainfolds., 1994 Contemporary Mathematics
12. M. Belkin, K. Sinha, Polynomial Learning of Distribution Families., 2010 Proceeding of Annual IEEE Symposium on Foundations of Computer Science
13. T. Hastie, E. Tibshirani, J. Friedman, The Elements of Statistical Learning, 2009, rev. 2013
14. G. Lerman, M. B. McCoy, J. A. Tropp, T. Zhang, Robust Computation of Linear Models by Convex Relaxaion, 2012 1202.4044v2
15. : H. Edelsbrunner, J. Harer, Persistent Homology — a Survey, 2008
16. V. de Silva, R. Ghrist, Coverage in sensor networks via persistent homology., 2007 Algebraic & Geometric Topology 7
17. M. Nicolau, A. J. Levine, G. Carlsson, Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival., 2011 PNAS
18. M. A. R. Dantas, A. R. Pinto, A load balancing approach based on a genetic machine learning algorithm, 2005 19th International Symposium on High Performance Computing Systems and Applications (HPCS'05)
19. R. F. de Mello, J. A. A. Filho, L. J. Senger, L. T. Yang, RouteGA: A Grid Load Balancing Algorithm with Genetic Support, 2007 21st International Conference on Advanced Networking and Applications(AINA'07)
20. R. F. de Mello, L. J. Senger, and L. T. Yang, A routing loadbalancing policy for grid computing environments., 2006 In TheIEEE 20th International Conference on Advanced Informa-tion Networking and Applications (AINA 2006)
21. J. Li, X. Ma, K. Singh, M. Schulz, B. R. de Supinski, S. A. McKee, Machine Learning Based Online Performance Prediction for Runtime Parallelization and Task Scheduling, 2009
22. Y. Chen, A. S. Ganapathi, R. Griffith, R. H. Katz, Analysis and Lessons from a Publicly Available Google Cluster Trace, 2010 Technical Report No. UCB/EECS-2010- 95
23. S. Lloyd , Least squares quantization in PCM, 1982 IEEE Transactions on Information Theory
24. Y. W. Teh, M. I. Jordan, M. J. Beal, D. M. Blei, Hierarchical Dirichlet Processes, 2006 Journal of the American Statistical Association, Vol. 101, No. 476
25. , Gaussian mixture models, http://scikit-learn.org/stable/modules/mixture.html
26. A. P. Dempster, N. M. Laird, D. B. Rubin, aximum likelihood from incomplete data via the EM algorithm., 1977 Journal of the Royal Statistical Society. Series B (Methodological)
27. R. Hennigan, A Fast Simplicial Complex Construction for Computing the Persistent Homology of Very Large, High Dimentional Data Sets, 2014
28. G. Singh , F. Memoli, G. Carlsson, Topological Methods for the Analysis of High DimensionalData Sets and 3D Object Recognition, 2007 Eurographics Symposium on Point-Based Graphics
29. P. J. Rousseeuw, Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis, 1987 Computational an Applied Mathematics
30. Scikit-learn Community, Документация Sklearn, http://scikit- learn.org/stable/modules/mixture.html
31. B. T. Fasy, J. Kim, F. Lecci, C. Maria, Introduction to the R package TDA


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ