📄Работа №74154

Тема: Применение методов топологического анализа данных при балансировке нагрузки в вычислительных сетях

📝

Тип работы Магистерская диссертация

📚

Предмет информатика

📄

Объем: 75 листов

📅

Год: 2016

👁️

4870 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение
Постановка задачи 6
Глава 1. Теоретические основы. Обзор литературы 7
1.1 Балансировка нагрузки 8
1.2 Топологические методы анализа данных 11
1.3 Применение методов анализа данных в задачах балансировки нагрузки
Выводы по главе 16
Глава 2. Предлагаемые подходы и вычислительные эксперименты 17
2.1 Подготовка данных 17
2.2 Кластеризация методом k-средних 20
2.3 Кластеризация с помощью смеси гауссиан 22
2.4 Выявление различных типов задач с помощью устойчивых гомологий 23
2.5 Алгоритм Mapper 25
Выводы по главе 25
Глава 3. Реализация и результаты 27
3.1 Подготовка данных 27
3.2 Реализация алгоритма кластеризации k-средних, подбор параметров и
результаты 32
3.3 Анализ данных с использованием смеси гауссиан с процессом Дирихле
3.4 Реализация выявления типов задач с помощью устойчивых гомологий 41
3.5 Поиск компонент сильной связности в облаке данных с помощью алгоритма Mapper 43
Выводы по главе 47
Заключение 49
Список литературы 50
Приложение 1. Результаты кластеризации и силуэты для метода k-means 53
Приложение 2. Результаты кластеризации и силуэты для метода DPGMM 62
Приложение 3. Выдержки из программного кода 67
Построение выборок данных 67
Преобразование данных 68
Кластеризация k-means, подбор параметров и поиск силуэтов 70
Кластеризация с помощью DPGMM 71
Отображение кластеров 72
Отображение силуэтов 74

📖 Введение

За довольно непродолжительное время количество данных, генерируемых человечеством в единицу времени, невероятно возросло. Буквально каждую минуту генерируется информация сравнимая по объёму с информацией, на создание которой в прошлом требовались десятки лет. Одной из причин такого роста является развитие технологий, в частности, развитие интернета и вычислительных сетей.
Интернет можно рассматривать как совокупностью информационных систем, каждая из которых осуществляет обработку информации. При увеличении объёма данных, которые обрабатывает информационная система, производительности, которую может обеспечить одна вычислительная машина становится недостаточно, что послужило причиной объединения вычислительных машин в вычислительные сети, обеспечивающие работу информационных систем.
Становление вычислительных сетей в качестве основы для работы информационных систем привело к увеличению вычислительных возможностей, доступных к использованию в рамках информационной системы. Однако переход к распределенной архитектуре сопровождается рядом новых проблем и задач, с которыми не приходится сталкиваться в рамках нераспределённой архитектуры. К таким задачам можно отнести: обеспечение согласованности данных в рамках вычислительной сети, обнаружение завершения выполнения задачи, необходимость коммутации пакетов в рамках вычислительной сети и балансировка нагрузки в рамках информационной системы.
Есть основания полагать, что в будущем количество данных, генерируемых человечеством, будет продолжать быстро расти. Этому будут способствовать и многие нововведения из мира информационных технологий, в качестве примера можно указать набирающие всё большую популярность устройства, относящиеся к классу интернета вещей. Очевидно, что при увеличении количества таких устройств, информационная нагрузка, как на частные локальные сети, так и на вычислительные сети информационных систем, обеспечивающие работу таких устройств, будет возрастать. В условиях увеличивающейся нагрузки работа информационных систем, в том числе и алгоритмы обеспечивающие внутреннюю работу вычислительной сети, должны совершенствоваться и работать более эффективно.
Одним из аспектов требующих наиболее эффективной работы программного комплекса вычислительной сети является пост-обработка и анализ результатов выполнения вычислительной сетью входящих задач. Данная работа нацелена на решение именно этой задачи, а именно на анализ набора данных, описывающих работу вычислительного комплекса, с целью выявления типов выполненных операция для последующей выработки стратегии балансировки нагрузки.

✅ Заключение

Целью данной работы была проверка гипотезы о том, что применение топологических методов анализа данных позволит выбирать более эффективные стратегии балансировки нагрузки в вычислительной сети, за счёт выявления дополнительных особенностей, не выявляемых традиционными методами анализа данных.
Был проанализирован набор данных описывающих месяц работы вычислительных кластеров Google.
Были реализованы и применены несколько методик выявления особенностей задач, выполняемых вычислительным кластером Google.
Результаты работы топологических и традиционных методов анализа данных были рассмотрены и проанализированы. На основе проведённого анализа были сделаны выводы о применимости топологического анализа данных и конкретных аспектах его применения в задаче балансировки нагрузки в вычислительной сети.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. John Wilkes, Charles Reiss, ClusterData2011_2 traces,
2. ГОСТ 22402-88 Телеобработка данных и вычислительные сети. Термины и определения., 2010
3. K. A. Nuaimi, N. Mohamed, M. A. Nuaimi, J. Al-Jaroodi, A Survey of Load Balancing in Cloud Computing: Challanges and Algorithms., 2012
4. R. G. Rajan, V. Jeyakrishnan, A Survey on Load Balancing in Cloud Computing Environments, 2013 International Journal of Advanced Research in Computer and Communication Engineering, Vol. 2, Iss. 12
5. D. Kashyap, J. Viradiya, A Survey of Various Load Balancing Algorithms in Cloud Computing., 2014 International Journal of Scientific & Technology Research, Vol. 3, Iss. 11
6. M. Lesnick, M. Wright, Interactive Visualisation of 2-D Persistence Modules, 1512.00180v1
7. Peter Bubenik, Statistical Topological Data Analysis using Persistence Landscapes., 2015 Journal of Machine Learning Research
8. R. Ghrist, Barcodes: The Persistent Topology of Data., 2008 Bulletin of The American Mathematical Society
9. G. Carlsson, R. Jardine, D. Feichtner-Kozlov, D. Morozov., Topological Data Analysis and Machine Learning Theory., 2012
10. Jesse Johnson, Topological Graph Clustering With Thin Position., arXiv:1206.0771
11. M. Scharlemann, A. Thompson, Thin Position for 3-Mainfolds., 1994 Contemporary Mathematics
12. M. Belkin, K. Sinha, Polynomial Learning of Distribution Families., 2010 Proceeding of Annual IEEE Symposium on Foundations of Computer Science
13. T. Hastie, E. Tibshirani, J. Friedman, The Elements of Statistical Learning, 2009, rev. 2013
14. G. Lerman, M. B. McCoy, J. A. Tropp, T. Zhang, Robust Computation of Linear Models by Convex Relaxaion, 2012 1202.4044v2
15. : H. Edelsbrunner, J. Harer, Persistent Homology — a Survey, 2008
16. V. de Silva, R. Ghrist, Coverage in sensor networks via persistent homology., 2007 Algebraic & Geometric Topology 7
17. M. Nicolau, A. J. Levine, G. Carlsson, Topology based data analysis identifies a subgroup of breast cancers with a unique mutational profile and excellent survival., 2011 PNAS
18. M. A. R. Dantas, A. R. Pinto, A load balancing approach based on a genetic machine learning algorithm, 2005 19th International Symposium on High Performance Computing Systems and Applications (HPCS'05)
19. R. F. de Mello, J. A. A. Filho, L. J. Senger, L. T. Yang, RouteGA: A Grid Load Balancing Algorithm with Genetic Support, 2007 21st International Conference on Advanced Networking and Applications(AINA'07)
20. R. F. de Mello, L. J. Senger, and L. T. Yang, A routing loadbalancing policy for grid computing environments., 2006 In TheIEEE 20th International Conference on Advanced Informa-tion Networking and Applications (AINA 2006)
21. J. Li, X. Ma, K. Singh, M. Schulz, B. R. de Supinski, S. A. McKee, Machine Learning Based Online Performance Prediction for Runtime Parallelization and Task Scheduling, 2009
22. Y. Chen, A. S. Ganapathi, R. Griffith, R. H. Katz, Analysis and Lessons from a Publicly Available Google Cluster Trace, 2010 Technical Report No. UCB/EECS-2010- 95
23. S. Lloyd , Least squares quantization in PCM, 1982 IEEE Transactions on Information Theory
24. Y. W. Teh, M. I. Jordan, M. J. Beal, D. M. Blei, Hierarchical Dirichlet Processes, 2006 Journal of the American Statistical Association, Vol. 101, No. 476
25. , Gaussian mixture models, http://scikit-learn.org/stable/modules/mixture.html
26. A. P. Dempster, N. M. Laird, D. B. Rubin, aximum likelihood from incomplete data via the EM algorithm., 1977 Journal of the Royal Statistical Society. Series B (Methodological)
27. R. Hennigan, A Fast Simplicial Complex Construction for Computing the Persistent Homology of Very Large, High Dimentional Data Sets, 2014
28. G. Singh , F. Memoli, G. Carlsson, Topological Methods for the Analysis of High DimensionalData Sets and 3D Object Recognition, 2007 Eurographics Symposium on Point-Based Graphics
29. P. J. Rousseeuw, Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis, 1987 Computational an Applied Mathematics
30. Scikit-learn Community, Документация Sklearn, http://scikit- learn.org/stable/modules/mixture.html
31. B. T. Fasy, J. Kim, F. Lecci, C. Maria, Introduction to the R package TDA

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (208934)

Статьи

»» Все статьи

Вход в личный кабинет