Тип работы:
Предмет:
Язык работы:


Методы повышения производительности Apache Spark на системах с неоднородной памятью

Работа №134606

Тип работы

Магистерская диссертация

Предмет

информатика

Объем работы38
Год сдачи2018
Стоимость5600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
11
Не подходит работа?

Узнай цену на написание


Введение 4
1.1 Apache Spark 4
1.2 Разные виды памяти 5
1.3 Использование Big Data фреймворков на HPC системах ... 5
1.3.1 Оптимизация Big Data фреймворков под HPC системы 6
1.3.2 Утилиты для запуска Big Data приложений на HPC
системах 8
1.3.3 Системы HPC + Big Data от вендоров 9
1.3.4 Примеры решения задач в связке Big Data + HPC . . 9
1.4 Способы работы с NUMA 9
1.4.1 Привязка потоков к процессорам 10
1.4.2 Размещение данных в памяти 11
2 Обзор литературы 12
3 Постановка задачи 15
4 Архитектура памяти Apache Spark 17
5 Исследование производительности на Intel Xeon Phi KNL 21
5.1 Выбор методов и тестирование 21
5.2 Анализ результатов 25
6 Исследование производительности на узле wombat-3 26
6.1 Выбор методов и тестирование 26
6.2 Анализ результатов 28
7 Выводы 30
8 Заключение 32
9 Глоссарий 33
Список иллюстраций 35
Список таблиц 36
Список литературы 37

Apache Spark — фреймворк для обработки больших объемов данных в оперативной памяти. Позволяет писать эффективный код, выполняющий параллелизм по данным. Для Spark написаны различные библиотеки, позволяющие ему быть востребованным во многих областях: машинное обучение
(библиотека Mlib), потоковая обработка данных (Apache Spark Streaming),
выборка данных из таблиц (SparkSQL), обработка графов (GraphX). Apache
Spark входит в Hadoop-экосистему — набор инструментов для выполнения
полного цикла работы с большими данным: извлечение данных из исходного источника, очистка и преобразование данных, обработка, представление результата (визуализация, передача в другую систему, запись в базу
данных и т.д.) При разработке начального продукта экосистемы — Apache
Hadoop разработчики делали упор на возможность обработки большого
количества данных на недорогих доступных средней фирме кластерах типа Beowulf. Особенности: стандартная архитектура, обычная не высокоскоростная сеть Ethernet, API для языков программирования, активно используемых в разработке коммерческих приложений: Java, Python. В процессе
развития была создана целая экосистема, позволяющая удобно выполнять
весь цикл обработки данных от получения до представления результатов.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В ходе работы было проведено тестирование фреймворка Apache Spark по
эффективности работы с неоднородной памятью. Проведен анализ исходного кода, отвечающего за работу с памятью. Добавлена возможность конфигурировать параметры запуска фреймворка на архитектуре с неоднородной памятью через настройки SparkConf. Реализован класс выделяющий
память на заданном узле. Получившиеся результаты проанализированы,
на основе их даны рекомендации по использованию тех или иных технологий


[1] Hemsoth Nicole. Bringing HPC and Hadoop Under the Same Cluster Umbrella // The Next Platform. 2015.
[2] Optimizing Java and Apache Hadoop for Intel Architecture.
URL: https://software.intel.com/sites/default/files/
hadoop-and-intel-java-optimization-whitepaper.pdf.
[3] Krishnan Sriram, Tatineni Mahidhar, Baru Chaitanya. myHadoop-Hadoop- on-Demand on Traditional HPC Resources // San Diego Supercomputer Center Technical Report TR-2011-2, University of California, San Diego. 2011.
[4] Spark deployment and performance evaluation on the MareNostrum supercomputer / R. Tous, A. Gounaris, C. Tripiana [и др.] // 2015 IEEE International Conference on Big Data (Big Data). 2015. Oct. С. 299-306.
[5] Gene Resequencing with Myrna on Intel Distribution of Hadoop. URL: https://www.intel.com/content/dam/www/public/us/en/documents/ reports/gene-resequencing-with-myrna-distribution-hadoop.pdf.
[6] Performance Analysis of Spark/GraphX on POWER8 Cluster / Xinyu Que, Lars Schneidenbach, Fabio Checconi [и др.] // International Conference on High Performance Computing / Springer. 2016. С. 268-285.
[7] Architectural impact on performance of in-memory data analytics: apache spark case study / Ahsan Javed Awan, Mats Brorsson, Vladimir Vlassov [и др.] // arXiv preprint arXiv:1604.08484. 2016.
[8] Bigdatabench: A big data benchmark suite from internet services / Lei Wang, Jianfeng Zhan, Chunjie Luo [и др.] // High Performance Computer Architecture (HPCA), 2014 IEEE 20th International Symposium on / IEEE. 2014. С. 488-499.
[9] Java HotSpotTM Virtual Machine Performance Enhancements. URL: https://docs.oracle.com/javase/8/docs/technotes/guides/vm/ performance-enhancements-7.html.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ