Тип работы:
Предмет:
Язык работы:


Разработка системы хранения тарификационных данных на основе Hadoop

Работа №53626

Тип работы

Дипломные работы, ВКР

Предмет

информатика

Объем работы49
Год сдачи2017
Стоимость4360 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
88
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
ГЛАВА 1. СОСТАВНЫЕ ЭЛЕМЕНТЫ HADOOP 5
ГЛАВА 2.РАЗРАБОТКА СИСТЕМЫ ХРАНЕНИЯ ТАРИФИКАЦИОННЫХ
ДАННЫХ НА ОСНОВЕ HADOOP 16
2.1. ЗАГРУЗКА ДАННЫХ 16
2.2. ОБРАБОТКА ДАННЫХ 19
2.3. ВЫГРУЗКА ДАННЫХ 29
2.4. РАЗРАБОТАННАЯ СИСТЕМА ХРАНЕНИЯ ТАРИФИКАЦИОННЫХ
ДАННЫХ НА ОСНОВЕ HADOOP 30
ЗАКЛЮЧЕНИЕ 34
СПИСОК ЛИТЕРАТУРЫ 35
ПРИЛОЖЕНИЕ

В современном мире данные окружают нас со всех сторон. Мы загружаем на музыку на телефонные устройства, посылаем текстовые сообщения друзьям. Компьютеры также порождают и хранят все больше и больше данных. Компаниям приходиться просеивать терабайты и петабайты данных, чтобы понять, ка-кие книги популярны, какая реклама востребована. Имеющиеся инструменты оказались не приспособлены к обработке столь больших объемов данных. Большие данные— совокупность подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов для получения результатов, эффективных в условиях непрерывного прироста.
Для эффективной работы с большими данными и был придуман Hadoop.
Apache Hadoop — это каркас для разработки приложений, специализированных для исполнения в распределенном кластере, без применения SQL. Такие приложения прекрасно масштабируются и могут обрабатывать гигантские массивы данных. Для производства анализа данных, то Hadoop - как раз то, что нужно. Необходимость параллельных операций с этими данными возникает с целью получения инструмента, который будет выполнять загрузку данных, их обработку за считанные минуты. В «Таттелеком» такая необходимость возникает с данными pgw,netflow, объем которых в день составляет десятки Терабайт.
Hadoop- семейство взаимосвязанных проектов (HDFS, MapReduce, etc), объединенных инфраструктурой распределенных вычислений и крупномасштабной обработки данных.
Hadoop создал Дуг Каттинг — создатель ApacheLucene, широко используемой библиотеки текстового поиска.
Происхождение названия
Название Hadoop не является сокращением. Создатель проекта Дуг Каттинг объясняет, откуда оно произошло:
«Это имя, которое мой сын придумал для плюшевого желтого слона. Короткое, относительно легко произносимое, бессмысленное и не используемое в другом контексте: это мои критерии выбора имен. Детям хорошо удаются такие имена. Слово Googol тоже придумал ребенок».
Под проектам и модулям Hadoop также обычно присваиваются имена, никак не связанные с их функциями, часто связанные с темой животных (как, например, «Pig»). Меньшим компонентам даются более содержательные(а следовательно, более привычные) названия. Это полезный принцип, так как он обычно позволяет определить, что делает тот или иной компонент, по его имени — например, jobtracker отслеживает задания MapReduce.
В следующей главе я подробно опишу все структурные элементы Hadoop, что он из себя представляет.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Hadoop- удобный инструмент, который позволяет загружать данные в виде потоков данных, работать с объемами данных(гигабайт, терабайт) обычными sql запросами за считанные минуты, обрабатывать их. Все это необходимо при ис-пользовании данных очень больших размеров.
Таким образом, в своей дипломной работе я реализовала такие методы загрузки/выгрузки:
1) ручная загрузка(выгрузка), а именно hadoop команда(рШ, copyfromloc- al,get,copyToLocal), запускаемая на Linux сервере.
2) автоматическая загрузка(выгрузка) в hadoop, запускаемая на hue и осуществляющая загрузку/выгрузку из/в базы данных(SqlServer).
3) автоматическая загрузка/выгрузка при помощи Cron.
В ходе работы были реализованы следующие методы обработки данных(Impala,Hive,Pig) и проведен их анализ, который показал, что при работе с реальными данными эффективнее и надежнее всего оказалась Impala. Данные размером 12 Тбайт она обрабатывает за 2 минуты, Pig и Hive в 2 раза дольше.



1. Надоор.Подробное руководство. Том Уайт.
2. Hadoop в действии. ЧакЛэм - М.: ДМК Пресс, 2012.
3. Pro Hadoop Data Analytics. Kerry Koitzsch.
4. Data Algorithms. Recipes for Scaling Up with Hadoop and Spark.MahmoudParsian - O'Reilly Media, 2015
5. Hadoop Application Architectures.Mark Grover, Ted Malaska, Jonathan Seid- man & Gwen Shapira - O'Reilly Media, 2015
6. Getting Started with Impala. John Russell - O'Reilly Media, 2014
7. Hadoop Security. Ben Spivey & Joey Echeverria - O'Reilly Media, 2015
8. Hadoop Operations. EricSammer - O'Reilly Media, 2012
9. Apache Sqoop Cookbook. Kathleen Ting &JarekJarcecCecho - O'Reilly Me¬dia, 2013
10. Using Flume. Hari Shreedharan - O'Reilly Media, 2014
11. Python for Data Analysis. WesMcKinney - O'Reilly Media, 2012
12. Data Analytics with Hadoop. Benjamin Bengfort & Jenny Kim - O'Reilly Me-dia, 2016
13. MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop and Other Systems. DonaldMiner, AdamShook - O'Reilly Media, 2012
14. Pro Hadoop. Jason Venner - Apress, 2009
15. Hadoop Real World Solutions Cookbook. Jonathan R. Owens -
PacktPublishingLtd,2013
16. Hadoop MapReduce Cookbook. SrinathPerera - PacktPublishingLtd, 2013
17. Professional Hadoop Solutions. Boris Lublinsky, Kevin T. Smith, Alexey Ya-kubovich - John Wiley & Sons, 2013
18. Hadoop Operations and Cluster Management Cookbook. ShuminGuo - PacktPublishingLtd, 2013
19.Optimizing Hadoop for MapReduce.Khaled Tannir - PacktPublishingLtd, 2014
20. Learning Hadoop 2. GarryTurkington, GabrieleModena - PacktPublishingLtd, 2015
21. YARN Essentials. AmolFasale, NirmalKumar - PacktPublishingLtd, 2015
22. Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2. Arun Murthy, Vinod Vavilapalli, Douglas Ead-line, Joseph Niemiec, Jeff Markham - Addison-Wesley Professional, 2014
23.Scaling Big Data with Hadoop and Solr - Second Edition. HrishikeshVijayKarambelkar - PacktPublishingLtd,2015
24. Hadoop 2 Quick-Start Guide: Learn the Essentials of Big Data Computing in the Apache Hadoop 2 Ecosystem. DouglasEadline - Addison-Wesley Profes-sional, 2015
25. Real-World Hadoop. TedDunning, EllenFriedman - O'Reilly Media, 2015


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ