📄Работа №53626

Тема: Разработка системы хранения тарификационных данных на основе Hadoop

📝

Тип работы Дипломные работы, ВКР

📚

Предмет информатика

📄

Объем: 49 листов

📅

Год: 2017

👁️

4360 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

ВВЕДЕНИЕ 3
ГЛАВА 1. СОСТАВНЫЕ ЭЛЕМЕНТЫ HADOOP 5
ГЛАВА 2.РАЗРАБОТКА СИСТЕМЫ ХРАНЕНИЯ ТАРИФИКАЦИОННЫХ
ДАННЫХ НА ОСНОВЕ HADOOP 16
2.1. ЗАГРУЗКА ДАННЫХ 16
2.2. ОБРАБОТКА ДАННЫХ 19
2.3. ВЫГРУЗКА ДАННЫХ 29
2.4. РАЗРАБОТАННАЯ СИСТЕМА ХРАНЕНИЯ ТАРИФИКАЦИОННЫХ
ДАННЫХ НА ОСНОВЕ HADOOP 30
ЗАКЛЮЧЕНИЕ 34
СПИСОК ЛИТЕРАТУРЫ 35
ПРИЛОЖЕНИЕ

📖 Введение

В современном мире данные окружают нас со всех сторон. Мы загружаем на музыку на телефонные устройства, посылаем текстовые сообщения друзьям. Компьютеры также порождают и хранят все больше и больше данных. Компаниям приходиться просеивать терабайты и петабайты данных, чтобы понять, ка-кие книги популярны, какая реклама востребована. Имеющиеся инструменты оказались не приспособлены к обработке столь больших объемов данных. Большие данные— совокупность подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов для получения результатов, эффективных в условиях непрерывного прироста.
Для эффективной работы с большими данными и был придуман Hadoop.
Apache Hadoop — это каркас для разработки приложений, специализированных для исполнения в распределенном кластере, без применения SQL. Такие приложения прекрасно масштабируются и могут обрабатывать гигантские массивы данных. Для производства анализа данных, то Hadoop - как раз то, что нужно. Необходимость параллельных операций с этими данными возникает с целью получения инструмента, который будет выполнять загрузку данных, их обработку за считанные минуты. В «Таттелеком» такая необходимость возникает с данными pgw,netflow, объем которых в день составляет десятки Терабайт.
Hadoop- семейство взаимосвязанных проектов (HDFS, MapReduce, etc), объединенных инфраструктурой распределенных вычислений и крупномасштабной обработки данных.
Hadoop создал Дуг Каттинг — создатель ApacheLucene, широко используемой библиотеки текстового поиска.
Происхождение названия
Название Hadoop не является сокращением. Создатель проекта Дуг Каттинг объясняет, откуда оно произошло:
«Это имя, которое мой сын придумал для плюшевого желтого слона. Короткое, относительно легко произносимое, бессмысленное и не используемое в другом контексте: это мои критерии выбора имен. Детям хорошо удаются такие имена. Слово Googol тоже придумал ребенок».
Под проектам и модулям Hadoop также обычно присваиваются имена, никак не связанные с их функциями, часто связанные с темой животных (как, например, «Pig»). Меньшим компонентам даются более содержательные(а следовательно, более привычные) названия. Это полезный принцип, так как он обычно позволяет определить, что делает тот или иной компонент, по его имени — например, jobtracker отслеживает задания MapReduce.
В следующей главе я подробно опишу все структурные элементы Hadoop, что он из себя представляет.

✅ Заключение

Hadoop- удобный инструмент, который позволяет загружать данные в виде потоков данных, работать с объемами данных(гигабайт, терабайт) обычными sql запросами за считанные минуты, обрабатывать их. Все это необходимо при ис-пользовании данных очень больших размеров.
Таким образом, в своей дипломной работе я реализовала такие методы загрузки/выгрузки:
1) ручная загрузка(выгрузка), а именно hadoop команда(рШ, copyfromloc- al,get,copyToLocal), запускаемая на Linux сервере.
2) автоматическая загрузка(выгрузка) в hadoop, запускаемая на hue и осуществляющая загрузку/выгрузку из/в базы данных(SqlServer).
3) автоматическая загрузка/выгрузка при помощи Cron.
В ходе работы были реализованы следующие методы обработки данных(Impala,Hive,Pig) и проведен их анализ, который показал, что при работе с реальными данными эффективнее и надежнее всего оказалась Impala. Данные размером 12 Тбайт она обрабатывает за 2 минуты, Pig и Hive в 2 раза дольше.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Надоор.Подробное руководство. Том Уайт.
2. Hadoop в действии. ЧакЛэм - М.: ДМК Пресс, 2012.
3. Pro Hadoop Data Analytics. Kerry Koitzsch.
4. Data Algorithms. Recipes for Scaling Up with Hadoop and Spark.MahmoudParsian - O'Reilly Media, 2015
5. Hadoop Application Architectures.Mark Grover, Ted Malaska, Jonathan Seid- man & Gwen Shapira - O'Reilly Media, 2015
6. Getting Started with Impala. John Russell - O'Reilly Media, 2014
7. Hadoop Security. Ben Spivey & Joey Echeverria - O'Reilly Media, 2015
8. Hadoop Operations. EricSammer - O'Reilly Media, 2012
9. Apache Sqoop Cookbook. Kathleen Ting &JarekJarcecCecho - O'Reilly Me¬dia, 2013
10. Using Flume. Hari Shreedharan - O'Reilly Media, 2014
11. Python for Data Analysis. WesMcKinney - O'Reilly Media, 2012
12. Data Analytics with Hadoop. Benjamin Bengfort & Jenny Kim - O'Reilly Me-dia, 2016
13. MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop and Other Systems. DonaldMiner, AdamShook - O'Reilly Media, 2012
14. Pro Hadoop. Jason Venner - Apress, 2009
15. Hadoop Real World Solutions Cookbook. Jonathan R. Owens -
PacktPublishingLtd,2013
16. Hadoop MapReduce Cookbook. SrinathPerera - PacktPublishingLtd, 2013
17. Professional Hadoop Solutions. Boris Lublinsky, Kevin T. Smith, Alexey Ya-kubovich - John Wiley & Sons, 2013
18. Hadoop Operations and Cluster Management Cookbook. ShuminGuo - PacktPublishingLtd, 2013
19.Optimizing Hadoop for MapReduce.Khaled Tannir - PacktPublishingLtd, 2014
20. Learning Hadoop 2. GarryTurkington, GabrieleModena - PacktPublishingLtd, 2015
21. YARN Essentials. AmolFasale, NirmalKumar - PacktPublishingLtd, 2015
22. Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2. Arun Murthy, Vinod Vavilapalli, Douglas Ead-line, Joseph Niemiec, Jeff Markham - Addison-Wesley Professional, 2014
23.Scaling Big Data with Hadoop and Solr - Second Edition. HrishikeshVijayKarambelkar - PacktPublishingLtd,2015
24. Hadoop 2 Quick-Start Guide: Learn the Essentials of Big Data Computing in the Apache Hadoop 2 Ecosystem. DouglasEadline - Addison-Wesley Profes-sional, 2015
25. Real-World Hadoop. TedDunning, EllenFriedman - O'Reilly Media, 2015

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (209042)

Статьи

»» Все статьи

Вход в личный кабинет