Тема: Разработка системы хранения тарификационных данных на основе Hadoop
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ГЛАВА 1. СОСТАВНЫЕ ЭЛЕМЕНТЫ HADOOP 5
ГЛАВА 2.РАЗРАБОТКА СИСТЕМЫ ХРАНЕНИЯ ТАРИФИКАЦИОННЫХ
ДАННЫХ НА ОСНОВЕ HADOOP 16
2.1. ЗАГРУЗКА ДАННЫХ 16
2.2. ОБРАБОТКА ДАННЫХ 19
2.3. ВЫГРУЗКА ДАННЫХ 29
2.4. РАЗРАБОТАННАЯ СИСТЕМА ХРАНЕНИЯ ТАРИФИКАЦИОННЫХ
ДАННЫХ НА ОСНОВЕ HADOOP 30
ЗАКЛЮЧЕНИЕ 34
СПИСОК ЛИТЕРАТУРЫ 35
ПРИЛОЖЕНИЕ
📖 Введение
Для эффективной работы с большими данными и был придуман Hadoop.
Apache Hadoop — это каркас для разработки приложений, специализированных для исполнения в распределенном кластере, без применения SQL. Такие приложения прекрасно масштабируются и могут обрабатывать гигантские массивы данных. Для производства анализа данных, то Hadoop - как раз то, что нужно. Необходимость параллельных операций с этими данными возникает с целью получения инструмента, который будет выполнять загрузку данных, их обработку за считанные минуты. В «Таттелеком» такая необходимость возникает с данными pgw,netflow, объем которых в день составляет десятки Терабайт.
Hadoop- семейство взаимосвязанных проектов (HDFS, MapReduce, etc), объединенных инфраструктурой распределенных вычислений и крупномасштабной обработки данных.
Hadoop создал Дуг Каттинг — создатель ApacheLucene, широко используемой библиотеки текстового поиска.
Происхождение названия
Название Hadoop не является сокращением. Создатель проекта Дуг Каттинг объясняет, откуда оно произошло:
«Это имя, которое мой сын придумал для плюшевого желтого слона. Короткое, относительно легко произносимое, бессмысленное и не используемое в другом контексте: это мои критерии выбора имен. Детям хорошо удаются такие имена. Слово Googol тоже придумал ребенок».
Под проектам и модулям Hadoop также обычно присваиваются имена, никак не связанные с их функциями, часто связанные с темой животных (как, например, «Pig»). Меньшим компонентам даются более содержательные(а следовательно, более привычные) названия. Это полезный принцип, так как он обычно позволяет определить, что делает тот или иной компонент, по его имени — например, jobtracker отслеживает задания MapReduce.
В следующей главе я подробно опишу все структурные элементы Hadoop, что он из себя представляет.
✅ Заключение
Таким образом, в своей дипломной работе я реализовала такие методы загрузки/выгрузки:
1) ручная загрузка(выгрузка), а именно hadoop команда(рШ, copyfromloc- al,get,copyToLocal), запускаемая на Linux сервере.
2) автоматическая загрузка(выгрузка) в hadoop, запускаемая на hue и осуществляющая загрузку/выгрузку из/в базы данных(SqlServer).
3) автоматическая загрузка/выгрузка при помощи Cron.
В ходе работы были реализованы следующие методы обработки данных(Impala,Hive,Pig) и проведен их анализ, который показал, что при работе с реальными данными эффективнее и надежнее всего оказалась Impala. Данные размером 12 Тбайт она обрабатывает за 2 минуты, Pig и Hive в 2 раза дольше.



