ВВЕДЕНИЕ 3
ГЛАВА 1. СОСТАВНЫЕ ЭЛЕМЕНТЫ HADOOP 5
ГЛАВА 2.РАЗРАБОТКА СИСТЕМЫ ХРАНЕНИЯ ТАРИФИКАЦИОННЫХ
ДАННЫХ НА ОСНОВЕ HADOOP 16
2.1. ЗАГРУЗКА ДАННЫХ 16
2.2. ОБРАБОТКА ДАННЫХ 19
2.3. ВЫГРУЗКА ДАННЫХ 29
2.4. РАЗРАБОТАННАЯ СИСТЕМА ХРАНЕНИЯ ТАРИФИКАЦИОННЫХ
ДАННЫХ НА ОСНОВЕ HADOOP 30
ЗАКЛЮЧЕНИЕ 34
СПИСОК ЛИТЕРАТУРЫ 35
ПРИЛОЖЕНИЕ
В современном мире данные окружают нас со всех сторон. Мы загружаем на музыку на телефонные устройства, посылаем текстовые сообщения друзьям. Компьютеры также порождают и хранят все больше и больше данных. Компаниям приходиться просеивать терабайты и петабайты данных, чтобы понять, ка-кие книги популярны, какая реклама востребована. Имеющиеся инструменты оказались не приспособлены к обработке столь больших объемов данных. Большие данные— совокупность подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов для получения результатов, эффективных в условиях непрерывного прироста.
Для эффективной работы с большими данными и был придуман Hadoop.
Apache Hadoop — это каркас для разработки приложений, специализированных для исполнения в распределенном кластере, без применения SQL. Такие приложения прекрасно масштабируются и могут обрабатывать гигантские массивы данных. Для производства анализа данных, то Hadoop - как раз то, что нужно. Необходимость параллельных операций с этими данными возникает с целью получения инструмента, который будет выполнять загрузку данных, их обработку за считанные минуты. В «Таттелеком» такая необходимость возникает с данными pgw,netflow, объем которых в день составляет десятки Терабайт.
Hadoop- семейство взаимосвязанных проектов (HDFS, MapReduce, etc), объединенных инфраструктурой распределенных вычислений и крупномасштабной обработки данных.
Hadoop создал Дуг Каттинг — создатель ApacheLucene, широко используемой библиотеки текстового поиска.
Происхождение названия
Название Hadoop не является сокращением. Создатель проекта Дуг Каттинг объясняет, откуда оно произошло:
«Это имя, которое мой сын придумал для плюшевого желтого слона. Короткое, относительно легко произносимое, бессмысленное и не используемое в другом контексте: это мои критерии выбора имен. Детям хорошо удаются такие имена. Слово Googol тоже придумал ребенок».
Под проектам и модулям Hadoop также обычно присваиваются имена, никак не связанные с их функциями, часто связанные с темой животных (как, например, «Pig»). Меньшим компонентам даются более содержательные(а следовательно, более привычные) названия. Это полезный принцип, так как он обычно позволяет определить, что делает тот или иной компонент, по его имени — например, jobtracker отслеживает задания MapReduce.
В следующей главе я подробно опишу все структурные элементы Hadoop, что он из себя представляет.
Hadoop- удобный инструмент, который позволяет загружать данные в виде потоков данных, работать с объемами данных(гигабайт, терабайт) обычными sql запросами за считанные минуты, обрабатывать их. Все это необходимо при ис-пользовании данных очень больших размеров.
Таким образом, в своей дипломной работе я реализовала такие методы загрузки/выгрузки:
1) ручная загрузка(выгрузка), а именно hadoop команда(рШ, copyfromloc- al,get,copyToLocal), запускаемая на Linux сервере.
2) автоматическая загрузка(выгрузка) в hadoop, запускаемая на hue и осуществляющая загрузку/выгрузку из/в базы данных(SqlServer).
3) автоматическая загрузка/выгрузка при помощи Cron.
В ходе работы были реализованы следующие методы обработки данных(Impala,Hive,Pig) и проведен их анализ, который показал, что при работе с реальными данными эффективнее и надежнее всего оказалась Impala. Данные размером 12 Тбайт она обрабатывает за 2 минуты, Pig и Hive в 2 раза дольше.