ЗАДАНИЕ 2
РЕФЕРАТ 3
ВВЕДЕНИЕ 8
1 ОПИСАНИЕ НАПРАВЛЕНИЙ «НАУКА О ДАННЫХ», «BIG DATA» И
ПЛАТФОРМЫ «HADOOP» 9
1.1 «НАУКА О ДАННЫХ» 9
1.1.1 ВВЕДЕНИЕ В «НАУКУ О ДАННЫХ» 9
1.1.2 ТЕХНОЛОГИИ АНАЛИЗА ДАННЫХ 11
1.1.2.1 ЯЗЫК ПРОГРАММИРОВАНИЯ «R» 11
1.1.2.1.1 ОПРЕДЕЛЕНИЕ И ТИПЫ ДАННЫХ 12
1.1.2.1.2 ОБЪЕКТЫ ЯЗЫКА ПРОГРАММИРОВАНИЯ «R» 13
1.1.2.1.3 ИСПОЛЬЗОВАНИЕ ЯЗЫКА ПРОГРАММИРОВАНИЯ «R» ... 14
1.1.2.2 «MICROSOFT AZURE MACHINE LEARNING» 15
1.1.3 СТАТИСТИКА 15
1.1.3.1 ОПРЕДЕЛЕНИЕ СТАТИСТИКИ 16
1.1.3.2 ВИЗУАЛИЗАЦИЯ СТАТИСТИКИ 16
1.1.3.3 ОПИСАТЕЛЬНАЯ СТАТИСТИКА 18
1.1.4 ВЫВОДЫ 21
1.2 «BIG DATA» 21
1.2.1 ОПРЕДЕЛЕНИЕ 22
1.2.2 СФЕРЫ ПРИМЕНЕНИЯ И СОПУТСТВУЮЩИЕ ТЕХНОЛОГИИ 24
1.2.2.1 ТЕХНОЛОГИИ 25
1.2.2.2 ПРИМЕНЕНИЕ В ОТРАСЛЯХ 27
1.2.3 ПРИМЕРЫ ИСПОЛЬЗОВАНИЯ В КОМПАНИЯХ 29
1.2.4 ВЫВОДЫ 31
1.3 ЭКОСИСТЕМА «HADOOP» 31
1.3.1 ОПИСАНИЕ ПЛАТФОРМЫ 31
1.3.1.1 ИСТОРИЯ СОЗДАНИЯ 32
1.3.1.2 ИСПОЛЬЗОВАНИЕ И ПРЕИМУЩЕСТВА 33
1.3.2 КОМПОНЕНТЫ ЭКОСИСТЕМЫ «HADOOP» 35
1.3.2.1 ОПИСАНИЕ КОМПОНЕНТОВ 36
1.3.2.2 ДИСТРИБУТИВЫ ЭКОСИСТЕМЫ «HADOOP» 38
1.3.3 ОПИСАНИЕ ОСНОВНЫХ КОМПОНЕНТОВ 39
1.3.3.1 РАСПРЕДЕЛЕННАЯ ФАЙЛОВАЯ СИСТЕМА «HDFS» 39
1.3.3.1.1 ОПРЕДЕЛЕНИЕ И СОСТАВНЫЕ ЧАСТИ 39
1.3.3.1.2 ХРАНЕНИЕ И РЕПЛИКАЦИЯ ДАННЫХ 40
1.3.3.1.3 ЗАПИСЬ И УДАЛЕНИЕ ДАННЫХ 41
1.3.3.1.4 ПРЕИМУЩЕСТВА И НЕДОСТАТКИ 42
1.3.3.2 ПРОГРАММНАЯ МОДЕЛЬ «MAPREDUCE» 43
1.3.3.2.1 ОПРЕДЕЛЕНИЕ И ОПИСАНИЕ РАБОТЫ МОДЕЛИ 43
1.3.3.2.2 АРХИТЕКТУРА «HADOOP MAPREDUCE» 46
1.3.3.2.3 ПРЕИМУЩЕСТВА И НЕДОСТАТКИ 48
1.3.4 ВЫВОДЫ 48
2 РУКОВОДСТВО ПО УСТАНОВКЕ И ТЕСТИРОВАНИЮ «HADOOP» 50
2.1 УСТАНОВКА ЭКОСИСТЕМЫ «HADOOP» НА ПЕРСОНАЛЬНЫЙ
КОМПЬЮТЕР 50
2.1.1 УСТАНОВКА ПРОГРАММЫ ДЛЯ ВИРТУАЛИЗАЦИИ
ОПЕРАЦИОННЫХ СИСТЕМ 51
2.1.2 УСТАНОВКА ОПЕРАЦИОННОЙ СИСТЕМЫ 55
2.1.3 УСТАНОВКА ЭКОСИСТЕМЫ «HADOOP» 67
2.1.3.1 УСТАНОВКА НЕОБХОДИМОГО ПО 68
2.1.3.2 УСТАНОВКА И НАСТРОЙКА КОМПОНЕНТОВ «HADOOP» 71
2.1.3.3 ЗАПУСК «HADOOP» 75
2.2 НАПИСАНИЕ ПРОГРАММЫ «WORDCOUNT» ДЛЯ ТЕСТИРОВАНИЯ
СИСТЕМЫ «HADOOP» 77
2.2.1 УСТАНОВКА СРЕДЫ РАЗРАБОТКИ «ECLIPSE» 78
2.2.2 НАПИСАНИЕ КОДА ПРОГРАММЫ «WORDCOUNT» 86
2.2.3 ЗАПУСК ПРОГРАММЫ «WORDCOUNT» 97
ЗАКЛЮЧЕНИЕ 101
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 102
ПРИЛОЖЕНИЕ А 104
ПРИЛОЖЕНИЕ Б 107
ПРИЛОЖЕНИЕ В 109
C развитием сегодняшних информационных технологий, особенно «бума» социальных сетей, компаниям и разработчика все чаще приходится иметь дело с большим количеством информации. Чтобы хранить и обрабатывать эти данные, необходимы были специализированные решения. Одним из таких решений стала программная платформа для анализа больших данных «Hadoop».
Программная платформа «Hadoop» является одной из важнейших технологий «Big Data». Этот проект включает в себя множество различных компонентов и решений, что позволяет данной платформе работать с почти неограниченным количеством данных самых различных типов.
Данная система широко распространена среди компаний, которые имеют дело с большим количеством информации, что позволяет им, на основе этих данных, делать аналитические и практические выводы, которые касаются направления развития.
Исходя из этого можно сделать вывод, что изучение данной платформы является очень важным для разработчиков, которые так или иначе имеют дело с данными.
В данной работе мы познакомились с очень важными направлениями информационных технологий таких как:
— Наука о данных - одно из фундаментальных направлений в сфере информационных технологий. Позволяет понять, как работать с данными всех типов.
— «Big Data» - самое развивающейся на сегодняшний
момент направление. Данная сфера уже получила
обширное распространение в компаниях различных
отраслей. Технологии данной сферы являются очень важными в настоящий момент, так как приходится иметь дело с огромным количеством информации.
Также мы изучили материал по теме «Экосистема Hadoop», ее компоненты и принцип работы.
В практической части мы установили экосистему «» на персональный компьютер и протестировали ее на программе подсчета слов в тексте.
Мы можем сделать вывод, что «Hadoop» является фундаментальной технологий по анализу больших данных.
Дополнительные компоненты данной платформы позволяют ей хранить и обрабатывать данные любого типа и размера, что является очень важным фактором на сегодняшний день.
1. Tom White. Hadoop: The Definitive Guide: Storage and Analysis at internet Scale. -: "O'Reilly Media Inc. ", 2015. - 756 с.
2. Чак Лэм. Hadoop в действии. -: "Litres", 2017.
3. Srinath Perera. Hadoop Mapreduce Cookbook. -: "Packt Publishing Ltd", 2013. - 300 c.
4. VK Jain. Big Data and Hadoop. -: "Khanna Publishing", 2017. - 600 c.
5. Jason Venner, Sameer Wadkar, Madhu Siddalingaiah. Pro Apache Hadoop. -: "Apress", 2014. - 444 c.
6. Arun Murthy, Vinod Vavilapalli, Douglas Eadline, Joseph Niemiec, Jeff Markham. Apache Hadoop YARN: Moving beyond MapReduce and Batch Processing with Apache Hadoop 2. -: "Addison-Wesley Professional", 2014. - 400 c.
7. Dirk deRoos. Hadoop For Dummies. -: "John Wiley & Sons", 2014. - 408 c.
8. Vignesh Prajapati. Big Data Analytics with R and Hadoop. -: "Packt Publishing Ltd", 2013. - 238 c.
9. Boris Lublinsky, Kevin T. Smith, Alexey Yakubovich. Professional Hadoop Solutions. -: "John Wiley & Sons", 2013. - 504 c.
10. Kevin Sitto, Marshall Presser. Field Guide to Hadoop: An Introduction to Hadoop, Its Ecosystem, and Aligned Technologies. -: "O'Reilly Media, Inc.", 2015. - 132 c.
11. Garry Turkington. Hadoop Beginner's Guide. -: "Packt Publishing Ltd", 2013. - 398 c.
12. Danil Zburivsky. Hadoop Cluster Deployment. -: "Packt Publishing Ltd", 2013. - 126 c.
13. Kevin Roebuck. MapReduce: High-impact Strategies - What You Need to Know: Definitions, Adoptions, Impact, Benefits, Maturity, Vendors. -: "Lightning Source", 2011. - 170 c.
14. Donald Miner, Adam Shook. MapReduce Design Patterns: Building Effective Algorithms and Analytics for Hadoop and Other Systems. "O'Reilly Media, Inc.", 2012. - 250 c.
15. Thilina Gunarathne. Hadoop MapReduce v2 Cookbook - Second Edition. -: "Packt Publishing Ltd", 2015. - 322 c...