ВВЕДЕНИЕ 3
1. БОЛЬШИЕ ДАННЫЕ (BIGDATA) 5
1.1 НЕСТРУКТРУИРОВАННЫЕ ДАННЫЕ 7
1.2 ЗАДАЧИ БОЛЬШИХ ДАННЫХ 8
1.3 ТЕХНОЛОГИИ ОБРАБОТКИ И АНАЛИЗА БОЛЬШИХ ДАННЫХ 11
2. ВИЗУЛИЗАЦИИ ДАННЫХ 16
2.1 ПРИЕМЫ ВИЗУЛИЗАЦИИ 19
2.2 БИБЛИОТЕКА D3 27
3. ВИЗУАЛИЗАЦИЯ НЕСТРУКТУРИРОВАННЫХ ДАННЫХ C
ИСПОЛЬЗОВАНИЕМ БИБЛИОТЕКИ D3 31
ЗАКЛЮЧЕНИЕ 35
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 37
ПРИЛОЖЕНИЕ 41
В наше время все больше устройств появляются с множеством функциональных возможностей, которые обеспечивают услуги на разном уровне, например, для отдельных лиц, групп и сообществ. Теперь люди на грани решения жизненных вопросов, которые выражаются в терминах пространства и времени. Взаимодействие людей и Интернет вещей (IoT) генерирует очень ценные данные с точки зрения прибыли, которую можно получить с их помощью. Количество данных в мире с каждым годом увеличивается многократно. Существующая инфраструктура и приложения обеспечивают человечеству свободу общения и предоставляют цифровые данные, которые были немыслимы еще не так давно. Сегодняшние объемы данных в мире исчисляются в зеттабайтах. К 2026 году прогнозируется увеличение количества этих данных в 50 раз, тем самым ставя перед собой все более сложные задачи.
Большие Данные (BigData) имеет взрывной рост, благодаря недавним достижениям в области технологий записи и хранения данных. В этом новом и захватывающем мире, данные генерируются в размере нескольких терабайт в день. Объем больших данных является ключевым испытанием, которое бросает вызовы в отношении емкости для хранения и возможности доступа к данным. Это имеет решающее значение для бизнес-организаций, а также для научных сообществ, чтобы получить полную картину окружающей среды, действовать или реагировать так, чтобы повысить результативность. Конкурентоспособные компании ищут больше данных для получения преимущества перед своими конкурентами.
Неструктурированные данные представляют собой любые данные, которые не имеют явную структуру. Это сырые данные без какой-либо структуры как текстовые и нетекстовые. Например, электронная почта является наглядной иллюстрацией неструктурированных текстовых данных. Она включает в себя время, дату, получателей и отправителей, детали и т.д., но тело письма остается неструктурированным. Неструктурированные данные также могут быть идентифицированы как слабо структурированные данных, в котором данные имеют структуру, но не все данные в наборе данных имеют такую же структуру. Одним из основных видов неструктурированных данных является текст. С распространением интернета и корпоративных взаимоотношений идет большой рост количества неструктурированных данных.
Тема данной работы актуальна и может представлять интерес как для широкого круга специалистов по анализу и обработки данных, так и для ученых из разных областей. В современных условиях важно замечать связи на всех этапах анализа данных и видеть общую картину, чтобы найти полезную сокрытую информацию.
Проблемой данной работы является: неструктурированность, которая усложняет понимание и восприятие большого объема данных.
Задача выпускной квалификационной работы заключается в следующем:
• рассмотреть актуальную научную литературу по теме больших данных для определения текущего состояния исследований по анализу, обработке и визуализации больших объемов данных
• рассмотреть и изучить возможности современных приемов визуализации
• изучить возможности библиотеки D3
• разработать новый метод визуализации неструктурированных данных с использованием библиотеки D3
Целью данного работы является выявление, изучение средств визуализации и обработки неструктурированных данных больших объемов при помощи библиотеки D3.
Обработка и визуализация неструктурированных данных больших объемов является вызовом, требующим новые способы решения. Их невозможно реализовывать с помощью существующей практики управления данными, так как они имеют большой объем, высокую частоту создания и огромное множество разновидностей форматов данных. Подход, который используется в данном исследовании, рассматривает проблемные области и их возможные решения. Рассмотрено, что экосистема Hadoop обеспечивает простую и отказоустойчивую платформу для быстрой обработки неструктурированных массивов больших данных. Также библиотека D3 является очень удобным инструментом для визуализации данных. Исследование показывает следующее поколение информационных технологий в областях хранения данных, их обработки и визуализации.
Не требуется расширять надежность и вычислительную мощность с точки зрения аппаратной и процессорной мощности. Таким образом, задачи обработки и визуализации больших объемов данных способны решаться с использованием программных решений, а не разработкой специализированных машин с увеличенными аппаратными и технологическими возможностями.
Данная работа имеет сильные стороны, особенно в практическом исследовании в этой области. Это сами данные и их технологические аспекты, которые помогают решить предстоящие проблемы противостояния и извлечения выгоды из огромных массивов неструктурированных данных. Как мы уже видели, можно управлять большими данными независимо от размера и характера данных. Все это требует дальнейшего изучения и исследования полностью распределенных средах или кластерных машинах обработки и визуализации больших данных в контексте неструктурированного набора данных, используя весь потенциал путем обработки терабайта и петабайта данных больших объемов и его применение для принятия решений путем
выявления новых ранее не известных зависимостей и правил.
1. Grishman, R. Message Understanding Conference-6: a brief history /B. Sundheimin. -Proceedings of the 16th conference on Computational linguistic, COLING '96. - Copenhagen, Denmark, 1996. - C. 466 - 471.
2. Han, H. Toward Scalable Systems for Big Data Analytics: A Technology Tutorial / H. Han. - IEEE, 2014. - C. 652 - 687.
3. Akerkar, R. Big Data Computing/ R. Akerkar - CRC Press, 2014.
4. Morales, G. D. F. M. Big Data and the Web: Algorithms for Data Intensive Scalable Computing/ G. D. F. M Morales - Lucca, Italy, 2012.
5. Verheij, B. THE PROCESS OF BIG DATA SOLUTION ADOPTION An exploratory study within the Dutch telecome and energy utility sector / B. Verheij - 2013.
6. Big Data Visualization: Turning Big Data Into Big Insights/ Intel IT Center White Paper, 2013.
7. Keahey,T. A. Using visualization to understand big data / T. A. Keahey - IBM Software Business Analytics, 2013
8. Wadkar, S. Pro Apache Hadoop / Wadkar, S. - Apress, 2014.
9. Gaber, M. Large Scale and Big Data: Processing and Management / M. Gaber - Auerbach Publications, 2016
10. Grolinger, M. H. Challenges for MapReduce in Big Data, - 2014
11. Akerkar, R. Big Data computing. - Boca Raton, FL: CRC Press, Taylor & Francis Group, 2013.
12. Kaisler, S Big Data: issues and challenges moving forward. / Armour F, Espinosa JA, Money W.- Proceedings of 46th Hawaii International Conference on System Sciences (HICSS), IEEE; 2013. - C. 995-1004.
13. Tole, A, et al. Big Data challenges. - Database Syst J. 2013 - C. 31-40.
14. Chen, M Big Data: related technologies. Challenges and future prospects /, Mao S, Zhang Y, Leung VC. - Springer; 2014.
15. Akerkar R. Big Data computing. Boca Raton, FL: CRC Press, Taylor & Francis Group; 2013.
16. Sethi IK, Jain AK. Artificial neural networks and statistical pattern recognition: old and new connections, vol. 1. New York: Elsevier; 2014.
17. Maren AJ, Harston CT, Pap RM. Handbook of Neural Computing Applications. Academic Press; 2014.
18. McCue C. Data mining and predictive analysis: intelligence gathering and crime analysis. Butterworth-Heinemann; 2014.
19. Rudin C, Dunson D, Irizarry R, Ji H. Laber E, Leek J, McCormick T, Rose S, Schafer C, van der Laan M et al. Discovery with data: leveraging statistics with computer science to transform science and society. 2014.
20. Cressie N. Statistics for spatial data. Hoboken, NJ: John Wiley & Sons; 2015.
21. Lehnert WG, Ringle MH. Strategies for natural language processing. Hove, United Kingdom: Psychology Press; 2014.
22. Mohri M, Rostamizadeh A, Talwalkar A. Foundations of Machine Learning. Adaptive computation and machine learning series: MIT Press; 2012.
23. Vetterli M, Kovacevic J, Goyal VK. Foundations of signal processing. Cambridge University Press; 2014.
24. Shneiderman B. The big picture for Big Data: visualization. Science. 2014;343:730.
25. Puget JF. Optimization Is Ready For Big Data. IBM White Paper (2015).
26. Moradi M, Abedini M. A combination of genetic algorithm and particle swarm optimization for optimal DG location and sizing in distribution systems. Int J Elect Power Energ Syst. 2012;34(1):66-74.
27. Melanie M. An introduction to genetic algorithms. Cambridge, Massachusetts London, England, Fifth printing; 1999. p 3.
28. Pebay P, Thompson D, Bennett J, Mascarenhas A. Design and performance of a scalable, parallel statistics toolkit. In: Proceedings of International Symposium on Parallel and Distributed Processing Workshops and Phd Forum (IPDPSW), IEEE;
2011. pp 1475-84.
29. Lake P, Drake R. Information systems management in the Big Data era. Advanced information and knowledge processing. Springer; 2015.
30. Anselin L, Getis A. Spatial statistical analysis and geographic information systems. In: Perspectives on Spatial Data Analysis, Springer; 2010. pp 35-47.
31. Kaufman L, Rousseeuw PJ. Finding groups in data: an introduction to cluster analysis, vol. 344. John Wiley and Sons; 2009.
32. Aggarwal CC. Data classification: algorithms and applications. CRC Press; 2014.
33. Ryan TP. Modern regression methods. Wiley Series in Probability and Statistics. John Wiley & Sons; 2008.
34. Zhang C, Zhang S. Association rule mining: models and algorithms. Springer;
2002.
35. Powers DM, Turk CC. Machine learning of natural language. Springer; 2012.
36. Shumway RH, Stoffer DS. Time series analysis and its applications. Springer;
2013.
37. Report: Data Visualization Applications Market Future Of Decision Making Trends, Forecasts And The Challengers (2014-2019). Mordor Intelligence; 2014.
38. Simon P. The visual organization: data visualization, Big Data, and the quest for better decisions. John Wiley & Sons; 2014.
39. The Million Song Dataset, T. Bertin-Mahieux, D. Ellis, B. Whitman and P. Lamere, ISMIR, 2011
40. Bostock, M. Data-Driven Documents, http://d3js.org/