ВВЕДЕНИЕ 3
1. БОЛЬШИЕ ДАННЫЕ (BIGDATA) 5
1.1 НЕСТРУКТРУИРОВАННЫЕ ДАННЫЕ 7
1.2 ЗАДАЧИ БОЛЬШИХ ДАННЫХ 8
1.3 ТЕХНОЛОГИИ ОБРАБОТКИ И АНАЛИЗА БОЛЬШИХ ДАННЫХ 11
2. ВИЗУЛИЗАЦИИ ДАННЫХ 16
2.1 ПРИЕМЫ ВИЗУЛИЗАЦИИ 19
2.2 БИБЛИОТЕКА D3 27
3. ВИЗУАЛИЗАЦИЯ НЕСТРУКТУРИРОВАННЫХ ДАННЫХ C
ИСПОЛЬЗОВАНИЕМ БИБЛИОТЕКИ D3 31
ЗАКЛЮЧЕНИЕ 35
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 37
ПРИЛОЖЕНИЕ 41
В наше время все больше устройств появляются с множеством функциональных возможностей, которые обеспечивают услуги на разном уровне, например, для отдельных лиц, групп и сообществ. Теперь люди на грани решения жизненных вопросов, которые выражаются в терминах пространства и времени. Взаимодействие людей и Интернет вещей (IoT) генерирует очень ценные данные с точки зрения прибыли, которую можно получить с их помощью. Количество данных в мире с каждым годом увеличивается многократно. Существующая инфраструктура и приложения обеспечивают человечеству свободу общения и предоставляют цифровые данные, которые были немыслимы еще не так давно. Сегодняшние объемы данных в мире исчисляются в зеттабайтах. К 2026 году прогнозируется увеличение количества этих данных в 50 раз, тем самым ставя перед собой все более сложные задачи.
Большие Данные (BigData) имеет взрывной рост, благодаря недавним достижениям в области технологий записи и хранения данных. В этом новом и захватывающем мире, данные генерируются в размере нескольких терабайт в день. Объем больших данных является ключевым испытанием, которое бросает вызовы в отношении емкости для хранения и возможности доступа к данным. Это имеет решающее значение для бизнес-организаций, а также для научных сообществ, чтобы получить полную картину окружающей среды, действовать или реагировать так, чтобы повысить результативность. Конкурентоспособные компании ищут больше данных для получения преимущества перед своими конкурентами.
Неструктурированные данные представляют собой любые данные, которые не имеют явную структуру. Это сырые данные без какой-либо структуры как текстовые и нетекстовые. Например, электронная почта является наглядной иллюстрацией неструктурированных текстовых данных. Она включает в себя время, дату, получателей и отправителей, детали и т.д., но тело письма остается неструктурированным. Неструктурированные данные также могут быть идентифицированы как слабо структурированные данных, в котором данные имеют структуру, но не все данные в наборе данных имеют такую же структуру. Одним из основных видов неструктурированных данных является текст. С распространением интернета и корпоративных взаимоотношений идет большой рост количества неструктурированных данных.
Тема данной работы актуальна и может представлять интерес как для широкого круга специалистов по анализу и обработки данных, так и для ученых из разных областей. В современных условиях важно замечать связи на всех этапах анализа данных и видеть общую картину, чтобы найти полезную сокрытую информацию.
Проблемой данной работы является: неструктурированность, которая усложняет понимание и восприятие большого объема данных.
Задача выпускной квалификационной работы заключается в следующем:
• рассмотреть актуальную научную литературу по теме больших данных для определения текущего состояния исследований по анализу, обработке и визуализации больших объемов данных
• рассмотреть и изучить возможности современных приемов визуализации
• изучить возможности библиотеки D3
• разработать новый метод визуализации неструктурированных данных с использованием библиотеки D3
Целью данного работы является выявление, изучение средств визуализации и обработки неструктурированных данных больших объемов при помощи библиотеки D3.
Обработка и визуализация неструктурированных данных больших объемов является вызовом, требующим новые способы решения. Их невозможно реализовывать с помощью существующей практики управления данными, так как они имеют большой объем, высокую частоту создания и огромное множество разновидностей форматов данных. Подход, который используется в данном исследовании, рассматривает проблемные области и их возможные решения. Рассмотрено, что экосистема Hadoop обеспечивает простую и отказоустойчивую платформу для быстрой обработки неструктурированных массивов больших данных. Также библиотека D3 является очень удобным инструментом для визуализации данных. Исследование показывает следующее поколение информационных технологий в областях хранения данных, их обработки и визуализации.
Не требуется расширять надежность и вычислительную мощность с точки зрения аппаратной и процессорной мощности. Таким образом, задачи обработки и визуализации больших объемов данных способны решаться с использованием программных решений, а не разработкой специализированных машин с увеличенными аппаратными и технологическими возможностями.
Данная работа имеет сильные стороны, особенно в практическом исследовании в этой области. Это сами данные и их технологические аспекты, которые помогают решить предстоящие проблемы противостояния и извлечения выгоды из огромных массивов неструктурированных данных. Как мы уже видели, можно управлять большими данными независимо от размера и характера данных. Все это требует дальнейшего изучения и исследования полностью распределенных средах или кластерных машинах обработки и визуализации больших данных в контексте неструктурированного набора данных, используя весь потенциал путем обработки терабайта и петабайта данных больших объемов и его применение для принятия решений путем
выявления новых ранее не известных зависимостей и правил.