Аннотация 2
Введение 5
Глава 1 Методы обработки больших графов 7
1.1 Сопоставление шаблонов подграфов 7
1.2 Модели вычислений на больших графах 10
1.3 Методы визуализации графов 13
Глава 2 Алгоритмы анализа больших данных на графах 16
2.1 Алгоритм нахождения связанных компонентов 16
2.2 Алгоритм PageRank 18
2.3 Меры центральности 21
Глава 3 Программное обеспечение для анализа больших данных методами визуализации графов 29
Заключение 41
Список используемой литературы 43
В последнее время бизнес-аналитики в различных областях человеческой деятельности сталкиваются с проблемой обработки быстро растущих объемов данных, которые собираются в многочисленных приложениях.
К таким областям относятся: биохимические и генетические исследования, фундаментальные физические эксперименты и астрономические наблюдения, социальные сети, исследования поведения потребителей и многое другое.
В этих приложениях большие объемы необработанных данных могут использоваться для принятия решений и планирования действий, но их размеры и сложная структура ограничивают применимость многих хорошо известных подходов, широко используемых с небольшими наборами данных, таких как анализ главных компонентов, разложение по сингулярным значениям. положение, спектральный анализ и другие.
Для решения данной проблемы требуются новые парадигмы, методы и алгоритмы, которые позволяют эффективно обрабатывают большие объемы данных, используя их структуру.
Естественной формой представления структурированных или частично структурированных данных являются графы.
Применение методов обработки графов для задач анализа больших данных представляет научно-практический интерес.
Объектом исследования бакалаврской работы является анализ больших данных.
Предметом исследования бакалаврской работы являются методы обработки графов.
Цель бакалаврской работы - применение методов обработки графов для повышения эффективности анализа больших данных.
Для достижения данной цели необходимо выполнить следующие задачи:
• проанализировать методы обработки графов;
• проанализировать алгоритмы анализа больших данных на графах;
• разработать программное обеспечение для анализа больших данных методами визуализации графов и оценить их эффективность.
Методы исследования - наука о данных (Data Science), методы обработки графов.
Практическая значимость бакалаврской работы заключается в разработке программного обеспечения для анализа больших данных методами визуализации графов.
Данная работа состоит из введения, трех глав, заключения и списка используемой литературы.
В первой главе даны обзор и анализ методов обработки больших графов.
Во второй главе рассматриваются характеристики алгоритмов анализа обработки больших графов и их применение для повышения эффективности анализа больших данных.
Третья глава посвящена разработке программного обеспечения для анализа больших данных методами визуализации графов и оценке их эффективность.
В заключении описываются результаты выполнения выпускной квалификационной работы.
Бакалаврская работа состоит из 44 страниц текста, 24 рисунков, 2 таблиц и 21 источника.
Выпускная квалификационная работа посвящена актуальной проблеме применения методов обработки графов для повышения эффективности анализа больших данных.
Для решения задач анализа больших данных требуются новые парадигмы, методы и алгоритмы, которые позволяют эффективно обрабатывают большие объемы данных, используя их структуру.
Естественной формой представления структурированных или частично структурированных данных являются графы.
Применение методов обработки графов для задач анализа больших данных представляет научно-практический интерес.
1. Выполнены обзор и анализ методов обработки больших графов. Для решения задач анализа больших данных с помощью аппарата графов используется технология интеллектуального анализа графов или Graph Mining. Как показал анализ, одной из самых сложных задач в интеллектуальном анализе графов является анализ шаблонов в больших графах.
2. Выделены следующие методы обработки больших графов для последующего анализа: сопоставление шаблонов подграфов, модели вычислений на больших графах и визуализация графов. Результаты сравнительного анализа показали, что наилучшими возможностями для аналитической обработки больших графов обладает метод визуализации графов. Визуализация графов позволяет получить огромные преимущества от выхода за рамки плоской модели данных с помощью мощного программного обеспечения для визуализации.
3. Проанализированы алгоритмы анализа больших данных на графах. К наиболее важным алгоритмам графов, которые используются для анализа больших данных, относятся алгоритмы нахождения связанных компонентов в графе, алгоритмы PageRank и меры центральности. Как показал сравнительный анализ, высокую эффективность при анализе данных методами визуализации графов обеспечивают алгоритмы PageRank и различные меры центральности вершины в графе, которые определяют относительную важность вершины в графе.
4. Разработано программное обеспечение для анализа больших данных методами визуализации графов. Для разработки программного обеспечения использован язык Python. Реализованы алгоритмы, основанные на различных мерах центральности. Тестирование программы показало, что реализованные в ней алгоритмы позволяют решать задачи анализа больших данных методами визуализации графов.
Результаты бакалаврской работы представляют научно-практический интерес и могут быть рекомендованы для разработчиков программ, основанных на методах обработки графов для задач анализа больших данных.