Аннотация 2
Введение 5
Глава 1 Анализ алгоритмов классификации больших объемов данных 7
1.1 Анализ алгоритмов метода ближайших соседей 7
1.1.1 Алгоритм к ближайших соседей 7
1.1.2 Алгоритм взвешенных к ближайших соседей 10
1.2 Анализ алгоритма «Случайный лес» 11
1.3 Анализ алгоритма классификации по методу стохастического градиента 14
Глава 2 Анализ алгоритмов кластеризации больших объемов данных 19
2.1 Анализ алгоритма k-means 19
2.2 Анализ алгоритма Борувки 23
2.3 Анализ алгоритма иерархической кластеризации 26
Глава 3 Разработка программы классификации и кластеризации больших объемов данных 35
3.1 Выбор среды для разработки программы 35
3.1.1 Интегрированная среда разработки Visual Studio + Python Tools for Visual Studio 35
3.1.2 Интегрированная среда разработки PyCharm 37
3.1.3 Интегрированная среда разработки Eclipse + PyDEv 38
3.2 Реализация алгоритмов классификации и кластеризации 41
Заключение 44
Список используемой литературы 46
Решаемые в последнее время практические задачи анализа больших объемов данных связаны с применением методов и алгоритмов машинного обучения.
Следует отметить, что к методам, широко применяемым для интеллектуального анализа данных, относятся методы классификации и кластеризации, для реализации которых используются различные алгоритмы [5].
Вместе с тем, как показывает практика, качество результатов анализа больших данных зависит от свойств конкретного алгоритма, используемого для классификации и кластеризации данных.
Выбор того или алгоритма классификации и кластеризации обусловлен не только объемами обрабатываемых данных, но и его эффективностью.
Для определения целесообразности применения алгоритмов классификации и кластеризации для решения конкретной задачи анализа данных необходимо провести их полное исследование.
Таким образом, исследование алгоритмов классификации и кластеризации больших объемов данных представляет актуальность и научно-практический интерес.
Объектом исследования бакалаврской работы является интеллектуальный анализ больших объемов данных.
Предметом исследования бакалаврской работы являются алгоритмы классификации и кластеризации больших объемов данных.
Цель бакалаврской работы - исследование алгоритмов классификации и кластеризации на предмет эффективности использования для решения задач анализа больших объемов данных.
Для достижения данной цели необходимо выполнить следующие задачи:
• произвести анализ алгоритмов классификации больших объемов данных и выбрать наиболее эффективный алгоритм классификации;
• произвести анализ алгоритмов кластеризации больших объемов данных и выбрать наиболее эффективный алгоритм кластеризации;
• разработать и протестировать программу, реализующую выбранные алгоритмы классификации и кластеризации больших объемов данных.
Методы исследования - интеллектуальный анализ данных, методы классификации и кластеризации данных.
Практическая значимость бакалаврской работы заключается в разработке программы, реализующей эффективные алгоритмы классификации и кластеризации больших объемов данных.
Данная работа состоит из введения, трех глав, заключения и списка используемой литературы.
Первая главе работы посвящена анализу алгоритмов классификации больших объемов данных.
Вторая глава работы посвящена анализу алгоритмов кластеризации больших объемов данных.
В третьей главе рассматривается процесс разработки программы, реализующей эффективные алгоритмы классификации и кластеризации больших объемов данных.
В заключении описываются результаты выполнения выпускной квалификационной работы.
Бакалаврская работа состоит из 46 страниц текста, 21 рисунку, 3 таблиц и 23 источников.
Выпускная квалификационная работа посвящена актуальной проблеме исследования алгоритмов классификации и кластеризации больших объемов данных.
Качество результатов анализа больших данных зависит от свойств конкретного алгоритма, используемого для классификации и кластеризации данных.
Для определения целесообразности применения алгоритмов классификации и кластеризации для решения конкретной задачи анализа данных необходимо провести их полное исследование.
Для достижения данной цели в процессе работы над бакалаврской работой решены следующие задачи:
• произведен анализ алгоритмов классификации больших объемов данных. На основании анализа литературы и источников по проблеме были выделены следующие алгоритмы классификации, которые используются для анализа больших объемов данных: алгоритмы метода ближайших соседей, алгоритм классификации «Случайный лес» и алгоритм классификации по методу стохастического градиента. Как показал сравнительный анализ, высокую эффективность классификации больших данных обеспечивают алгоритмы ближайших соседей и стохастического градиента. С точки зрения реализации более прост алгоритм ближайших соседей;
• произведен анализ алгоритмов кластеризации больших объемов данных и выбрать наиболее эффективный алгоритм кластеризации. На основании анализа литературы и источников по проблеме были выделены следующие алгоритмы классификации, которые используются для анализа больших объемов данных: алгоритм k- means, алгоритм Борувки и алгоритмы агломеративной кластеризации. Как показал сравнительный анализ, высокую эффективность кластеризации больших данных обеспечивают алгоритмы k-means и агломеративной кластеризации. С точки зрения реализации более прост алгоритм k-means;
• разработана и протестирована программа, реализующие выбранные алгоритмы классификации и кластеризации больших объемов данных. Программа разработана на языке Python обладает IDE Eclipse+PyDEv. Тестирование подтвердило работоспособность разработанной программы и правильность реализации эффективных алгоритмов классификации и кластеризации больших объемов данных.
Результаты бакалаврской работы представляют научно-практический интерес и могут быть рекомендованы для бизнес-аналитиков и разработчиков программ, использующих для принятия управленческих решений методы и алгоритмы интеллектуального анализа больших объемов данных.