Тип работы:
Предмет:
Язык работы:


Исследование алгоритмов классификации и кластеризации больших объемов данных

Работа №118994

Тип работы

Бакалаврская работа

Предмет

программирование

Объем работы48
Год сдачи2021
Стоимость4600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
81
Не подходит работа?

Узнай цену на написание


Аннотация 2
Введение 5
Глава 1 Анализ алгоритмов классификации больших объемов данных 7
1.1 Анализ алгоритмов метода ближайших соседей 7
1.1.1 Алгоритм к ближайших соседей 7
1.1.2 Алгоритм взвешенных к ближайших соседей 10
1.2 Анализ алгоритма «Случайный лес» 11
1.3 Анализ алгоритма классификации по методу стохастического градиента 14
Глава 2 Анализ алгоритмов кластеризации больших объемов данных 19
2.1 Анализ алгоритма k-means 19
2.2 Анализ алгоритма Борувки 23
2.3 Анализ алгоритма иерархической кластеризации 26
Глава 3 Разработка программы классификации и кластеризации больших объемов данных 35
3.1 Выбор среды для разработки программы 35
3.1.1 Интегрированная среда разработки Visual Studio + Python Tools for Visual Studio 35
3.1.2 Интегрированная среда разработки PyCharm 37
3.1.3 Интегрированная среда разработки Eclipse + PyDEv 38
3.2 Реализация алгоритмов классификации и кластеризации 41
Заключение 44
Список используемой литературы 46

Решаемые в последнее время практические задачи анализа больших объемов данных связаны с применением методов и алгоритмов машинного обучения.
Следует отметить, что к методам, широко применяемым для интеллектуального анализа данных, относятся методы классификации и кластеризации, для реализации которых используются различные алгоритмы [5].
Вместе с тем, как показывает практика, качество результатов анализа больших данных зависит от свойств конкретного алгоритма, используемого для классификации и кластеризации данных.
Выбор того или алгоритма классификации и кластеризации обусловлен не только объемами обрабатываемых данных, но и его эффективностью.
Для определения целесообразности применения алгоритмов классификации и кластеризации для решения конкретной задачи анализа данных необходимо провести их полное исследование.
Таким образом, исследование алгоритмов классификации и кластеризации больших объемов данных представляет актуальность и научно-практический интерес.
Объектом исследования бакалаврской работы является интеллектуальный анализ больших объемов данных.
Предметом исследования бакалаврской работы являются алгоритмы классификации и кластеризации больших объемов данных.
Цель бакалаврской работы - исследование алгоритмов классификации и кластеризации на предмет эффективности использования для решения задач анализа больших объемов данных.
Для достижения данной цели необходимо выполнить следующие задачи:
• произвести анализ алгоритмов классификации больших объемов данных и выбрать наиболее эффективный алгоритм классификации;
• произвести анализ алгоритмов кластеризации больших объемов данных и выбрать наиболее эффективный алгоритм кластеризации;
• разработать и протестировать программу, реализующую выбранные алгоритмы классификации и кластеризации больших объемов данных.
Методы исследования - интеллектуальный анализ данных, методы классификации и кластеризации данных.
Практическая значимость бакалаврской работы заключается в разработке программы, реализующей эффективные алгоритмы классификации и кластеризации больших объемов данных.
Данная работа состоит из введения, трех глав, заключения и списка используемой литературы.
Первая главе работы посвящена анализу алгоритмов классификации больших объемов данных.
Вторая глава работы посвящена анализу алгоритмов кластеризации больших объемов данных.
В третьей главе рассматривается процесс разработки программы, реализующей эффективные алгоритмы классификации и кластеризации больших объемов данных.
В заключении описываются результаты выполнения выпускной квалификационной работы.
Бакалаврская работа состоит из 46 страниц текста, 21 рисунку, 3 таблиц и 23 источников.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Выпускная квалификационная работа посвящена актуальной проблеме исследования алгоритмов классификации и кластеризации больших объемов данных.
Качество результатов анализа больших данных зависит от свойств конкретного алгоритма, используемого для классификации и кластеризации данных.
Для определения целесообразности применения алгоритмов классификации и кластеризации для решения конкретной задачи анализа данных необходимо провести их полное исследование.
Для достижения данной цели в процессе работы над бакалаврской работой решены следующие задачи:
• произведен анализ алгоритмов классификации больших объемов данных. На основании анализа литературы и источников по проблеме были выделены следующие алгоритмы классификации, которые используются для анализа больших объемов данных: алгоритмы метода ближайших соседей, алгоритм классификации «Случайный лес» и алгоритм классификации по методу стохастического градиента. Как показал сравнительный анализ, высокую эффективность классификации больших данных обеспечивают алгоритмы ближайших соседей и стохастического градиента. С точки зрения реализации более прост алгоритм ближайших соседей;
• произведен анализ алгоритмов кластеризации больших объемов данных и выбрать наиболее эффективный алгоритм кластеризации. На основании анализа литературы и источников по проблеме были выделены следующие алгоритмы классификации, которые используются для анализа больших объемов данных: алгоритм k- means, алгоритм Борувки и алгоритмы агломеративной кластеризации. Как показал сравнительный анализ, высокую эффективность кластеризации больших данных обеспечивают алгоритмы k-means и агломеративной кластеризации. С точки зрения реализации более прост алгоритм k-means;
• разработана и протестирована программа, реализующие выбранные алгоритмы классификации и кластеризации больших объемов данных. Программа разработана на языке Python обладает IDE Eclipse+PyDEv. Тестирование подтвердило работоспособность разработанной программы и правильность реализации эффективных алгоритмов классификации и кластеризации больших объемов данных.
Результаты бакалаврской работы представляют научно-практический интерес и могут быть рекомендованы для бизнес-аналитиков и разработчиков программ, использующих для принятия управленческих решений методы и алгоритмы интеллектуального анализа больших объемов данных.


1. Воронцов К.В. Методы кластеризации [Электронный ресурс]. URL: http://www.machinelearning.rU/wiki/images/archive/2/28/20150427184336%21Vo ron-ML-Clustering-slides.pdf (дата обращения: 31.05.2021).
2. Интегрированные среды разработки программ [Электронный ресурс]. URL: http://bourabai.ru/einf/ide.htm (дата обращения: 31.05.2021).
3. Краткое руководство. Знакомство с интегрированной средой разработки Visual Studio [Электронный ресурс]. URL: https://docs.microsoft.com/ru-ru/visualstudio/ide/quickstart-ide- orientation?view=vs-2019 (дата обращения: 25.05.2021).
4. Метод ближайших соседей [Электронный ресурс]. URL: https://learnmachinelearning.wikia.org/ru/wiki/%D0%9C%D0%B5%D1%82%D0 %BE%D0%B4_%D0%B 1%D0%BB%D0%B8%D0%B6%D0%B0%D0%B9%D 1 %88%D0%B8%D 1 %85_%D 1 %81 %D0%BE%D 1 %81 %D0%B5%D0%B4%D0% B5%D0%B9_(kNN) (дата обращения: 31.05.2021).
5. Нейский И.М. Классификация и сравнение методов кластеризации // Интеллектуальные технологии и системы // Сборник учебно-методических работ и статей аспирантов и студентов. М.: НОК «CLAIM», 2006. Выпуск 8. С. 130-142.
6. Самуйлов С. В. Объектно-ориентированное моделирование на основе UML : учебное пособие. Саратов : Вузовское образование, 2016. 37 c.
7. Advantages and Disadvantages of Stochastic Gradient Descent [Электронный ресурс]. URL: https://webcache.googleusercontent.com/search?q=cache:STMPQvzw9CoJ:https:// www.asquero.com/article/advantages-and-disadvantages-of-stochastic-gradient- descent/+&cd=1&hl=en&ct=clnk&gl=ru (дата обращения: 31.05.2021).
8. An Introduction to Clustering and different methods of clustering [Электронный ресурс]. URL: https://www.analyticsvidhya.com/blog/2016/11/an- introduction-to-clustering-and-different-methods-of-clustering/ (дата обращения: 31.05.2021).
9. Boruvka’s Algorithm for Minimum Spanning Trees in Java [Электронный ресурс]. URL: https://www.baeldung.com/java-boruvka-algorithm (дата обращения: 31.05.2021).
10. Donges N. A complete guide to the random forest algorithm [Электронный ресурс]. URL: https://builtin.com/data-science/random-forest- algorithm (дата обращения: 31.05.2021).
11. Eclipse IDE [Электронный ресурс]. URL: https://www.eclipse.org/eclipseide/ (дата обращения: 25.05.2021).
12. Geir Storvik. The Stochastic gradient algorithm [Электронный ресурс]. URL: https://www.uio.no/studier/emner/matnat/math/STK4051/v20/pensumliste/stoc_gr ad.pdf (дата обращения: 31.05.2021).
13. Hierarchical Clustering in Data Mining [Электронный ресурс]. URL: https://www.geeksforgeeks.org/hierarchical-clustering-in-data-mining/ (дата обращения: 31.05.2021).
14. K-means Clustering: Algorithm, Applications, Evaluation Methods, and Drawbacks [Электронный ресурс]. URL: https://towardsdatascience.com/k- means-clustering-algorithm-applications-evaluation-methods-and-drawbacks- aa03e644b48a (дата обращения: 31.05.2021).
15. K-Nearest Neighbors (K-NN) Explained [Электронный ресурс]. URL: https://towardsdatascience.com/k-nearest-neighbors-k-nn-explained-8959f97a8632 (дата обращения: 31.05.2021).
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ