🔍 Поиск работ

Исследование методов искусственного интеллекта в кластерном анализе большого объёма данных

Работа №207460

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы68
Год сдачи2020
Стоимость4315 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
8
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 4
Обзор литературы 6
1. Теоретическая часть 7
1.1 Описание различных методов кластеризации 7
1.2. Этапы выполнения кластерного анализа 11
1.3. Критерии выбора метода кластеризации 14
1.4. Описание метода K - means 16
1.5. Описание метода С - means 19
1.6. Описание метода HDBSCAN 21
1.7. Описание метода BIRCH 34
1.8. Вывод по теоретической части 38
2. Практическая часть 39
2.1. Программные средства для кластеризации 39
2.2. Данные 39
2.3. Результаты обработки K means 43
2.4. Результаты обработки C - means 46
2.5. Результаты обработки BIRCH 49
2.6. Результаты обработки HDBSCAN 55
2.7. Вывод по практический части 59
ЗАКЛЮЧЕНИЕ 60
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 61
ПРИЛОЖЕНИЕ А 66

Актуальность темы.
Благодаря развитым методам сбора информации увеличиваются объёмы различных баз данных. В связи с этим увеличивается и потребность в группировании этой самой информации для последующего извлечения выгоды. Этим и занимается кластерный анализ. Кластерный анализ - это общее название для большого набора статистических методов, которые направленны на обнаружение групп в выборке объектов, которые называют кластерами. Существенным отличием кластерного анализа от иных методов какой-либо группировки состоит в том, что группы заранее неизвестны.
Кластерный анализ нашел себе применение во многих областях науки. Начиная от маркетинга с задачами по сегментации потребителей [1] заканчивая социологией и даже медициной [2] помогая классифицировать препараты, симптомы и самих пациентов.
Кластерный анализ выполняет следующие задачи:
1. Разработка типологии или классификации;
2. Исследование полезных концептуальных схем группирования объектов;
3. Порождение гипотез на основе исследования данных;
4. Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Цель данной работы: построение адаптивного метода обработки большого объёма данных на основе сравнительного анализа методов анализа данных, с выявлением оптимального метода обработки.
Для реализации цели работы решаются следующие задачи:
1. Отбор методов кластеризации;
2. Разработка программного обеспечения, реализующего выбранные методы;
3. Формирование критериев оптимальности параметров кластерного анализа;
4. Выбор наиболее оптимального метода обработки.
Подобные исследования неоднократно проводились, [3-6] но работы в качестве данных использовали некие готовые наборы данных (data sets). Уникальность этой работы в том, что сравнение методов кластеризации производится на реальных данных о клиентах различных магазинов, где результат работы не очевиден.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках данной работы был произведен обзор существующих методов кластерного анализа. Были рассмотрены категории методов кластеризации представлены их положительные и отрицательные стороны и типичные представители. Также рассмотрен сам процесс кластеризации расписаны и из каких шагов он состоит. В практической части было проведено сравнение нескольких методов кластеризации по результатам работы и был выбран более подходящий метод.


1. G.J. Mclachlan Cluster analysis and related techniques in medical research // Statistical Methods in Medical Research - 1992 27-48p
2. G. Punj Cluster analysis in marketing research: Review and suggestions for application 1983 // Journal of Marketing Research - Vol. 20, No. 2 May, 1983, pp. 134-148
3. S. Panda Comparing fuzzy-C Means and K-Means clustering techniques: a comprehensive study/ S. Panda, S. Sahu, P.Jena, S. Chattopadhyay - Advances in Computer Science, Eng. & Appl., AISC 166, pp. 451-460
4. Е.С. Подвальный Сравнение алгоритмов кластерного анализа на случайном наборе данных / Е.С. Подвальный, А.В. Плотников
5. O.M. Abu Abbas Comparisons between data clustering algorithms // International Arab Journal of Information Technology 2008, pp 320-325
6. G. Sehgal Comparison of various clustering algorithms/G. Sehgal, K. Garg // International Journal of Computer Science and Information Technologies, Vol. 5 (3), 2014, pp 3074-3076
7. MacQueen, J. Some methods for classification and analysis of multivariate observations/ J. MacQueen // In Proc. 5th Berkeley Symp. Qn Math. Statistics and Probability, 1967. -С.281-297.
8. Kaufman, L. Clustering by means of Medoids, in Statistical Data Analysis Based on the l-Norm and Related Methods / L. Kaufman, P.J. Rousseeuw, Y. Dodge, 1987. -С.405-416.
9. Zhang, T. BIRCH: An Efficient Data Clustering Method for Very Large Databases / T. Zhang, R. Ramakrishnan, M. Linvy // In Proc. ACM SIGMOD Int. Conf, on Management of Data. ACM Press, New York, 1996. -С.103-114.
10. Karypis, G. CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling / G. Karypis, E.-H. Han, V. Kumar // Journal Computer Volume 32 Issue 8. IEEE Computer Society Press Los Alamitos, CA, 1999. -pp 68-75
11. Ester, M. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise / M. Ester, H.-P. Kriegel, J. Sander, X. Xu // In Proc. ACM SIGMOD Int. Conf, on Management of Data, Portland, OR, 1996. -С. 226-231.
12. Agrawal, R. Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications / R. Agrawal, J. Gehrke, D. Gunopulos, P. Raghavan // In Proc. ACM SIGMOD Int. Conf, on Management of Data, Seattle, Washington, 1998. -С.94-105.
13. Demster, A. Maximum Likelihood from Incomplete Data via the EM Algorithm /A.P. Demster, N.M. Laird, D.B. Rubin //JOURNAL OF THE ROYAL STATISTICAL SOCIETY, SERIES B, Vol. 39, No. 1, 1977. -С.1-38.
14. L. Dalton Clustering Algorithms: On Learning, Validation, Performance, and Applications to Genomics/ L. Dalton, V. Ballarin, M. Brun// Curr Genomics. 2009 pp 430-445
15. Halkidi M On clustering validation techniques/ Halkidi M, Batistakis Y, Vazirgiannis M // J. Intell. Inf. Syst. 2001 pp 107-145
16. J. McCaffrey Clustering Non-Numeric Data Using Python [Электронный документ] https://visualstudiomagazine.com/articles/2018/04/01/clustering-non- numeric-data.aspxПроверено 05.05.2020
17. David Arthur & Sergei Vassilvitskii. How Slow is the k-means Method? // Proceedings of the 2006 Symposium on Computational Geometry (SoCG). 2006 pp 10
18. Федин, Ф. О. Анализ данных. Часть 2. Инструменты Data Mining [Электронный ресурс]: учеб. пособие / Ф. О. Федин, Ф. Ф. Федин. - Москва: Московский городской педагогический университет, 2012. - 308 c.
19. Shi Na Research on k-means clustering algorithm / Shi Na, Liu Xumin, Guan yong //2010 Third International Symposium on Intelligent Information Technology and Security Informatics 2010, pp 63-67
20. Md. Sohrab Mahmud Improvement of K-means clustering algorithm with better initial centroids based on weighted average /Md. Sohrab Mahmud, Md.
Mostafizer Rahman, Md. Nasim Akhtar// 7th International Conference on Electrical and Computer Engineering 2012, pp 647 -650
21. Min Huang Improved K-means clustering center selecting algorithm/ Min Huang, Lei Yu, Ying Chen// Information Engineering and Applications 2012 pp 373-379
22. Madhu Yedla Enhancing, K-means Clustering Algorithm with Improved Initial Center/ Madhu Yedla, Srinivasa Rao Pathakota, T.M Srinivasa //International Journal of Computer Science and Information Technologies (IJCSIT), Vol. 1 (2) 2010, pp 121-125.
23. Dunn J.C. A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-Separated Clusters // Journal of Cybernetics. — 1973, pp 32-57
24. Bezdek, James C. Pattern Recognition with Fuzzy Objective Function Algorithms. 1981
25. Rao V.S. Comparative investigations and performance analysis of FCM and MFPCM algorithms on /Vuda Sreenivasa Rao. // Indian Journal of Computer Science and Engineering Vol 1 No 2, 145-151
26. X. Yan Power System Identification and adjustment of Bad Data Based on Data Mining. / X. Yan, L. Yan hong // JOURNAL OF ANHUIELECTRICAL ENGINEERING PROFESSIONAL TECHNIQUE college. VOL 15, NO 3, pp 11¬15
27. Liu YP Improvement and Optimization of a Fuzzy C-Means Clustering Algorithm. Systems Engineering and Electronics/ Shen Yi, Liu ZY//. Vol-22, No-4 2000, pp 1-3
28. Wu KL Alternative C-means clustering algorithms/ Wu KL, Yang MS//Pattern Recognition, 2002. pp 2267-227
29. L. McInnes, J. Healy, S. Astels, hdbscan: Hierarchical density based clustering In: Journal of Open Source Software, The Open Journal, volume 2, number 11. 2017
30. C. Dharni M An improvement of DBSCAN Algorithm to analyze cluster for large datasets / C. Dharni M. Bnasal, // 2013 IEEE International Conference in MOOC, Innovation and Technology in Education (MITE), Jaipur, 2013, pp. 42-46
31. Chowdhury Nirmalya Using an MST based Value for e in DBSCAN Algorithm for Obtaining Better Result. / Chowdhury Nirmalya and Preetha Bhattacharjee // International Journal of Information Technology and Computer Science 6 (2014): 55-60
32. Duan, L A Local Density Based Spatial Clustering Algorithm with Noise / Duan, L., Xiong, D., Lee, J.H., & Guo, F. // IEEE International Conference on Systems, Man and Cybernetics, 5, 4061-4066 (2006)
33. Ahmed, K.N An Overview of Various Improvements of DBSCAN Algorithm
in Clustering Spatial Databases / Ahmed K.N., Razak T.A.// [Электронный документ] https://www.semanticscholar.org/paper/An-Overview-of-V arious-
Improvements-of-DBSCAN-in-Ahmed-
Razak/9d3b112276536dd29d9af0873db58a5f3f08b65c [ Проверено 01.05.2020
34. Tian Z. BIRCH: an efficient data clustering method for very large databases. /Tian Zhang, Raghu Ramakrishnan, and Miron Livny// In Proceedings of the 1996 ACM SIGMOD international conference on Management of data (SIGMOD ’96). Association for Computing Machinery, New York, NY, USA, 103-114.
35. Lorbeer B Variations on the Clustering Algorithm BIRCH. Big Data Research. / Lorbeer Boris, Kosareva Ana, Deva Bersant, Softie Dzenan, Ruppel Peter, Kupper Axel // Journal of Cybernetics. — 1973, pp 32-57
36. Jiang S. Improved BIRCH clustering algorithm: Improved BIRCH clustering algorithm. / Jiang Shengyi, LI Xia // Journal of Computer Applications. 29. 293-296. 10.3724/SP.J.1087.2009.00293.
37. Ismael N Improved Multi Threshold Birch Clustering Algorithm/ Ismael
Nidal Alzaalan Mahmoud, Ashour Wesam. // International Journal of Artificial Intelligence and Applications for Smart Devices. 2. 1-10.
10.14257/ijaiasd.2014.2.1.01.
38. Dongwei Guo LBIRCH: An Improved BIRCH Algorithm Based on Link/ Dongwei Guo, Jingwen Chen, Yingjie Chen, Zhiyu Li. // In Proceedings of the 2018 10th International Conference on Machine Learning and Computing (ICMLC 2018). Association for Computing Machinery, New York, NY, USA, 74-78.
39. H. Du An Improved BIRCH Clustering Algorithm and Application in Thermal Power /H. Du, Y. Li //2010 International Conference on Web Information Systems and Mining, Sanya, 2010, pp. 53-56,
40. Release History - 0.21.0 documentation scikit-learn. [Электронный
документ] https://scikit-learn.org/stable/whats_new.html#version-0-21-0
Проверено 24.05.2019
41. Kaufman, L. Clustering by means of Medoids, in Statistical Data Analysis Based on the l-Norm and Related Methods / L. Kaufman, P.J. Rousseeuw, Y. Dodge, 1987. -С.405-416.


Работу высылаем на протяжении 30 минут после оплаты.




©2026 Cервис помощи студентам в выполнении работ