Введение
Постановка задачи 6
0. Кластеризация 8
0.1 Иерархическая кластеризация 10
0.2 Методы иерархической кластеризации 12
0.2.1 Одиночная связь 12
0.2.2 Полная связь 12
0.2.3 Групповое среднее 13
0.2.4 Среднее расстояние 13
0.2.5 Расстояние Уорда (Варда) 13
0.2.6 Медианное расстояние 14
0.2.7 Расстояние Хаусдорфа 14
0.3 Формула Ланса-Уильямса 15
0.4 Реализация 16
0.5 Генерирование выборки 20
1. Качество кластеризации 25
1.1 Функционал качества кластеризации 25
1.2 Кластерная валидация 26
1.2.1 Индексы кластерной валидации 28
1.2.2 Особенности индексов кластерной валидации 34
2.4 Результаты экспериментов 36
2. Расстояния 44
2.1 Ультраметричность и метричность 46
2.1.1 Результаты экспериментов 49
2.2 Расстояния между точками в многомерном пространстве 51
2.2.1 Результаты экспериментов 53
2.3 Трансформация расстояний 60
2.3.1 Результаты экспериментов 61
2.4 Ультраметрики, порождаемые иерархической кластеризацией 66
2.4.1 Исследования и результаты 68
2.5 Субдоминантная ультраметрика 72
2.5.1 Субдоминантная ультраметрика в иерархической кластеризации 72
2.5.2 Субдоминантная ультраметрика и минимальное покрывающее дерево 74
2.5.3 Исследования и результаты 77
3. Интерфейс и дополнительные возможности 80
Заключение 87
Список литературы 89
Приложение 91
Анализ данных применяется во многих областях науки и техники, таких как биоинформатика, анализ изображений [7], генетика, финансы и электротехника. Возросший интерес к анализу данных порождает много новых методов, порой сложных и имеющих свои недостатки и проблемы.
Одним из самых полезных методов является кластеризация для обнаружения групп и выявления интересных распределений и шаблонов в данных. Кластерный анализ (или кластеризация) - это задача группировки набора объектов таким образом, что объекты, попавшие в одну группу (называемую кластером) более схожи между собой, а объекты разных групп максимально различны.
Одной из основных проблем кластеризации является способ оценки результатов без использования дополнительной информации. Это необходимо как для сравнения работы различных алгоритмов кластеризации, так и для выявления наилучшего разбиения. Распространенным методом оценки результатов является применение функционалов качества кластеризации и индексов кластерной валидации.
Второй, не менее важной проблемой является оценка расстояний между объектами для кластеризации. Далеко не всегда матрица расстояний между объектами является метричной, что затрудняет оценку степени несходства между объектами. Возникает вопрос о существовании метрик или ультраметрик, аппроксимирующих исходное расстояние.
В данной магистерской диссертации будут рассмотрены 7 алгоритмов иерархической кластеризации. Это одиночная связь, полная связь, групповое среднее, среднее расстояние, расстояние Уорда, медианное расстояние и расстояние Хаусдорфа. Будет проведена оценка качества каждого алгоритма иерархической кластеризации, а также анализ индексов кластерной валидации для поиска наилучшего разбиения.
Будут введены понятия метричности и ультраметричности пространства и расстояний, рассмотрена зависимость качества разбиений от начального расстояния на множестве объектов, а также исследована зависимость метричности и ультраметричности исходного множества и качества кластерного разбиения.
Кроме того, в данной магистерской диссертации будут исследованы преобразования, которые могут повысить степень ультраметричности расстояний. Будет рассмотрено влияние этих преобразований на качество кластеризации в различных алгоритмах иерархической кластеризации.
Также будут исследованы ультраметрики, порождаемые алгоритмами иерархической кластеризации и произведен поиск ультраметрики, наилучшим образом аппроксимирующей исходное расстояние. Будет определено понятие субдоминантной ультраметрики и ее свойства.
Постановка задачи
В магистерской диссертации были поставлены следующие задачи:
1. Исследование и программная реализация 7 алгоритмов иерархической кластеризации
2. Оценка качества 7 алгоритмов иерархической кластеризации
3. Изучение и реализация функционала качества и индексов кластерной валидации
4. Исследование влияния различных расстояний между точками на качество кластерного разбиения
5. Исследование влияния трансформаций расстояний на качество кластеризации
6. Исследование ультраметрик, порождаемых иерархической кластеризацией и сравнение их с исходным расстоянием
7. Изучение и построение субдоминантной ультраметрики
8. Возможность кластеризовать реальные данные
9. Реализация программного комплекса, выполняющего поставленные задачи
В данной магистерской диссертации были найдены ответы на следующие вопросы:
• Какие алгоритмы иерархической кластеризации порождают ультраметрики?
• Какая из аппроксимаций исходного расстояния является наилучшей?
• Каково влияние степени метричности и ультраметричности пространства на качество кластерного разбиения?
• Как оценить кластерное разбиение и определить оптимальное число кластеров?
Для выполнения поставленных задач была изучена литература по методам иерархической кластеризации, ультраметричности, функционалам качества кластеризации, индексам кластерной валидации, видам расстояний в многомерном пространстве, способам трансформации расстояний, субдоминантной ультраметрике. А также был разработан программный комплекс, реализующий поставленные задачи, проведено большое количество экспериментов, анализ результатов и оформление выводов.
Программный комплекс был написан на языке C# в среде VisualStudio 2017 с использованием .NET Framework версии 4.5.2.
В данной магистерской диссертации были выполнены все поставленные задачи, а именно реализован программный комплекс с интерфейсом для изучения следующих моментов:
• 7 алгоритмов иерархической кластеризации
• Функционала качества и индексов кластерной валидации
• Влияния различных расстояний и их трансформаций на кластерное разбиение
• Ультраметрик, порождаемых иерархической кластеризацией, аппроксимирующих исходное расстояние
• Субдоминантной ультраметрики
• Кластеризации реальных данных
Было выявлено, что не все алгоритмы иерархической кластеризации порождают ультраметрики, а только одиночная связь, полная связь, групповое среднее, расстояние Уорда и медианное расстояние. А также выяснилось, что медианное расстояние и групповое среднее наилучшим образом аппроксимируют исходное расстояние, а расстояния Уорда - наихудшим. Отдельно стоит отметить, что расстояние одиночной связи оказалось порождающим субдоминантную ультраметрику, которая обладает
уникальными свойствами: она является ближайшей ультраметрикой, меньшей чем данная матрица расстояний (не обязательно метричная). Субдоминантную ультраметрику, как выяснилось, также можно построить с помощью минимального остовного дерева. Субдоминантная ультраметрика, аппроксимирующая исходное расстояние, делает разбиения, получаемые с помощью различных алгоритмов иерархической кластеризации, в большинстве случаев идентичными, а соответственно упрощает выбор разбиения.
С целью выявить оптимальное количество кластеров, были использованы индексы кластерной валидации, которые хорошо применимы на практике. Для сравнения алгоритмов иерархической кластеризации был использован функционал качества кластеризации, значения которого не сильно варьировались для разных алгоритмов, а соответственно каждый из них является достойным выбором для проведения кластеризации.
Что касается влияния расстояний на качество кластерного разбиения, было выявлено, что качество кластерного разбиения зависит от степени метричности расстояний в пространстве: неметричные расстояния давали плохие разбиения, а метричные - хорошие и логичные. А представленные трансформации расстояний - ухудшали качество кластерного разбиения.
1. Dan A. Simovici, Chabane Djeraba. Mathematical Tools for Data Mining, Second Edition, Springer-Verlag London, 2014. - 831c.
2. Saaid Baraty, Dan A. Simovici, Catalin Zara. The Impact of Triangular Inequality Violations on Medoid-Based Clustering, Springer, Berlin, Heidelberg, 2011. - 10c.
3. Dan Simovici, Rosanne Vetro, Kaixun Hua. Ultrametricity of Dissimilarity Spaces and Its Significance for Data Mining, Springer, Cham, 2016. - 12с.
4. David Weisman, Dan A. Simovici. Several remarks on the metric space of genetic codes, International Journal of Data Mining and Bioinformatics, Vol. 6, No.
1, 2012. - 10с.
5. Dan A. Simovici. Several Remarks on Dissimilarities and Ultrametrics, Scientific Annals of Computer Science Vol. 25 (1), 2015. - 16с.
6. Fionn Murtagh, Pedro Contreras. Methods of Hierarchical Clustering, Cornell University Library, 2011. - 21с.
7. Maria Halkidi, Yannis Batistakis, Michalis Vazirgiannis. On Clustering Validation Techniques, Kluwer Academic Publishers, Journal of Intelligent Information Systems, Vol. 17, 2001. - 39c.
8. Ferenc Kovacs, Csaba Legany, Attila Babos. Cluster Validity Measurement Techniques, Proceedings of the 5th WSEAS International Conference on Artificial Intelligence, Knowledge Engineering and Data Bases, 2006. - 11c.
9. Mohammed J. Zaki, Wagner Meira Jr. Data Mining and Analysis: Fundamental Concepts and Algorithms, Cambridge University Press, 2014. - 659с.
10. Erendira Rendon, Itzel Abundez, Alejandra Arizmendi and Elvia M. Quiroz. Internal versus External cluster validation indexes, International Journal of Computers, Communications & Control, 2011. - 8с.
11. David W. Jacobs, Daphna Weinshall, Classification with Nonmetric Distances: Image Retrieval and Class Representation, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000. - 18с.
12. Neeraj Koul. Clustering with Semi Metrics, Iowa State University, 2001. - 50с.
13. R.Ravi. Ultrametrics Continued and Closest Metric Problems, 15-859(J):
Metric Embeddings and Methods, 2003. - 5с.
14. Yanchi Liu1, Zhongmou Li, Hui Xiong, Xuedong Gao, Junjie Wu. Understanding of Internal Clustering Validation Measures, IEEE International Conference on Data Mining, 2010. - 6с.
15. Michel Marie Deza, Elena Deza. Encyclopedia of Distances, F ourth Edition, Springer-Verlag Berlin Heidelberg, 2016. - 757с.
16. Glenn W. Milligan. Ultrametric hierarchical clustering algorithms, The Psychometric Society, 1979. - 3с.
17. Jean-Pierre Barthelemy, Alain Guenoche. Trees and Proximity Representations, Wiley, New York, 1991. - 238c.
18. К. В. Воронцов. Вычислительные методы обучения по прецедентам, 2007. - 141с.
19. https://ru.wikipedia.org/
20. http://cgm.cs.mcgill.ca/~godfried/teaching/cg-proiects/98/normand/main.html
21. https: //bourabai.ru/tpoi/analysis6.htm
22. https: //habr.com/post/164417/