Введение 4
Глава 1. Методы и задачи кластерного анализа 6
1.1 Задача кластерного анализа и подходы 6
1.1.1 Иерархические алгоритмы кластеризации 6
1.1.2 Метод ^-средних 7
1.1.3 Алгоритм FOREL 8
1.2 Post-hoc задача и подходы 9
1.2.1 Методы на основе дисперсионного анализа 10
1.2.2 Новый подход к post-hoc анализу 11
1.3 Метрика на множестве кластерных разбиений 12
Глава 2. Характеристики кластерной силы и связи показателей 16
2.1 Коэффициент кластерной силы Q 199
2.1.1 Особые случаи и значения Q 21
2.1. 2. FRiS-функция 24
2.2 Кластерная связь показателей 26
2.2.1 KcUiSt1и оценка экстремальных значений aXY 27
2.2.2 Оценка экстремальных значений fи Kciust2 31
Глава 3. Применение к задаче снижения размерности 34
3.1 Алгоритм снижения размерности для кластерного анализа 35
Заключение 39
Библиографический список 40
ПРИЛОЖЕНИЕ 1 43
Важным этапом в анализе данных, какая бы конкретная задача не ставилась, является отбор и подготовка показателей (факторов, признаков, параметров объектов), по значениям которых будет проводиться анализ. Какой-то из показателей может быть определяющим в исследовании, какой- то — совсем не важным. Некоторые же из показателей могут быть схожи между собой до такой степени, что использование их вместе совсем не требуется. Мы исследуем такие свойства показателей на примере кластерного анализа данных и называем кластерными силой и связью.
Анализ этих характеристик может способствовать получению неожиданных результатов в своей области исследования, а также понижению размерности задачи, то есть уменьшению количества показателей, которые стоит подробно изучать. Это позволяет упростить сбор данных в дальнейшем, ускорить работу алгоритма кластеризации и сделать итог его работы в той или иной мере нагляднее. При этом кластерная структура множества изучаемых объектов после сокращения размерности не должна существенно измениться.
Мы подходим к проблеме с особой стороны: исследуем показатели с помощью построения кластерных разбиений по отдельным и по совокупности показателей, то есть по результатам работы кластерного алгоритма, что делает исследование разновидностью post-hoc анализа кластерных разбиений. При этом не обращаемся к исходным значениям показателей и не вникаем в тонкости кластерного алгоритма: делаем только запросы на построение разбиений и изучаем результат.
Цель:
Ввести понятия кластерной силы формирующего показателя и кластерной связи между показателями, а также коэффициенты, характеризующие их величины.
Задачи:
1. Ввести расстояние между кластерными разбиениями и изучить его свойства.
2. На основе введенного расстояния предложить коэффициент, оценивающий силу формирующего показателя.
3. Ввести понятие кластерной связи формирующих показателей и способ оценивания тесноты этой связи.
4. Создать алгоритм понижения размерности для задач кластерного анализа на основе введенных коэффициентов.
5. Написать компьютерную программу, реализующую созданный алгоритм.
В результате исследования было выполнено следующее:
• Рассмотрено расстояние между кластерными разбиениями.
• Введено основное предположения и в соответствии с ним преобразованы формулы вычисления расстояния.
• Введено понятие кластерной силы показателя и введен коэффициент относительной силы формирующего показателя, вычисление которого опирается на расстояние между разбиениями.
• На примере показателей равной кластерной силы введено понятие кластерной связи показателей, которое также может использоваться для показателей разной силы.
• Введены коэффициенты, оценивающие степень кластерной связи показателей.
• На основе введенных понятий создан и реализован алгоритм понижения размерности для задач кластерного анализа.
Результаты диссертации частично докладывались на конференциях (укажите полные названия и результат). Они были опубликованы в [17]. Еще две работы [18-19] приняты в печать и ожидают публикации.
Таким образом, цель исследования достигнута, задачи, поставленные в процессе ее достижения, полностью решены.