ВВЕДЕНИЕ 4
Обзор литературы 6
1. Теоретическая часть 7
1.1 Описание различных методов кластеризации 7
1.2. Этапы выполнения кластерного анализа 11
1.3. Критерии выбора метода кластеризации 14
1.4. Описание метода K - means 16
1.5. Описание метода С - means 19
1.6. Описание метода HDBSCAN 21
1.7. Описание метода BIRCH 34
1.8. Вывод по теоретической части 38
2. Практическая часть 39
2.1. Программные средства для кластеризации 39
2.2. Данные 39
2.3. Результаты обработки K means 43
2.4. Результаты обработки C - means 46
2.5. Результаты обработки BIRCH 49
2.6. Результаты обработки HDBSCAN 55
2.7. Вывод по практический части 59
ЗАКЛЮЧЕНИЕ 60
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 61
ПРИЛОЖЕНИЕ А 66
Актуальность темы.
Благодаря развитым методам сбора информации увеличиваются объёмы различных баз данных. В связи с этим увеличивается и потребность в группировании этой самой информации для последующего извлечения выгоды. Этим и занимается кластерный анализ. Кластерный анализ - это общее название для большого набора статистических методов, которые направленны на обнаружение групп в выборке объектов, которые называют кластерами. Существенным отличием кластерного анализа от иных методов какой-либо группировки состоит в том, что группы заранее неизвестны.
Кластерный анализ нашел себе применение во многих областях науки. Начиная от маркетинга с задачами по сегментации потребителей [1] заканчивая социологией и даже медициной [2] помогая классифицировать препараты, симптомы и самих пациентов.
Кластерный анализ выполняет следующие задачи:
1. Разработка типологии или классификации;
2. Исследование полезных концептуальных схем группирования объектов;
3. Порождение гипотез на основе исследования данных;
4. Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Цель данной работы: построение адаптивного метода обработки большого объёма данных на основе сравнительного анализа методов анализа данных, с выявлением оптимального метода обработки.
Для реализации цели работы решаются следующие задачи:
1. Отбор методов кластеризации;
2. Разработка программного обеспечения, реализующего выбранные методы;
3. Формирование критериев оптимальности параметров кластерного анализа;
4. Выбор наиболее оптимального метода обработки.
Подобные исследования неоднократно проводились, [3-6] но работы в качестве данных использовали некие готовые наборы данных (data sets). Уникальность этой работы в том, что сравнение методов кластеризации производится на реальных данных о клиентах различных магазинов, где результат работы не очевиден.
В рамках данной работы был произведен обзор существующих методов кластерного анализа. Были рассмотрены категории методов кластеризации представлены их положительные и отрицательные стороны и типичные представители. Также рассмотрен сам процесс кластеризации расписаны и из каких шагов он состоит. В практической части было проведено сравнение нескольких методов кластеризации по результатам работы и был выбран более подходящий метод.