Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
ℹ️Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.
ВВЕДЕНИЕ 4
Обзор литературы 6
1. Теоретическая часть 7
1.1 Описание различных методов кластеризации 7
1.2. Этапы выполнения кластерного анализа 11
1.3. Критерии выбора метода кластеризации 14
1.4. Описание метода K - means 16
1.5. Описание метода С - means 19
1.6. Описание метода HDBSCAN 21
1.7. Описание метода BIRCH 34
1.8. Вывод по теоретической части 38
2. Практическая часть 39
2.1. Программные средства для кластеризации 39
2.2. Данные 39
2.3. Результаты обработки K means 43
2.4. Результаты обработки C - means 46
2.5. Результаты обработки BIRCH 49
2.6. Результаты обработки HDBSCAN 55
2.7. Вывод по практический части 59
ЗАКЛЮЧЕНИЕ 60
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 61
ПРИЛОЖЕНИЕ А 66
📖 Введение
Актуальность темы.
Благодаря развитым методам сбора информации увеличиваются объёмы различных баз данных. В связи с этим увеличивается и потребность в группировании этой самой информации для последующего извлечения выгоды. Этим и занимается кластерный анализ. Кластерный анализ - это общее название для большого набора статистических методов, которые направленны на обнаружение групп в выборке объектов, которые называют кластерами. Существенным отличием кластерного анализа от иных методов какой-либо группировки состоит в том, что группы заранее неизвестны.
Кластерный анализ нашел себе применение во многих областях науки. Начиная от маркетинга с задачами по сегментации потребителей [1] заканчивая социологией и даже медициной [2] помогая классифицировать препараты, симптомы и самих пациентов.
Кластерный анализ выполняет следующие задачи:
1. Разработка типологии или классификации;
2. Исследование полезных концептуальных схем группирования объектов;
3. Порождение гипотез на основе исследования данных;
4. Проверка гипотез или исследования для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.
Цель данной работы: построение адаптивного метода обработки большого объёма данных на основе сравнительного анализа методов анализа данных, с выявлением оптимального метода обработки.
Для реализации цели работы решаются следующие задачи:
1. Отбор методов кластеризации;
2. Разработка программного обеспечения, реализующего выбранные методы;
3. Формирование критериев оптимальности параметров кластерного анализа;
4. Выбор наиболее оптимального метода обработки.
Подобные исследования неоднократно проводились, [3-6] но работы в качестве данных использовали некие готовые наборы данных (data sets). Уникальность этой работы в том, что сравнение методов кластеризации производится на реальных данных о клиентах различных магазинов, где результат работы не очевиден.
✅ Заключение
В рамках данной работы был произведен обзор существующих методов кластерного анализа. Были рассмотрены категории методов кластеризации представлены их положительные и отрицательные стороны и типичные представители. Также рассмотрен сам процесс кластеризации расписаны и из каких шагов он состоит. В практической части было проведено сравнение нескольких методов кластеризации по результатам работы и был выбран более подходящий метод.