Тема: СРАВНИТЕЛЬНЫЙ АНАЛИЗ ДВУХ ТИПОВ МЕТОДОВ КЛАСТЕРИЗАЦИИ ДАННЫХ
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
ГЛАВА 1: Кластерный анализ 4
1.1. История и терминология 4
1.2. Особенности кластерного анализа 6
ГЛАВА 2: Теоретические основания работы 8
2.1 Классификация методов 8
2.2 Иерархические методы 8
2.2.1 Метод ближайшего соседа 10
2.2.2 Метод дальнего соседа 11
2.3 Неиерарархические методы 11
2.3.1. Метод к-средних 12
2.3.2. Метод с-средних 13
ГЛАВА 3: Программная реализация 14
3.1 Средства программной реализации 14
3.2. Реализация методов в среде MATLAB 14
3.3. Сравнительный анализ иерархических и итеративных методов
кластеризации 17
3.4. Описание разработанного программного продукта 18
ЗАКЛЮЧЕНИЕ 26
СПИСОК ЛИТЕРАТУРЫ 27
ПРИЛОЖЕНИЯ 28
📖 Введение
Кластерный анализ - это совокупность математических методов, которые позволяют формировать относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ним.
Технологии кластеризации находят применение во многих областях жизни человека: в медицине, экономике, информатике, филологии, истории, геологии и многих других, кроме того, широко используется в научных областях, таких как оптимизация, распознавание образов, сжатие данных.
Целью работы является сравнительный анализ двух типов методов кластеризации данных и создание программного продукта, реализующего кластеризацию методами ближайшего соседа, дальнего соседа, К-средних и С- средних.
Перед началом работы возникли следующие задачи и цели исследования:
1. Необходимо изучить и проанализировать научную литературу в области анализа данных и кластерного анализа в частности.
2. В системе Matlab в режиме скрипта численно реализовать методы кластеризации иерархического типа: методы ближнего соседа (single linkage) и дальнего соседа (complete linkage); и неиерархического типа: методы к-средних (k-means) и с-средних (c-means). Для исследования использовать открытую базу данных Онкологического центра Карбона при Висконсинском университете (г. Мэдисон, штат Висконсин, США) с информацией об онкобольных пациентах.
3. Провести сравнительный анализ иерархических и неиерархических методов кластеризации с помощью выполненных численных реализаций.
4. В интегрированной среде разработки Matlab разработать программный
продукт, позволяющий пользователю импортировать базу данных в интерфейс и построить кластеры с помощью одного
из четырех вышеуказанных методов.
В Главе 1 настоящей работы приводится обзор по терминологии и истории кластерного анализа.
Глава 2 включает в себя краткий обзор типов методов кластерного анализа; описание, алгоритмы и особенности иерархических и итеративных методов.
Обзор программных средств, численная реализация методов ближайшего соседа, дальнего соседа, с-средних и k-средних, а так же сравнительный анализ их приведен в Главе 3.
Приложение включает в себя полный программный код приложения, а так же тестируемую базу данных с информацией о пациентах, больных раком молочной железы, представленной Висконсинским Университетом в Мэдисоне.
✅ Заключение
В диссертационной работе получены следующие основные результаты:
1. Был проведен сравнительный анализ двух типов методов кластеризации: иерархических и неиерархических методов, который выявил недостатки и преимущества каждого из них.
2. В системе MATLAB разработано визуальное приложение,
осуществляющее кластеризацию данных с помощью четырех методов: метод ближайшего соседа, метод дальнего соседа, метод к-средних и метод с-средних. Данное приложение является универсальным и может применяться на различных базах



