Тип работы:
Предмет:
Язык работы:


СРАВНИТЕЛЬНЫЙ АНАЛИЗ ДВУХ ТИПОВ МЕТОДОВ КЛАСТЕРИЗАЦИИ ДАННЫХ

Работа №54464

Тип работы

Магистерская диссертация

Предмет

математика

Объем работы49
Год сдачи2016
Стоимость5580 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
127
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
ГЛАВА 1: Кластерный анализ 4
1.1. История и терминология 4
1.2. Особенности кластерного анализа 6
ГЛАВА 2: Теоретические основания работы 8
2.1 Классификация методов 8
2.2 Иерархические методы 8
2.2.1 Метод ближайшего соседа 10
2.2.2 Метод дальнего соседа 11
2.3 Неиерарархические методы 11
2.3.1. Метод к-средних 12
2.3.2. Метод с-средних 13
ГЛАВА 3: Программная реализация 14
3.1 Средства программной реализации 14
3.2. Реализация методов в среде MATLAB 14
3.3. Сравнительный анализ иерархических и итеративных методов
кластеризации 17
3.4. Описание разработанного программного продукта 18
ЗАКЛЮЧЕНИЕ 26
СПИСОК ЛИТЕРАТУРЫ 27
ПРИЛОЖЕНИЯ 28


Кластерный анализ в настоящее время активно развивается и является одним из ведущих направлений в области анализа данных.
Кластерный анализ - это совокупность математических методов, которые позволяют формировать относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ним.
Технологии кластеризации находят применение во многих областях жизни человека: в медицине, экономике, информатике, филологии, истории, геологии и многих других, кроме того, широко используется в научных областях, таких как оптимизация, распознавание образов, сжатие данных.
Целью работы является сравнительный анализ двух типов методов кластеризации данных и создание программного продукта, реализующего кластеризацию методами ближайшего соседа, дальнего соседа, К-средних и С- средних.
Перед началом работы возникли следующие задачи и цели исследования:
1. Необходимо изучить и проанализировать научную литературу в области анализа данных и кластерного анализа в частности.
2. В системе Matlab в режиме скрипта численно реализовать методы кластеризации иерархического типа: методы ближнего соседа (single linkage) и дальнего соседа (complete linkage); и неиерархического типа: методы к-средних (k-means) и с-средних (c-means). Для исследования использовать открытую базу данных Онкологического центра Карбона при Висконсинском университете (г. Мэдисон, штат Висконсин, США) с информацией об онкобольных пациентах.
3. Провести сравнительный анализ иерархических и неиерархических методов кластеризации с помощью выполненных численных реализаций.
4. В интегрированной среде разработки Matlab разработать программный
продукт, позволяющий пользователю импортировать базу данных в интерфейс и построить кластеры с помощью одного
из четырех вышеуказанных методов.
В Главе 1 настоящей работы приводится обзор по терминологии и истории кластерного анализа.
Глава 2 включает в себя краткий обзор типов методов кластерного анализа; описание, алгоритмы и особенности иерархических и итеративных методов.
Обзор программных средств, численная реализация методов ближайшего соседа, дальнего соседа, с-средних и k-средних, а так же сравнительный анализ их приведен в Главе 3.
Приложение включает в себя полный программный код приложения, а так же тестируемую базу данных с информацией о пациентах, больных раком молочной железы, представленной Висконсинским Университетом в Мэдисоне.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В ходе написания магистерской диссертации была изучена научная литература в области анализа данных, были рассмотрены два типа методов кластеризации: иерархические методы: метод ближайшего соседа, метод дальнего соседа, и неиерархические: метод нечетких к-средних и метод с-средних. Была выполнена реализация этих методов, с помощью пакета Matlab, были построены дендрограммы и графики, выявлены существенные различия, преимущества и недостатки каждого из них. Тестовая реализация проводилась на основе базы данных Висконсинского Университета с информацией о пациентах, больных раком молочной железы. Так же проведен сравнительный анализ методов.
В диссертационной работе получены следующие основные результаты:
1. Был проведен сравнительный анализ двух типов методов кластеризации: иерархических и неиерархических методов, который выявил недостатки и преимущества каждого из них.
2. В системе MATLAB разработано визуальное приложение,
осуществляющее кластеризацию данных с помощью четырех методов: метод ближайшего соседа, метод дальнего соседа, метод к-средних и метод с-средних. Данное приложение является универсальным и может применяться на различных базах


1. Calinski R. В. and Harabasz, J. A dendrite method for cluster analysis // Communications in Statistics, vol. 3, 1-27, 1974
2. Krzanowski, W. J. and Lai, Y. T. A criterion for determining the number of clusters in a data set using sum of squares clustering // Biometrics 44, 23-34. 1985.
3. Воронцов K.B. Алгоритмы кластеризации и многомерного шкалирования. Курс лекций. МГУ, 2007.
4. Прикладная статистика: классификация и снижение размерности. / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин — М.: Финансы и статистика, 1989.
5. Информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных — www.machineleaming.ru
6. Чубукова И.А. Курс лекций «Data Mining», Интернет-университет
информационных технологий —
www.intuit.ru/department/database/datamining/
7. Айвазян С. А., Енюков И. С, Мешалкин Л. Д. О структуре и содержании пакета программ по прикладному статистическому анализу//Алгоритмическое и программное обеспечение прикладного статистического анализа.—М., 1980.
8. Айвазян С. А., Бежаева 3. И., Староверов О. В. Классификация многомерных наблюдений.—М.: Статистика, 1974.
9. Дж.О. Ким//Факторный дискриминантный и кластерный анализ,


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ