Тип работы:
Предмет:
Язык работы:


КЛАСТЕРНАЯ СИЛА ПОКАЗАТЕЛЕЙ И СТЕПЕНЬ ИХ КЛАСТЕРНОЙ СВЯЗИ

Работа №93151

Тип работы

Магистерская диссертация

Предмет

математика

Объем работы46
Год сдачи2017
Стоимость4910 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
132
Не подходит работа?

Узнай цену на написание


Введение 4
Глава 1. Методы и задачи кластерного анализа 6
1.1 Задача кластерного анализа и подходы 6
1.1.1 Иерархические алгоритмы кластеризации 6
1.1.2 Метод ^-средних 7
1.1.3 Алгоритм FOREL 8
1.2 Post-hoc задача и подходы 9
1.2.1 Методы на основе дисперсионного анализа 10
1.2.2 Новый подход к post-hoc анализу 11
1.3 Метрика на множестве кластерных разбиений 12
Глава 2. Характеристики кластерной силы и связи показателей 16
2.1 Коэффициент кластерной силы Q 199
2.1.1 Особые случаи и значения Q 21
2.1. 2. FRiS-функция 24
2.2 Кластерная связь показателей 26
2.2.1 KcUiSt1и оценка экстремальных значений aXY 27
2.2.2 Оценка экстремальных значений fи Kciust2 31
Глава 3. Применение к задаче снижения размерности 34
3.1 Алгоритм снижения размерности для кластерного анализа 35
Заключение 39
Библиографический список 40
ПРИЛОЖЕНИЕ 1 43


Важным этапом в анализе данных, какая бы конкретная задача не ставилась, является отбор и подготовка показателей (факторов, признаков, параметров объектов), по значениям которых будет проводиться анализ. Какой-то из показателей может быть определяющим в исследовании, какой- то — совсем не важным. Некоторые же из показателей могут быть схожи между собой до такой степени, что использование их вместе совсем не требуется. Мы исследуем такие свойства показателей на примере кластерного анализа данных и называем кластерными силой и связью.
Анализ этих характеристик может способствовать получению неожиданных результатов в своей области исследования, а также понижению размерности задачи, то есть уменьшению количества показателей, которые стоит подробно изучать. Это позволяет упростить сбор данных в дальнейшем, ускорить работу алгоритма кластеризации и сделать итог его работы в той или иной мере нагляднее. При этом кластерная структура множества изучаемых объектов после сокращения размерности не должна существенно измениться.
Мы подходим к проблеме с особой стороны: исследуем показатели с помощью построения кластерных разбиений по отдельным и по совокупности показателей, то есть по результатам работы кластерного алгоритма, что делает исследование разновидностью post-hoc анализа кластерных разбиений. При этом не обращаемся к исходным значениям показателей и не вникаем в тонкости кластерного алгоритма: делаем только запросы на построение разбиений и изучаем результат.
Цель:
Ввести понятия кластерной силы формирующего показателя и кластерной связи между показателями, а также коэффициенты, характеризующие их величины.
Задачи:
1. Ввести расстояние между кластерными разбиениями и изучить его свойства.
2. На основе введенного расстояния предложить коэффициент, оценивающий силу формирующего показателя.
3. Ввести понятие кластерной связи формирующих показателей и способ оценивания тесноты этой связи.
4. Создать алгоритм понижения размерности для задач кластерного анализа на основе введенных коэффициентов.
5. Написать компьютерную программу, реализующую созданный алгоритм.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В результате исследования было выполнено следующее:
• Рассмотрено расстояние между кластерными разбиениями.
• Введено основное предположения и в соответствии с ним преобразованы формулы вычисления расстояния.
• Введено понятие кластерной силы показателя и введен коэффициент относительной силы формирующего показателя, вычисление которого опирается на расстояние между разбиениями.
• На примере показателей равной кластерной силы введено понятие кластерной связи показателей, которое также может использоваться для показателей разной силы.
• Введены коэффициенты, оценивающие степень кластерной связи показателей.
• На основе введенных понятий создан и реализован алгоритм понижения размерности для задач кластерного анализа.
Результаты диссертации частично докладывались на конференциях (укажите полные названия и результат). Они были опубликованы в [17]. Еще две работы [18-19] приняты в печать и ожидают публикации.
Таким образом, цель исследования достигнута, задачи, поставленные в процессе ее достижения, полностью решены.



1. Бериков В.С., Лбов Г.С. Современные тенденции в кластерном анализе // Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению «Информационно-телекоммуникационные системы». - 2008. - 26 с.
2. Everitt B., Landau S., Leese M., Stahl D. Cluster analysis. Chichester, West Sussex, U.K: Wiley. - 2012. - 330 p.
3. Achtert E., Bohm C., Kroger P., Zimek A. Mining Hierarchies of Correlation Clusters // Proc. 18th International Conference on Scientific and Statistical Database Management (SSDBM). - 2006. - P. 119-128. doi: 10.1109/SSDBM.2006.35.
4. Achtert E., Bohm C., KriegelH.-P., Kroger P., Muller-Gorman I., Zimek A. Finding Hierarchies of Subspace Clusters // Knowledge Discovery in Databases: PKDD Lecture Notes in Computer Science. - 2016. - 4213. - P. 446¬453. Doi:10.1007/11871637_42.
5. Дронов С.В., Никеев С.С. Иерархическая оцифровка в задачах однородности. // МАК: «Математики — Алтайскому краю»: сборник трудов всероссийской конференции по математике. - Барнаул: Изд-во Алтайского госуниверситета. - 2016. - С. 24-25.
6. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. - М.: Финансы и статистика, 1989. - 607 с.
7. Воронцов К.В. Лекции по алгоритмам кластеризации и
многомерного шкалирования. - М.: Изд-во МГУ, 2007. - 15 с.
8. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная
статистика. Основы моделирования и первичная обработка данных. - М.: Финансы и статистика, 1983. - 471 с.
9. Statistics How To. Post-Hoc Definition and Types of Post Hoc Tests. [Электронный ресурс]. Режим доступа: http://www.statisticshowto.com/post- hoc/. Дата обращения 31.05.2017.
10. IBM Knowledge Center. SPSS Statistics. Апостериорные критерии для однофакторного дисперсионного анализа. [Электронный ресурс]. Режим доступа:https: //www. ibm. com/support/knowledgecenter/ru/SSLVMB_23.0.0/ spss/base/idh_onew_post.html. Дата обращения 31.05.2017.
11. Cox D.R. & Reid N. M. The theory of design of experiments. N.Y.: Chapman & Hall/CRC. - 2000. - 318 p.
12. Дронов С.В. Методы и задачи многомерной статистики. Барнаул: Изд.-во АлтГУ. - 2015. - 275 с.
13. Dronov S.V., Sazonova A.S. Two approaches to cluster variable quantification // Model Assisted Statistics and Applications. - 2015. - V. 10. - P. 155-162.
14. Дронов С.В. Одна кластерная метрика и устойчивость кластерных алгоритмов // Известия Алтайского государственного университета. - 2011. - №1/ 2 (69). - С. 32 - 35.
15. Zagoruiko N.G., Borisova I.A., Dyubanov V.V., Kutnenko O.A.
Methods of recognition based on the function of rival similarity// Pattern Recognit. Image Anal. - 2008. - 18, v. 1. - P. 1 - 6. Doi:10.1134/S105466180801001X.
16. Загоруйко Н.Г., Кутненко О.А. Цензурирование обучающей выборки // Вестник ТГУ (Управление, вычислительная техника и информатика). - 2013. - №1 (22). - С. 66-73.
Публикации автора
17. Евдокимов Е.А. Pos-hoc оценка силы кластерной связи // МАК:
«Математики - Алтайскому краю»: сборник трудов всероссийской конференции по математике. - Барнаул: Изд-во Алт. ун-та. - 2016. - C. 15¬17.
18. Дронов С.В., Евдокимов Е.А. Ранжирование показателей, формирующих кластерное разбиение, на основе коэффициентов относительного сходства // Сибирская научная школа-семинар с международным участием «Компьютерная безопасность и криптография»: тезисы доклада, Красноярск, 9 сентября 2017 г. - Красноярск, 2017. (в печати - 4 с.)
19. Труды молодых ученых Алтайского государственного университета: материалы IV регион. молодеж. конф. «Мой выбор - наука!». Вып. 14. Барнаул: Изд-во Алт. ун-та. - 2017. (в печати).


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ