Тип работы:
Предмет:
Язык работы:


Исследование робастности кластеризации методами статистического и имитационного моделирования

Работа №137212

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы58
Год сдачи2019
Стоимость4275 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
11
Не подходит работа?

Узнай цену на написание


Введение 4
Постановка задачи 9
Обзор литературы 14
Глава 1. Методы и критерии оценки устойчивости кластеризации 20
1.1. Процедура возмущения анализируемой выборки данных . . 20
1.2. Имитационный алгоритм 22
1.3. Bootstrapping множеств {Тк}кеК 24
1.4. Выбор устойчивой кластеризации на основе теории рисков . 27
1.5. Выбор устойчивой кластеризации на основе ожидаемого уровня сменяемости 29
Глава 2. Численный эксперимент и сравнение с существующими результатами 32
2.1. Расчет уровней сменяемости кластеризаций 34
2.2. Синтетические данные 35
2.3. Реальные данные 37
2.4. Сравнение результатов с другими индексами устойчивости
кластеризации 39
Глава 3. Приложение критериев устойчивости кластеризации к задаче о размещении хабов в сети 43
3.1. Описание задачи UMApHLP 44
3.2. Сравнение двух результатов решения задачи UMApHLP . . 46
3.3. Численный эксперимент 48
Заключение 50
Список литературы

В первой половине ХХ века кластерный анализ начинает свое развитие как отдельное от таксономии направление. Польским антропологом Яном Чекановски в 1911 году была опубликована одна из первых работ в области кластерного анализа [1]. В работе выдвигается идея о формировании групп близких элементов, что составляет основную цель кластерного анализа как инструмента анализа данных.
Развитие компьютерных технологий и вычислительных инструментов предоставляет возможность, а увеличение хранимой информации создает спрос на методы и подходы обработки данных. Кластерный анализ — одна из задач обучения без учителя — подразумевает, что по некоторому правилу определяется схожесть объектов и наиболее близкие объекты образуют группы или кластеры. Природа анализируемых данных может значительно отличаться в зависимости от решаемой задачи, области применения и набора параметров. Это приводит к тому, что нет универсального метода кластеризации или процедуры исследования, а кластерный анализ — это набор методов и алгоритмов для решения задач анализа данных, который непрерывно развивается.
Понятие «кластер» не имеет строгого математического описания, что предоставляет исследователям возможность разрабатывать методы и алгоритмы решения задач кластеризации, ориентируясь на специфику анализируемых данных, и предлагать критерии по оценке качества кластеризации. Можно выделить несколько задач кластерного анализа:
1. Выбор методов кластеризации. Алгоритмы формирования разбиения данных на группы, где объекты из одной группы близки, а объекты из разных групп отличаются.
2. Оценка качества кластеризации. Критерии оценки методов кластеризации для сравнения и выявления наиболее «правильной».
3. Оценка количества кластеров. Методы определения количества групп разбиения.
4. Выбор функции расстояния. Способ сравнения объектов и оценка их близости.
Обзор методов кластеризации, критериев качества кластеризации и функций расстояния представлен в работах [2;3].
В литературе [4] выделяют несколько целей кластеризации:
1. Сокращение объемов хранимых данных. Фиксирование одного представителя каждого кластера и удаление остальных. Используется в сжатии данных или для сокращения объемов исследуемых данных.
2. Определение объектов, не принадлежащих ни к одному кластеру. Задачи одноклассовой классификации или обнаружение новизны (англ. novelty detection).
3. Построение иерархического множества объектов (задачи таксономии).
4. Разбиение задачи обработки данных. Анализ данных внутри кластера вместо анализа всего набора данных.
В выпускной квалификационной работе (ВКР) исследуется одна из задач кластерного анализа — определение «правильной» кластеризации и, как следствие, определение «правильного» количества кластеров. В общем случае выбор количества кластеров зависит не только от методов кластеризации и функций расстояния между объектами, но и от методов сравнения результатов кластеризации. В настоящей работе предлагается концепция решения задачи о нахождении качественной кластеризации, основанная на стохастической устойчивости кластеризации. Применяются процедуры статистического и имитационного моделирования для реализации возможных изменений исследуемых данных или учета возможных ошибок (ошибки измерения, ошибки в представлении чисел в ЭВМ, шум, неполнота данных и т.п.), сравнения кластеризаций и определение уровня рисков отклонения кластеризаций.
Предметом исследования является кластерный анализ, а объектом исследования — алгоритмы определения устойчивой кластеризации.
Цель ВКР заключается в разработке критерия определения статистически устойчивой (надежной) кластеризации с использованием процедур статистического и имитационного моделирования.
Достижение поставленной цели требует решения следующих задач:
1. Задача разработки статистической процедуры анализа кластеризаций.
2. Задача повышения эффективности статистических процедур.
3. Задача оценки и выбора статистически устойчивой кластеризации.
Теоретическая новизна заключается в следующем:
1. Разработана процедура возмущения кластеризации на основе имитационного моделирования.
2. Разработаны 2 критерия определения устойчивой кластеризации основанных на теории рисков и математическом ожидании сменяемости кластеризации.
3. Разработана метрика сравнения близости кластеризаций.
Практическая значимость работы заключается в следующем:
1. Разработана программа ЭВМ для численного решения задачи нахождения устойчивого размещения хабов на основе процедур введенного критерия определения устойчивой кластеризации.
2. Разработана программа ЭВМ для определения устойчивой кластеризации на основе разработанных критериев. Проведено сравнение существующих критериев нахождения устойчивой кластеризации с предлагаемыми в настоящей ВКР.
Основные результаты ВКР были представлены и обсуждены на следующих конференциях:
1. XLVI Международная научная конференция аспирантов и студентов «Процессы управления и устойчивость», 6—9 апреля 2015 г., г. Санкт- Петербург;
2. 20th International Conference on Mathematical Modelling and Analysis, May 26-29, 2015, Sigulda, Latvia;
3. III Международная конференция «Устойчивость и процессы управления», посвященная 85-летию со дня рождения профессора, чл.-корр. РАН В. И. Зубова, 5—9 октября 2015 г., г. Санкт-Петербург;
4. XLIX Международная научная конференция аспирантов и студентов «Процессы управления и устойчивость», 2—5 апреля 2018 г., г. Санкт- Петербург;
5. XIV Международная научная конференция «Устойчивость и колебания нелинейных систем управления» (конференция Пятницкого), 30 мая — 1 июня 2018 г., г. Москва.
Публикации. Материалы диссертации опубликованы в 14 печатных работах, из них 6 тезисов докладов [5—10], 2 статьи в трудах конференций [11;12], индексируемых в РИНЦ, 1 статья в трудах конференции, индексируемом в библиографических базах данных Scopus и Web of Science [13], 1 статья в журнале РИНЦ [14], 1 статья в журнале, индексируемом в базе Web of Science [15], и 2 статьи в журналах, индексируемых в базах Scopus и Web of Science [16;17], 1 работа является магистерской диссертацией автора [18]. Получено свидетельство о государственной регистрации программы для ЭВМ [19].
Структура ВКР. ВКР состоит из введения, постановки задачи, обзора литературы, трех глав, выводов, заключения и списка литературы.
Во Введении отражена актуальность работы, поставлена цель исследования, обоснована научная новизна работы, кратко описаны полученные результаты, и показана их практическая ценность.
В постановке задачи введены основные обозначения и понятия, сформулирована задача кластерного анализа, зафиксирована постановка задачи, которая решается в настоящей работе.
В обзоре литературы приведена классификация методов и подходов к решению поставленной задачи, обсуждены основные принципы работы методов из каждого класса.
В Главе 1 представлены формулировка двух критериев устойчивой кластеризации и процедура их расчета.
В Главе 2 представлены результаты численного эксперимента на искусственных данных и реальных данных, проведено сравнение результатов с другими индексами устойчивости.
В Главе 3 представлены результаты применения критериев устойчивости к задаче о размещении хабов в сети, проведен численный эксперимент на реальных данных.
В заключении подведены итоги работы и сформулированы основные выводы.
Общий объем ВКР составляет 57 страниц, включая 3 рисунка и 10 таблиц. Список литературы включает 59 наименований.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В разделе Постановка задачи сформулирована решаемая задача: на-хождение устойчивой кластеризации к случайным изменениям данных. В обзоре литературы рассмотрены существующие концепции и методы решения задачи определения «правильной» кластеризации.
В первой главе ВКР формулируются два критерия устойчивости кластеризации. Один из критериев основывается на теории рисков, а именно Value at Risk, где устойчивой кластеризацией считается та, у которой наименьшее значение VaR — индекс отклонений кластеризаций при случайном возмущении исходной выборки данных. Второй критерий основан на оценке ожидания отклонений кластеризаций при многократных имитациях выборок данных случайным образом. Также в Главе1 представлены процедуры возмущения данных, bootstrap алгоритм генерации множества результатов для принятия статистических решений.
В Главе2 представлены результаты численного эксперимента на искусственных и реальных выборках данных. Устойчивые кластеризации по обоим критериям совпали во всех расчетах, но концепции критериев отличаются. Полученные результаты сравниваются с тремя индексами устойчивости кластеризации. Описанные в Главе1 критерии устойчивости получили лучшие результаты на выборках негауссовой структуры, на выборках гауссовой структуры и реальных данных результаты с существующими методами были схожими. Разработана программа для воспроизведения полученных результатов и представлена в открытом доступе.
В Главе3 критерии устойчивости кластеризации применены к задаче о размещении объектов в сети. Алгоритм определения устойчивой кластеризации адаптирован к нахождению устойчивой сети и количества хабов. Проведен численный эксперимент на реальных данных, где выявлено устойчивое количество хабов в результате решения 164 задач целочисленного программирования. Разработана программа ЭВМ для решения задачи устойчивого размещения хабов и определения устойчивого количества хабов.



1. Czekanowski J. Objektive Kriterien in der Ethnologie. — F. Vieweg, 1911.
2. Jain A. K. et al. Data clustering: a review // ACM computing surveys (CSUR). — 1999. — Т 31, № 3. — С. 264—323.
3. Rokach L., Maimon O. Clustering methods // Data mining and knowledge discovery handbook. — Springer, 2005. — С. 321—352.
4. Воронцов К. В. Лекции по алгоритмам кластеризации и многомерного шкалирования // М.: МГУ. — 2007.
5. Lozkins A. Cluster analysis of European countries by an unemployment rate // The XLVI annual international conference on Control Processes and Stability (CPS’15). Abstracts. — St. Petersburg: Publishing House Fedorova G.V., 2015. — С. 111.
6. Lozkins A., Bure Vladimir M. The criterion for comparing risks of samples from different distributions // The XLIX annual international conference on Control Processes and Stability (CPS’18). Abstracts. — St. Petersburg: Publishing House Fedorova G.V., 2018. — С. 92.
7. Ложкинс А., Буре В. М. Эмпирический подход оценки устойчивости методов кластеризации // Материалы III международной конференции «Устойчивость и процессы управления», посвященная 85-летию со дня рождения профессора, чл.-корр. РАН В. И. Зубова / под ред. А. Жабко, Л. Петросян. — СПб: Издательский Дом Федоровой Г.В., 2015. — С. 431—433.
8. Ложкинс А., Буре В. М. Выбор распределительных центров в задаче о размещении объектов на основе процедур статистического моделирования // Материалы XIV международной научной конференции (30 мая — 1 июня 2018г., Москва / под ред. В. Тхай. — М.: ИПУ РАН, 2018. — С. 264—267.
9. Lozkins A., Bure Vladimir M. The approach for estimation of clustering robustness // 12th German Probability and Statistics Days. Book of Abstracts. — Deutsche Mathematiker-Vereinigung, 2016. — С. 197—198.
10. Lozkins A. Clustering of European Countries by an Inflation Rate and Clusters Research // 20th International Conference of Mathematical Mo¬delling and Analysis. — 2016. — С. 56.
11. Ложкинс А., Буре В. М. Критерий сравнения выборок из различных генеральных совокупностей // Процессы управления и устойчивость. — 2018. — С. 475—479.
12. Ложкинс А. Кластерный анализ стран Европы по уровню безработицы // Процессы управления и устойчивость. — 2015. — Т. 2, № 1. — С. 641—646.
13. Lozkins A., Bure V. M. The method of clusters stability assessing // 2015 International Conference «Stability and Control Processes» in Memory of VI Zubov (SCP). — IEEE. 2015. — С. 479—482.
14. Старкова Н. В., Ложкинс А. Кластеризация стран Европы по демографическим признакам // Молодой ученый. — 2016. — № 9. — С. 418—426.
15. Lozkins A., Bure V. M. The probabilistic method of finding the local¬optimum of clustering // Vestnik Sankt-Peterburgskogo Universiteta. Seriya 10. Prikladnaya Matematika. Informatika. Protsessy Upravleniya. — 2016. — № 1. — С. 28—37.
16. Lozkins A. The distribution centres choice in the facility location problem on the basis of statistical modeling procedures // Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления. — 2018. — Т. 14, № 4. — С. 346—351.
17. Lozkins A., Bure V. M. Single hub location-allocation problem under robustness clustering concept // Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления. — 2017. — Т. 13, № 4. — С. 398—406.
18. Lozkins A. Stability-based approach of cluster number determination : дис. ... маг. / Lozkins Aleksejs. — St. Petersburg State University, 2016.
19. Ложкинс А., Буре В. М. Программа для определения устойчивого количества распределительных центров. — 2018. — Свидетельство о государственной регистрации программы для ЭВМ No.2018665042 от 29.11.2018.
20. Ben-Hur A., Elisseeff A., Guyon I. A stability based method for discovering structure in clustered data // Biocomputing 2002. — World Scientific, 2001. — С. 6—17.
21. Fowlkes E. B., Mallows C. L. A method for comparing two hierarchical clusterings // Journal of the American statistical association. — 1983. — Т. 78, № 383. — С. 553—569.
22. Ochiai A. Zoogeographical studies on the soleoid fishes found in Japan and its neighbouring regions-I // Bull. Jpn. Soc. scient. Fish. — 1957. — Т. 22. — С. 522—525.
23. Jaccard P. Distribution de la flore alpine dans le bassin des Dranses et dans quelques regions voisines // Bull Soc Vaudoise Sci Nat. — 1901. — Т. 37. — С. 241—272.
24. Jain A. et al. Algorithms for clustering data. Т. 6. — Prentice hall Englewood Cliffs, 1988.
25. Peterson J. D. Clustering overview. — 2002.
26. Нейский И. М. Классификация и сравнение методов кластеризации // Интеллектуальные технологии и системы. Сб. учебно-методических работ и статей аспирантов и студентов. М.: НОК «CLAIM. — 2006. — № 8. — С. 130—142.
27. Marriott F. Practical problems in a method of cluster analysis // Biome¬trics. — 1971. — С. 501—514.
28. Calinski T., Harabasz J. A dendrite method for cluster analysis // Com-munications in Statistics-theory and Methods. — 1974. — Т. 3, № 1. — С. 1—27.
29. Krzanowski W. J., Lai Y. A criterion for determining the number of groups in a data set using sum-of-squares clustering // Biometrics. — 1988. — С. 23—34.
30. Hartigan J. A. Clustering algorithms. — 1975.
31. Davies D. L., Bouldin D. W. A cluster separation measure // IEEE transactions on pattern analysis and machine intelligence. — 1979. — №
2. — С. 224—227.
32. Dunn J. C. Well-separated clusters and optimal fuzzy partitions // Journal of cybernetics. — 1974. — Т 4, № 1. — С. 95—104.
33. Граничин О. Н. и др. Рандомизированный алгоритм нахождения количества кластеров // Автоматика и телемеханика. — 2011. — № 4. — С. 86—98.
34. Шалимов Д. С. Рандомизированный метод определения количества кластеров на множестве данных // Научно-технический вестник ин-формационных технологий, механики и оптики. — 2009. — 5 (63).
35. Goutte C. et al. Feature-space clustering for fMRI meta-analysis // Human brain mapping. — 2001. — Т. 13, № 3. — С. 165—183.
36. Akaike H. A new look at the statistical model identification // Selected Papers of Hirotugu Akaike. — Springer, 1974. — С. 215—222.
37. Schwarz G. Estimating the dimension of a model Ann Stat 6: 461-464 // Find this article online. — 1978.
38. Biernacki C., Celeux G., Govaert G. Assessing a mixture model for clustering with the integrated completed likelihood // IEEE transactions on pattern analysis and machine intelligence. — 2000. — Т. 22, № 7. — С. 719—725.
39. Sugar C. A., James G. M. Finding the number of clusters in a dataset: An information-theoretic approach // Journal of the American Statistical Association. — 2003. — Т 98, № 463. — С. 750—763.
40. Ng A. Clustering with the k-means algorithm // Machine Learning. — 2012.
41. Hennig C. Cluster-wise assessment of cluster stability // Computational Statistics & Data Analysis. — 2007. — Т. 52, № 1. — С. 258—271.
42. Shamir O., Tishby N. Cluster stability for finite samples // Advances in neural information processing systems. — 2008. — С. 1297—1304.
43. Ben-Hur A., Guyon I. Detecting stable clusters using principal component analysis // Functional genomics. — Springer, 2003. — С. 159—182.
44. Tibshirani R., Walther G. Cluster validation by prediction strength // Journal of Computational and Graphical Statistics. — 2005. — Т. 14, №
3. — С. 511—528.
45. Pascual D., Pla F., Sanchez J. S. Cluster validation using information stability measures // Pattern Recognition Letters. — 2010. — Т. 31, № 6. — С. 454—461.
46. Firdaus S., Uddin M. A. A survey on clustering algorithms and complexity analysis // International Journal of Computer Science Issues (IJCSI). —
2015. — Т 12, № 2. — С. 62.
47. Efron B., Tibshirani R. J. An introduction to the bootstrap. — CRC press, 1994.
48. Artzner P. et al. Coherent measures of risk // Mathematical finance. — 1999. — Т 9, № 3. — С. 203—228.
49. Rockafellar R. T. et al. Optimization of conditional value-at-risk // Journal of risk. — 2000. — Т 2. — С. 21—42.
50. Ahmadi-Javid A. Entropic value-at-risk: A new coherent risk measure // Journal of Optimization Theory and Applications. — 2012. — Т. 155, № 3. — С. 1105—1123.
51. Буре В., Парилина Е. Теория вероятностей и математическая статистика // СПб.: Лань. — 2013. — Т. 416.
52. Littlewood K. Forecasting and control of passenger bookings // Airline Group International Federation of Operational Research Societies Procee¬dings, 1972. — 1972. — Т 12. — С. 95—117.
53. Asuncion A., Newman D. UCI machine learning repository. — 2007.
54. O’kelly M. E. The location of interacting hub facilities // Transportation science. — 1986. — Т. 20, № 2. — С. 92—106.
55. Contreras I. Hub location problems // Location science. — Springer, 2015. — С. 311—344.
56. Alumur S. A., Nickel S., Saldanha-da-Gama F. Hub location under uncer¬tainty // Transportation Research Part B: Methodological. — 2012. — Т. 46, № 4. — С. 529—543.
57. Merakli M., Yaman H. Robust intermodal hub location under polyhedral demand uncertainty // Transportation Research Part B: Methodological. —
2016. — Т 86. — С. 66—85.
58. Contreras I., Cordeau J.-F., Laporte G. Stochastic uncapacitated hub location // European Journal of Operational Research. — 2011. — Т. 212, № 3. — С. 518—528.
59. Hamacher H. W. et al. Adapting polyhedral properties from facility to hub location problems // Discrete Applied Mathematics. — 2004. — Т. 145, № 1. — С. 104—116.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ