Тип работы:
Предмет:
Язык работы:


Математическая модель алгоритма k-means: исследование кластеризации и практическая реализация

Работа №111607

Тип работы

Магистерская диссертация

Предмет

программирование

Объем работы90
Год сдачи2017
Стоимость5600 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
57
Не подходит работа?

Узнай цену на написание


Введение 3
1 Анализ состояния вопроса 8
1.1 Проблемы развития алгоритмов машинного обучения 8
1.2 Проблемы кластерного анализа 31
2 Разработка метода выбора начального расположения центров кластеров 42
2.1 Формальное описание задачи кластеризации 42
2.2 Математический аппарат алгоритма EM - кластеризации 44
2.3 Методика определения первоначального расположения кластеров 49
2.4 Проведение вычислительных экспериментов 52
2.5 Результаты вычислительных экспериментов 54
3 Программная реализация 70
3.1 Описание разработанного программного обеспечения 70
3.2 Алгоритм работы с приложением 70
3.3 Реализация модуля вычислительных экспериментов 77
Заключение 84
Список используемых источников 86

Существующие методы машинного обучения в зависимости от степени автоматизации поиска решений поставленной задачи, по мнению доктор наук Yoshua Bengio можно разделить на 4 типа: rule-based systems (экспертные системы, основанные на базе знаний); classic machine learning (классические алгоритмы машинного обучения); representation learning (обучение представлениям); deep learning (глубокое обучение) (рисунок 1.1).
Экспертные системы, основанные на базе знаний, обладают наименьшей степень автоматизации получения решения поставленной задачи. В этом случае качество работы такой системы зависит только от мастерства программиста, инженера по знаниям и эксперта (источника экспертных знаний). Алгоритмы глубоко машинного обучения наоборот обладают высокой степенью автоматизации при работе с данными. Такие алгоритмы самостоятельно анализируют исходные данные, выделяют существенные признаки данных, вырабатывают стратегию решения поставленной задачи. Классические алгоритмы машинного обучения и обучение представлениям обладают средней степенью автоматизации при работе с данными.
В настоящее время проводятся исследования по повышению степени автоматизации алгоритмов машинного обучения. Например, на начальном этапе своего развития нейронные сети нейронные сети с малым количеством слоев относились к классическим алгоритмам машинного обучения. Однако с увеличением количества вычислительных слоев и совершенствованием способов их обучения стали появляться конфигурации нейронных сетей, относящихся к глубокому обучению.
Рисунок 1.1 - Анализ алгоритмов машинного обучения
В машинном обучении существует алгоритм, предназначенный для кластеризации данных - k-means. Он автоматически анализирует исходные данные и подбирает оптимальную кластерную структуру. Одной из главных его проблем является возможность попадания алгоритма в локальное решение (вместо глобального). Это связано с тем, что начальное расположение кластеров (которое, впоследствии выполнения алгоритма, уточняется) выбирается случайным образом.
Гипотезой исследования является предположение, что степень автоматизации, точность и скорость работы алгоритма k-means можно повысить путем разработки метода по расчету начального расположению центров кластеров.
Исследованиями в области совершенствования алгоритмов машинного обучения занимаются такие ученые как: Langley P., Carbonell J., Ding S., Zong W., Zhu С., Chen Z., Blum A., Bing L., Gunnemann S., Langley P., Abdolrazzaghi M., Carbonell J., Shen Q., Blocki M.M., Celebe H.M., Wuy H., Liotte D., Mucherin B., Mirkins M., Tryone C.B., Li X., Alom M.Z., Mirza B., Ertugrul O.F., Stein G., Li B., Perlich C., Chang K.C., Dietterich T.G., Carbonell J., Tamura H., Langlei M., Wiens J. E., Zhou ZH., Hemmi H. L., Webb G.I., Zhang D., Nayak P.K. и др.
Объектом исследования являются кластеризация данных, предметом исследования - разработки метода по расчету начального расположению центров кластеров.
Цель исследования - повышение степени автоматизации алгоритма k- means путем разработки метода по расчету начального расположению центров кластеров.
Цель достигается путем решения следующих задач:
1. Проведение анализа состояния вопроса по теме исследования
2. Разработка метода по определению начальных положений центров кластеров (при анализе данных с помощью алгоритма k-means).
3. Разработка программной реализация данного метода для проверки его эффективности на практике.
4. Тестирование предложенного метода на практике. Формулирование выводов по результатам вычислительных экспериментов.
Научная новизна исследования - доказано что скорость и точность результатов кластеризации данных с помощью алгоритма k-means может быть увеличена путем обоснованного задания начального положения центров кластеров. Это также приведет к снижению вероятности схождения алгоритма к локальному решению.
Практическая значимость работы заключается в разработке методики выбора начального положения центров кластеров, что позволяет увеличить точность и скорость кластеризации данных с использованием алгоритма k- means.
В первой главе настоящего исследования рассматриваются проблемы развития алгоритмов машинного обучения. Также рассмотрены проблемы кластерного анализа с помощью алгоритма k-means.
Во второй главе рассматривается формальное описание задачи кластеризации данных. Описан математический аппарат EM-алгоритмов кластеризации Затем дается описание метода по определению оптимального начального положения центров кластеров при кластеризации данных с использованием алгоритма k-means. Далее даются результаты вычислительных экспериментов по применению предложенного метода в сравнении с классической реализацией алгоритма.
В третьей главе дается описание разработанного программного обеспечения. Затем приведен алгоритм работы с, созданным в рамках данного исследования, приложением. И описывается реализация модуля вычислительных экспериментов.
На защиту выносятся:
1. Методика по расчету начального положения центров кластеров.
2. Результаты апробации предложенной методики при кластеризации данных.
По результатам проведенных исследований опубликовано 5 статей в сборниках, входящих в РИНЦ.
Результаты исследований доложены на таких конференциях как:
• XXXI студенческой международной научно-практической конференции, г. Москва.
• Научно-практической конференции ''Студенческие дни науки в ТГУ'', г. Тольятти
• III научно-практической всероссийской конференции (школе - семинаре) молодых ученых «Прикладная математика и информатика: современные исследования в области естественных и технических наук».

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


По результатам проведенных исследований были сделаны следующие выводы:
1. Одно из направлений совершенствования методов машинного обучения является повышение их степени автоматизации за счет снижение участие людей в анализе данных.
2. В машинном обучении существует алгоритм, предназначенный для кластеризации данных - k-means. Он автоматически анализирует исходные данные и подбирает оптимальную кластерную структуру. Одной из главных его проблем является возможность локального решение (неоптимальной кластерной структурой). Установлено, что стохастичность получаемых результатов связана со случайным выбором начального положения центров кластеров
3. Установлено, что совершенствование алгоритма k-means возможно путем разработки научного обоснованного подхода определения начального положения кластеров при анализе данных.
4. Предложена реализация метода выбора данных, основанная на поиске локальных скоплений объектов в пространстве входных параметров данных (подробное описание представлено в пункте 2.3).
5. Установлено, что вероятность нахождения кластерной структуры с наименьшей ошибкой кластеризации, на обучающей выборке сгенерированной случайным образом, составляет от 5% (при количестве кластеров равных 20) до 30% (при количестве кластеров равных 3).
6. Экспериментально доказано, что в предложенная методика выбора начального положения центров кластеров, при любом количестве кластеров и размере исходных данных позволяет: снизить ошибку кластеризации за счет обеспечения нахождения оптимальной кластерной структуры, увеличить скорость нахождения решения в среднем на 18%.
7. Экспериментально установлена независимость глубины анализа данных в предложенном методе от количества объектов (подробное описание представлено в пункте 2.5).
8. По результатам множественных вычислительных экспериментов построены аппроксимирующие зависимости связывающие параметры кластеризации с получаемыми результатами. Аппроксимирующие зависимости приведены в пункте 2.5.
9. Разработано приложение для изучения процесса кластеризации данных и проведения вычислительных экспериментов. Приложение реализует кластеризацию данных с использование предложенного подхода.
10. Научная новизна исследования - доказано что скорость и точность результатов кластеризации данных с помощью алгоритма k-means может быть увеличена путем обоснованного задания начального положения центров кластеров. Это также приведет к снижению вероятности схождения алгоритма к локальному решению.
11. Практическая значимость работы заключается в разработке методики выбора начального положения центров кластеров, что позволяет увеличить точность и скорость кластеризации данных с использованием алгоритма k- means.


1. Langley, P. Research Papers in Machine Learning / Pat Langley // Machine Learning. - 1987. - №3. - pp. 195-198.
2. Carbonell, J. Machine Learning: A Maturing Field / Jaime Carbonell // Machine Learning. - 1992. - №9. - pp. 5-7
3. Ding, S. Extreme learning machine with kernel model based on deep learning / Shifei Ding, Lili Guo, Yanlu Hou // Neural Computing and Applications. - 2016. - pp. 1-10.
4. Zong, W. Learning to Rank with Extreme Learning Machine / Weiwei Zong, Guang-Bin Huang // Neural Processing Letters. - 2014. - №3. - pp. 155­166.
5. Zhu, С. Double-fold localized multiple matrix learning machine with Universum / Changming Zhu // Pattern Analysis and Applications. - 2016. - №3. - pp. 1-28.
6. Chen, Z. Real-time transient stability status prediction using cost­sensitive extreme learning machine / Zhen Chen, Xianyong Xiao, Changsong Li, Yin Zhang, Qingquan Hu // Neural Computing and Applications. - 2016. - №27. - pp. 330-333
7. Blum, A. Special Issue on New Theoretical Challenges in Machine Learning / Avrim Blum, Philip M. Long // Algorithmica. - 2015. - №72. - pp. 191-192
8. Bing, L. Lifelong machine learning: a paradigm for continuous learning / Bing Liu // Machine learning. - 2016. - №3. - pp. 1-3.
9. Gunnemann, S. Machine Learning Meets Databases / Stephan Gunnemann // Datenbank-Spektrum. - 2017. - №17. - pp. 77-83
10. Langley, P. Research papers in machine learning / Pat Langley // Machine Learning. - 1987. - №2. - pp. 195-198
11. Abdolrazzaghi, M. Fast-forward solver for inhomogeneous media using machine learning methods: artificial neural network, support vector machine and fuzzy logic / Mohammad Abdolrazzaghi, Soheil Hashemy, Ali Abdolali // Neural Computing and Applications. - 2016. - №3. - pp. 1-9.
12. Carbonell, J. Machine Learning: A maturing field / Jaime Carbonell // Machine Learning. - 1992. - №9. - pp. 5-7.
13. Shen, Q. Decay-weighted extreme learning machine for balance and optimization learning / Qing Shen, Xiaojuan Ban, Ruoyi Liu, Yu Wang // Machine Vision and Applications. - 2017. - №3. - pp. 1-11.
14. Blocki, M.M. Clustering Methods: A History of k-Means Algorithms / M.M. Blocki // Selected Contributions in Data Analysis and Classification. - Springer Berlin Heidelberg, 2009. - 161-174 p.
15. Celebe, H.M. Partitional Clustering Algorithms / H.M. Celebe. - Springer International Publishing Switzerland, 2015. - 415 p.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2025 Cервис помощи студентам в выполнении работ