ВВЕДЕНИЕ 4
1 Обзор кластеризации методом k-means 5
1.1 Кластеризация методом k-means 7
1.2 Определение качества кластеризации 8
1.3 Вывод по главе 1 13
2 Проектирование программного модуля кластеризации 13
2.1 Диаграмма прецедентов 14
2.2 Входные и выходные данные 14
2.2.1 Индекс NDVI 14
2.2.2 Landsat-8 16
2.3 Язык программирования 17
2.4 Диаграмма компонентов 18
2.5 Вывод по главе 2 19
3 Экспериментальная апробация модуля 20
ЗАКЛЮЧЕНИЕ 22
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ 23
ПРИЛОЖЕНИЕ
Классификация - основополагающий процесс интеллектуальной деятельности человека. При встрече с новым явлением, мы стараемся найти ему аналог в знакомой нам области. При рассмотрении группы каких-либо объектов, мы непроизвольно разделяем их на подгруппы близких друг другу элементов. Классификация присутствует при упорядочении известных нам фактов, явлений, предметов. Так же классификация играет значимую роль в науке: примерами служат теории Менделеева и Дарвина.
Можно сказать, что классификация одно из основополагающих понятий науки. Но поскольку классификация - это упорядочивание объектов по их схожести, а объектом можно назвать все, что можно описать вектором дескрипторов, включая действия и процессы, то можно прийти к выводу, что классификация - это характерная способность всех живых организмов.
Если бы они не были способны собирать схожие внешние раздражители в группы для определения классов раздражителей, для которых нужны соответствующие положительные или отрицательные реакции, они были бы недостаточно приспособлены для дальнейшего выживания. Поэтому процедуры используемые в кластер-анализе для выявления групп похожих объектов просто систематизируют и оценивают количественно один из фундаментальных процессов присущих не только людям, но и абсолютно всем живым существам.
В процессе создания математических моделей описывающих естественный процесс классификации наблюдаемых явлений и объектов было получено множество алгоритмов и их модификаций с той или иной эффективностью решающих свою задачу. К одним из самых популярных методов кластеризации относится кластеризация методом k-means, реализованная в виде программного модуля в ходе выполнения работы.
1 Обзор кластеризации методом k-means
Основная цель кластеризации - выделить в исходных многомерных данных такие однородные подмножества, чтобы объекты внутри групп были похожи в известном смысле друг на друга, а объекты из разных групп - не похожи. Под «похожестью» понимается близость объектов в многомерном пространстве признаков, и тогда задача сводится к выделению в этом пространстве естественных скоплений объектов, которые и считаются однородными группами.
Кластер по-английски означает пучок, скопление, группа элементов, характеризующихся каким-либо общим свойством. Строго говоря, кластером называется такая группа объектов из рассматриваемого множества, для которой средний квадрат внутригруппового расстояния до центра группы меньше среднего квадрата расстояния до общего центра в исходной совокупности.
Если данные представлены в виде матрицы объект - признак, то анализируемые объекты удобно интерпретировать геометрически как точки в многомерном пространстве признаков. Если признаков всего три, то исследуемые объекты представляются в виде точек в трехмерном евклидовом пространстве. Следует считать, что геометрическая близость двух или нескольких точек в этом пространстве обозначает близость физических состояний этих объектов и их однородность. Тогда проблема кластеризации состоит в разбиении рассматриваемой совокупности точек на сравнительно небольшое число кластеров, таких, что точки, принадлежащие к одному кластеру, максимально «близки» друг к другу, а точки из разных кластеров максимально «далеки» друг от друга.
В ходе выполнения выпускной квалификационной работы были выполнены все поставленные задачи. Произведен обзор кластеризации методом k-means, найден способ автоматического определения оптимального количества кластеров, спроектирован и реализован программный модуль локализации неоднородностей методом k-means с предварительным расчетом оптимального количества кластеров с помощью подсчета среднего силуэтного коэффициента разбиения. Произведена экспериментальная апробация программного модуля на данных спутника Landsat-8.
Разработанный сервис встроен в программно аппаратный комплекс ГИС ИКИТ СФУ, о чем свидетельствует составленный акт об использовании модуля в структуре работы комплекса.