АННОТАЦИЯ 2
ВВЕДЕНИЕ 7
1 ОБЗОРНЫЙ РАЗДЕЛ 9
1.1 Анализ технического задания 9
1.2 Определение кластерного анализа и обзор его методов 10
1.3 Обзор мер расстояния между кластерами 13
1.4 Обзор методов связи кластеров 15
2 ПРОЕКТНЫЙ РАЗДЕЛ 20
2.1 Кластеризация полным перебором 20
2.2 Алгоритм иерархической последовательной кластеризации 21
2.3 Разработка алгоритма работы приложения кластерного анализа 25
2.4 Визуализация результатов кластерного анализа 28
3 РАЗДЕЛ РАЗРАБОТКИ ПРИЛОЖЕНИЯ 32
3.1 Разработка листинга программы 32
3.2 Разработка графического интерфейса приложения 40
4 РАЗДЕЛ ТЕСТИРОВАНИЯ 45
4.1 Тестирование приложения на примере множества точек в двумерном
пространстве 45
4.2 Тестирование приложения в многомерном пространстве 48
4.3 Проведение кластерного анализа результатов анкетирования
студентов посредством приложения 50
4.4 Анализ результатов кластерного анализа 52
ЗАКЛЮЧЕНИЕ 62
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 64
ПРИЛОЖЕНИЯ
ПРИЛОЖЕНИЕ А Алгоритм работы приложения кластерного анализа 67
ПРИЛОЖЕНИЕ Б Листинг программы приложения кластерного анализа.... 68
ПРИЛОЖЕНИЕ В Исходные данные для тестирования 78
ПРИЛОЖЕНИЕ Г Перечень вопросов анкетирования студентов 79
ПРИЛОЖЕНИЕ Д Выборка для проведения кластерного анализа 83
С развитием цифровых технологий возникает все большее количество данных, способность порождения которых значительно превышает способность их хранения и обработки.
Кластерным анализом (или кластеризацией) называют процесс объединения близких (схожих) объектов, получившие название кластеры. Процедура кластеризации позволяет получать определенные классификации объектов по совокупности признаков.
Кластеризация используется во многих сферах, например как статистика, сегментация изображений, анализ больших данных (Big Data), распознавание объектов, маркетинг, прогнозирование.
Методов кластеризации на сегодняшний день возникло множество - несколько десятков алгоритмов, а также их модификации.
Вследствие того, что измерение нефизических величин, производящееся, по большей части, посредством субъективного оценивания, является одним из приоритетных направлений кафедры «Информационно-измерительная техника» Южно-Уральского государственного университета, было предложено разработать приложение, осуществляющее процедуру кластерного анализа.
Целью данной работы является разработка приложения кластерного анализа результатов экспертного оценивания для образования классифицированной экспертной системы по совокупности критериев.
Для достижения этой цели необходимо выполнить следующие задачи:
—выполнить обзор методов кластерного анализа, мер сходства и методов объединения (связи) кластеров;
— разработать алгоритм процедуры кластерного анализа, реализуемый в приложении;
— разработать листинг программы и диалоговый интерфейс приложения;
— провести тестирование работы приложения и процедуру кластеризации на основе результатов анкетирования с последующим их анализом.
В ходе выпускной квалификационной работы были выполнены следующие задачи.
Был проведен обзор методов кластерного анализа, мер сходства между кластерами и методов объединения схожих кластеров. В результате был выбран иерархический агломеративный метод кластерного анализа. Мерой сходства между кластерами выбран квадрат евклидова расстояния, а методом объединения схожих кластеров выбран метод Уорда.
Также была рассмотрена рекурсивная процедура иерархического последовательного кластерного анализа Ланса-Уильямса, и на основе этого был разработан алгоритм работы приложения кластерного анализа, основанный на рассмотренном алгоритме последовательной кластеризации.
Также был выбран вариант отображения результатов кластерного посредством построения дендрограммы с вертикальным расположением объектов.
Разработан листинг программы приложения, а также описаны основные моменты кода. Разработан диалоговый интерфейс данного приложения, соответствующий требованиям технического задания.
Проведено тестирование работы приложения кластерного анализа на примере массива точек в двумерном пространстве, затем на примере специально разобранных по группам объектов в многомерном пространстве. Результат кластерного анализа данных на примере массива точек в двумерном пространстве показал правильное разбиение, так как точки в образованных кластерах были близки друг к другу на каждом шаге объединения, а сами кластеры не пересекались друг с другом.
Также был проведен кластерный анализ по образованной выборке посредством анкетирования студентов-выпускников бакалавриата по вопросам освоения ими компетенций направления 12.03.01 «Приборостроение», на котором они обучаются. Его результат был проанализирован на основе дополнительных данных.
На основе сравнения результатов кластерного анализа и среднего балла по результатам опроса каждого студента, сделан вывод о том, что кластерный анализ учитывает не только средний результат, но и результаты ответов на вопросы.
Было выяснено, что студенты группы, средний балл анкетирования которых больше, чем у студентов другой группы, в основном получают менее высокий средний балл в дипломе. Также большинство студентов группы, результат опроса которых ниже, чем у другой группы, имели опыт с реальным производством в рамках своего направления, что приводит к мнению, что данные студенты более объективны в своих способностях.
Проведено сравнение результатов распределения студентов по результатам кластерного анализа и при сортировке их по ожидаемому среднему баллу в дипломе. Выяснено, что на гистограмме среднего балла результатов анкетирования при сортировке студентов кластерным анализом видно более четкое разделение, что говорит о том, что распределение более верное.
Тестирование приложения кластерного анализа показала его работоспособность, а также выявило качественность полученных результатов.
Таким образом, цель выпускной квалификационной работы достигнута.