ВВЕДЕНИЕ 4
1. ОСНОВНАЯ ЗАДАЧА. ПОДХОДЫ К ЕЕ РЕШЕНИЮ И ВОЗМОЖНЫЕ
ПРИМЕНЕНИЯ 6
1.1. Постановка задачи однородности и классические методы её решения .. 6
1.2. Иерархический кластерный алгоритм 11
1.3 Проблема снижения размерности и подходы к ее решению 13
2. ПРИМЕНЕНИЕ ИЕРАРХИЧЕСКОГО АЛГОРИТМА К ЗАДАЧЕ ОДНОРОДНОСТИ 16
2.1. Новый подход к задаче однородности и близким к ней задачам 16
2.2. Иерархический алгоритм в задаче однородности 17
2.3. Сравнение нового алгоритма с простейшим случаем критерия хи-
квадрат 19
3. ПРИЛОЖЕНИЯ И ВЫВОДЫ 22
3.1. Применение нового алгоритма к сокращению размерности 22
3.2. Задача установления объективной кластерной структуры 23
3.3. Сравнение алгоритмов 27
ЗАКЛЮЧЕНИЕ 32
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 33
ПРИЛОЖЕНИЕ
В работе рассматривается проблема однородности данных. Классически задача однородности в ее простейшем варианте выглядит так: даны два набора объектов. Следует ли считать, что объекты одного из них не имеют существенных различий по отношению к объектам другого?
Целью работы является создание модификации иерархического кластерного алгоритма для применения к задачам однородности.
Для достижения цели поставлены следующие задачи:
- произвести анализ существующих методов решения задачи однородности на основе изучения научной литературы;
- детально изучить иерархический кластерный алгоритм и его разновидности;
- предложить способ его модификации для задач однородности и ввести числовой коэффициент однородности;
- произвести сравнение предложенного алгоритма с существующими методами решения задач;
- рассмотреть применение алгоритма к решению задачи снижения размерности и задаче наличия объективной кластерной структуры ;
- написать компьютерную программу, реализующую разработанный алгоритм;
- произвести сравнение результатов работы программы с традиционными методами решения задачи однородности.
Проблема однородности данных актуальна, например, в задачах стандартизации, проблеме обработки больших данных, которые широко применяются в медицине, биологии, физике, экономике, финансовой математике и других областях, которые связаны с задачей классификации данных на две или большее число групп.
В настоящей диссертации для решения задачи однородности впервые используется иерархический кластерный алгоритм, а также применение его модификации к задачам снижения размерности и выявления объективной кластерной структуры. Именно в этом состоит научная новизна работы.
Диссертация состоит из трех глав и приложения. В первой главе дана строгая формулировка задач однородности и сокращения размерности. Приводится обзор классических методов решения этих задач, а также подробно описан иерархический кластерный алгоритм в его классической форме. Содержание второй главы составляет модификация иерархического кластерного алгоритма для применения его к задачам однородности. Также производится теоретическое сравнение предлагаемой модификацией его с критерием Пирсона в наиболее простом случае. В третьей главе описывается применение алгоритма к задаче снижения размерности и очень важной с точки зрения практики задаче установления наличия объективной кластерной структуры в множестве исследуемых объектов. В последнем разделе третьей главы на примерах произведено сравнение предложенного и классических алгоритмов. Приложение содержит компьютерную программу, которая реализует разработанный в работе алгоритм для установления однородности данных.
Данные для сравнения алгоритмов были предоставлены профессором биологического факультета АлтГУ д.б.н. Журавлевым В.Б., а также онкологом Шипуновской центральной районной больницы Алексеевой И.А. и представляют собой результаты реальных медицинских и биологических экспериментов.
В диссертации подробно изучена задачи однородности в различных постановках; проведён анализ существующих методов решения этой задачи на основе изучения научной литературы; рассмотрен и модифицирован иерархический кластерный алгоритм для определения степени однородности двух классов. На основе предложенного способа введен числовой коэффициент однородности, который позволяет принять статистически достоверные решения о возможности признания классов однородными.
Написана компьютерная программа, реализующая новый алгоритм. На примерах произведено сравнение предложенного алгоритма с существующими классическими методами решения подобных задач.
Введенный коэффициент, и разработанная методика позволили по-новому подойти к решению задачи снижения размерности. Кроме этого, удалось алгоритмически проверить существование в исследуемом множестве объективной кластерной структуры.
Тем самым, цель исследования достигнута, задачи, поставленные во введении, решены.
Результаты диссертации докладывались на конференциях:
1) XIX Региональная конференция МАК-2016;
2) IV-я Региональная молодежная конференция «Мой выбор - наука!» г. Барнаул;
и опубликованы частично в [15]. Другие результаты автора работы можно найти в публикациях [16-18].