ВВЕДЕНИЕ 4
1. ОСНОВНАЯ ЗАДАЧА. ПОДХОДЫ К ЕЕ РЕШЕНИЮ И ВОЗМОЖНЫЕ
ПРИМЕНЕНИЯ 6
1.1. Постановка задачи однородности и классические методы её решения .. 6
1.2. Иерархический кластерный алгоритм 11
1.3 Проблема снижения размерности и подходы к ее решению 13
2. ПРИМЕНЕНИЕ ИЕРАРХИЧЕСКОГО АЛГОРИТМА К ЗАДАЧЕ ОДНОРОДНОСТИ 16
2.1. Новый подход к задаче однородности и близким к ней задачам 16
2.2. Иерархический алгоритм в задаче однородности 17
2.3. Сравнение нового алгоритма с простейшим случаем критерия хи-
квадрат 19
3. ПРИЛОЖЕНИЯ И ВЫВОДЫ 22
3.1. Применение нового алгоритма к сокращению размерности 22
3.2. Задача установления объективной кластерной структуры 23
3.3. Сравнение алгоритмов 27
ЗАКЛЮЧЕНИЕ 32
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 33
ПРИЛОЖЕНИЕ
В работе рассматривается проблема однородности данных. Классически задача однородности в ее простейшем варианте выглядит так: даны два набора объектов. Следует ли считать, что объекты одного из них не имеют существенных различий по отношению к объектам другого?
Целью работы является создание модификации иерархического кластерного алгоритма для применения к задачам однородности.
Для достижения цели поставлены следующие задачи:
- произвести анализ существующих методов решения задачи однородности на основе изучения научной литературы;
- детально изучить иерархический кластерный алгоритм и его разновидности;
- предложить способ его модификации для задач однородности и ввести числовой коэффициент однородности;
- произвести сравнение предложенного алгоритма с существующими методами решения задач;
- рассмотреть применение алгоритма к решению задачи снижения размерности и задаче наличия объективной кластерной структуры ;
- написать компьютерную программу, реализующую разработанный алгоритм;
- произвести сравнение результатов работы программы с традиционными методами решения задачи однородности.
Проблема однородности данных актуальна, например, в задачах стандартизации, проблеме обработки больших данных, которые широко применяются в медицине, биологии, физике, экономике, финансовой математике и других областях, которые связаны с задачей классификации данных на две или большее число групп.
В настоящей диссертации для решения задачи однородности впервые используется иерархический кластерный алгоритм, а также применение его модификации к задачам снижения размерности и выявления объективной кластерной структуры. Именно в этом состоит научная новизна работы.
Диссертация состоит из трех глав и приложения. В первой главе дана строгая формулировка задач однородности и сокращения размерности. Приводится обзор классических методов решения этих задач, а также подробно описан иерархический кластерный алгоритм в его классической форме. Содержание второй главы составляет модификация иерархического кластерного алгоритма для применения его к задачам однородности. Также производится теоретическое сравнение предлагаемой модификацией его с критерием Пирсона в наиболее простом случае. В третьей главе описывается применение алгоритма к задаче снижения размерности и очень важной с точки зрения практики задаче установления наличия объективной кластерной структуры в множестве исследуемых объектов. В последнем разделе третьей главы на примерах произведено сравнение предложенного и классических алгоритмов. Приложение содержит компьютерную программу, которая реализует разработанный в работе алгоритм для установления однородности данных.
Данные для сравнения алгоритмов были предоставлены профессором биологического факультета АлтГУ д.б.н. Журавлевым В.Б., а также онкологом Шипуновской центральной районной больницы Алексеевой И.А. и представляют собой результаты реальных медицинских и биологических экспериментов.
В диссертации подробно изучена задачи однородности в различных постановках; проведён анализ существующих методов решения этой задачи на основе изучения научной литературы; рассмотрен и модифицирован иерархический кластерный алгоритм для определения степени однородности двух классов. На основе предложенного способа введен числовой коэффициент однородности, который позволяет принять статистически достоверные решения о возможности признания классов однородными.
Написана компьютерная программа, реализующая новый алгоритм. На примерах произведено сравнение предложенного алгоритма с существующими классическими методами решения подобных задач.
Введенный коэффициент, и разработанная методика позволили по-новому подойти к решению задачи снижения размерности. Кроме этого, удалось алгоритмически проверить существование в исследуемом множестве объективной кластерной структуры.
Тем самым, цель исследования достигнута, задачи, поставленные во введении, решены.
Результаты диссертации докладывались на конференциях:
1) XIX Региональная конференция МАК-2016;
2) IV-я Региональная молодежная конференция «Мой выбор - наука!» г. Барнаул;
и опубликованы частично в [15]. Другие результаты автора работы можно найти в публикациях [16-18].
1. Боровков А.А. Математическая статистика. 4-е изд. - М.: Лань, 2010. - 704 с.
2. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных. - М.: Финансы и статистика, 1983. - 471 с.
3. Hollander M., Wolfe D.A., Chicken E. Nonparametric Statistical Meth-ods. 3rd edition. - N. Y.: John Wiley & Sons. - 2014. - 848 p.
4. Смирнов Н. В., Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложений. Учеб. пособие. - М.: Наука, 1960. - 511 с.
5. Bewley, A., Upcroft, B. Advantages of Exploiting Projection Structure for Segmenting Dense 3D Point Clouds // Proceedings of Australian Conference on Robotics and Automation 2 to 4 Dec 2013. - 2013. - P. 8-15.
6. Бериков В.С., Лбов Г.С. Современные тенденции в кластерном анализе // Всероссийский конкурсный отбор обзорно-аналитических статей по приоритетному направлению «Информационно-телекоммуникационные системы». - 2008. - 26 с.
7. Achtert E., Bohm C., Kroger P., Zimek A. Mining Hierarchies of Corre-lation Clusters // Proc. 18th International Conference on Scientific and Statistical Database Management (SSDBM). - 2006. - P. 119-128. doi: 10.1109/SSDBM.2006.35.
8. Дронов С.В. Методы и задачи многомерной статистики. - Барнаул: Изд-во Алт. ун-та, 2015. - 275 с.
9. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. - М.: Финансы и статистика, 1989. - 607 с.
10. Hongbing Hu, Zahorian S.A. Dimensionality Reduction Methods for HMM Phonetic Recognition // Proc. ICASSP 2010 Dallas, TX. - 2010. - P. 17-21.
11. Классификация и кластер / под ред. Дж. Вэн Райзина. - М.: Мир, 1980. - 390 с.
12. Двоенко С.Д. Неиерархический дивизимный алгоритм кластеризации// АиТ. - 1999. - №4. - С. 117-124.
13. Sturges H. The choice of a class-interval // J. Amer. Statist. Assoc. - 1926. - №21. - P. 65-66.
14. Батуркин С.А., Батуркина Е.Ю., Зименко В.А., Сигинов И.В. Статистические алгоритмы кластеризации данных в адаптивных обучающих системах // Вестник РГРТУ. - Рязань, 2010. - №1 (31).
Публикации автора
15. Дронов С.В., Никеев С.С. Иерархическая оцифровка в задачах однородности // МАК: «Математики - Алтайскому краю»: сборник трудов всероссийской конференции по математике. - Барнаул: Изд- во Алт. ун-та, 2016. - С. 24-25.
16. Никеев С.С., Чешкова М.А. Односторонние поверхности // Сборник трудов семнадцатой региональной конференции по математике «МАК-2014» посвященный 40-летию факультета математики и информационных технологий. - Барнаул: Изд-во Алт. ун-та, 2014. - С. 24-28.
17. Никеев С.С., Чешкова М.А. К геометрии бутылки Клейна // Мате-риалы Международной конференции «Ломоносовские чтения на Алтае: фундаментальные проблемы науки и образования». - Барнаул: Изд-во Алт. ун-та, 2014. - С. 328-332.
18. Никеев С.С., Чешкова М.А. Примеры построения бутылки Клейна// Труды молодых ученых Алтайского государственного университета. - Барнаул: Изд-во Алт. ун-та, 2015. - Т. 1, № 12. - С. 231-234.