Тип работы:
Предмет:
Язык работы:


Изучение и имитационное моделирование модифицированного агломеративного метода кластеризации

Работа №125002

Тип работы

Бакалаврская работа

Предмет

математическое моделирование

Объем работы45
Год сдачи2020
Стоимость4550 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
48
Не подходит работа?

Узнай цену на написание


Введение 3
Постановка задачи 5
Глава 1. Агломеративные методы кластерного анализа 7
1.1. Кластерный анализ 7
1.2. Описание агломеративной кластеризации 9
1.3. Основные агломеративные методы кластеризации 10
Глава 2. Момент остановки агломеративного процесса кла­стеризации и очистка от шумов 14
2.1. Марковский момент остановки агломеративного процесса кластеризации 14
2.2. Чистка данных от шумов 23
2.3. Численные эксперименты 24
Глава 3. Дополнительное исследование невзвешенного центроидного метода 27
3.1. Модифицированное расстояние между кластерами 27
3.2. Двухэтапная кластеризация 34
Заключение 37
Список литературы 40
Приложение 41

Иерархическая кластеризация — это методы кластерного анализа, производящие последовательное разделение объектов и выстраивающие иерархию разбиений. Эти методы можно разделить на две группы:
1. Агломеративные методы представляют каждый объект в виде от­дельного кластера и последовательно объединяют их, пока все точки не окажутся в одном кластере.
2. Дивизивные методы, наоборот, сначала представляют все объекты в виде одного кластера, а затем разбивают его на более мелкие, и так пока каждый из объектов не окажется в отдельном кластере.
В общем случае, при использовании иерархических методов кластериза­ции, заранее не известно предпочтительное число кластеров. Результаты работы этих методов могут быть представлены различными способами, как правило используются дендрограммы — деревья, представляющие иерар­хию разбиений. Именно дендрограммы используются для определения мо­мента остановки процесса и определения количества кластеров [1]. Однако такой подход является эвристическим. Для значительного класса задач по­добное решение проблемы числа кластеров нельзя признать удовлетвори­тельным. К одной из таких задач можно отнести проблему автоматической типологизации лейкоцитов при цитометрическом исследовании крови.
Лейкоциты (или белые кровяные тельца) — это клетки иммунной системы, их функция — защита внутренней среды организма от инород­ных патогенов [2]. Проточная цитометрия — это современная техноло­гия быстрого измерения характеристик клеток. Её развитие расширило возможности анализа иммунной системы, диагностики иммунодефицит­ных состояний, аутоиммунных заболеваний и т. д. [3]. Однако выделение групп клеток по выбранным параметрам происходит в "ручном" режиме при помощи программных средств для графического создания регионов, или гейтов (от англ. gate — ворота). Этот процесс называется гейтированием [3; 4]. С учетом высокой детализации клеточных популяций, такой метод является неэффективным и, кроме того, ненадёжным [5; 6], что при­вело к необходимости разработки автоматических способов для реализации этого процесса.
За последнее время проведено большое число исследований, описыва­ющих специализированные методы кластеризации для типологизации раз­личных субпопуляций лейкоцитов [7; 8]. Однако остаются нерешёнными проблемы, связанные с большим количеством "шумов" в данных, размерами кластеров и их плотностью. Были проведены исследования, показывающие недостатки некоторых популярных методов кластеризации применительно к этой задаче [9].
В выпускной квалификационной работе рассматривается модифици­рованный агломеративный метод кластеризации. Его изменение предна­значено для решения этих проблем; так же проведены численные экспери­менты с иерархическими методами кластеризации применительно к задаче выделения основных групп лейкоцитов.
Постановка задачи
Проточный цитофлуориметр — это прибор, позволяющий измерять оптические свойства одиночных биологических клеток в дисперсных сре­дах; принцип его действия основан на измерении светорассеяния и специ­фического свечения частиц при их прохождении сквозь лазерный луч [3]. Детектор прямого светорассеяния (FSC, от англ. forward scatter) распола­гается по ходу лазерного луча и собирает излучение, рассеянное в пределах малых углов. Детектор бокового светорассеяния (SSC, от англ. side scatter) располагается под углом 90° относительно направления лазерного луча и собирает излучение, рассеянное в пределах больших углов. Значения FSC- сигнала позволяют судить о размере клетки, а величина SSC-сигнала — о сложности её внутреннего строения [3; 4].
По морфологическим признакам лейкоциты можно разделить на три основные группы: лимфоциты, моноциты и гранулоциты.
Лимфоциты и моноциты имеют простое несегментированное ядро и небольшую зернистость цитоплазмы, моноциты крупнее лимфоцитов. Гранулоциты (нейтрофилы, эозинофилы, базофилы) имеют более слож­ное строение, они содержат крупные сегментированные ядра, имеют специ­фическую зернистость цитоплазмы и т. д. [10]. Гранулоциты крупнее лим­фоцитов и моноцитов. Типичное распределение лимфоцитов, моноцитов и гранулоцитов в осях FSC и SSC представлено на рис. 1. Важно отметить еще одну группу клеток, расположенную на этом рисунке внизу слева — дебрис (мелкие осколки клеток). Иногда эта группа может не встречаться в распределении лейкоцитов в осях FSC и SSC. Кроме того могут суще­ствовать аномальные распределения лейкоцитов, когда в этих осях можно выделить другие кластеры.
Задача состоит в исследовании и модифицировании агломеративного метода кластеризации, наиболее подходящего к решению практической за­дачи автоматической типологизации лейкоцитов по размеру клеток и слож­ности их строения (то есть по параметрам FSC и SSC) с учётом возмож­ности встречи данных с аномальными распределениями.
Рис. 1: Распределение лейкоцитов в осях FSC и SSC
Для численных экспериментов и реализации алгоритма использовал­ся программный код, написанный на языке программирования Python 3.7, с подключением библиотек NumPy, SciPy, Numba и с использованием обо­лочки PyCharm, разработанной компанией JetBrains на основе IntelliJ IDEA, и Colaboratory — бесплатной среды для Jupiter Notebook от компании Google. Код, реализующий функции, описывающие основные модификации, кото­рые представлены в данной работе, можно найти в приложении.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Подводя итоги, можем сделать следующие выводы.
Модифицированный центроидный метод может быть применён к за­даче типологизации лейкоцитов по размеру клеток и сложности их строе­ния, однако стоит отметить две проблемы.
Во-первых, этот метод имеет множество параметров, которые прихо­дится выбирать эвристически: коэффициент тренда, влияющий на чувстви­тельность аппроксимационно-оценочного критерия марковского момента остановки; радиус и предельное число точек окрестностей для поиска услов­но изолированных точек; коэффициент притяжения для определения "рас­стояния" между кластерами. Тем не менее в процессе численных экспери­ментов для некоторых из них были замечены некие закономерности, по­этому ожидается автоматизировать выбор части этих параметров.
Во-вторых, метод может неудовлетворительно работать с данными цитометрического исследования лейкоцитов у тех пациентов, которые име­ют серьёзные патологии кроветворения. Однако цель работы заключается не в полной замене специалиста, а в предоставлении последнему удобного инструмента для анализа этих данных с целью сведения к минимуму субъ­ективного фактора. Поэтому логичным будет предоставить анализ таких "аномальных" данных опытному специалисту.
Помимо невзвешенного центроидного метода интерес в рамках дан­ной задачи представляет также метод одиночной связи. С предложенными в главе 2 модификациями он показал неплохие результаты при проведении численных экспериментов в рамках рассматриваемой задачи. Имеет смысл провести его отдельное подробное исследование.
Стоит отметить, что задача типологизации лейкоцитов по размеру клеток и сложности их строения всего лишь частный случай большой зада­чи типологизации лейкоцитов при цитометрическом исследовании крови [3; 4]. Поэтому в дальнейшем будет проведена работа по изучению модифици­рованного центроидного метода в рамках задачи кластеризации по другим параметрам, которые используются в проточной цитофлуорометрии при исследовании белых кровяных телец.


1. Hierarchical Clustering // Cluster Analysis. — John Wiley & Sons, Ltd, 2011. — Chap. 4. P. 71-110. — DOI: 10.1002/9780470977811.ch4.
2. Песнякевич А. Г. Иммунология: учеб. пособие. — Минск, 2018. — 255 с.
3. Зурочка А. В. [и др.]. Проточная цитометрия в медицине и биоло­гии. — Екатеринбург : Редакционно-издательский отдел Уральского отделения РАН, 2013.
4. Балалаева И. В. Проточная цитофлуориметрия: Учебно-методическое пособие. — 2014.
5. Daneau G. [et al.]. CD4 results with a bias larger than hundred cells per microliter can have a signihcant impact on the clinical decision during treatment initiation of HIV patients // Cytometry Part B: Clinical Cytometry. — 2017. — Vol. 92, no. 6. — P. 476-484. — DOI: 10. 1002/cyto.b.21366.
6. Omana-Zapata I. [et al.]. Accurate and reproducible enumeration of T-, B-, and NK lymphocytes using the BD FACSLyric 10-color system: A multisite clinical evaluation // PLOS ONE. — 2019. — Jan. — Vol. 14, no. 1. — P. 1-17. — DOI: 10.1371/journal.pone.0211207.
7. Weber L. M., Robinson M. D. Comparison of clustering methods for high-dimensional single-cell flow and mass cytometry data // Cytometry Part A. — 2016. — Vol. 89, no. 12. — P. 1084-1096. — DOI: 10. 1002/cyto.a.23030.
8. Zhang C. [et al.]. White Blood Cell Segmentation by Color-Space-Based K-Means Clustering // Sensors. — 2014. — Vol. 14, no. 9. — DOI: 10.3390/s140916128.
9. Лепский А. И. Сравнительный анализ алгоритмов кластеризации лей­коцитов по FS и SS параметрам при цитофлуориметрическом исследо­вании крови // Информационные технологии. — 2020. — т. 26, № 1. — с. 56—61. — DOI: 10.17587/it.26.56-61.
10. Хаитов P. M., Игнатьева Г. А., Сидорович И. Г. Иммунология: Учеб­ник. — М. : Медицина, 2000.
11. Орехов А. В. Марковский момент остановки агломеративного про­цесса кластеризации в евклидовом пространстве // Вестник Санкт- Петербургского университета. Прикладная математика. Информати­ка. Процессы управления. — 2019. — т. 15, № 1. — с. 76—92. — DOI: 10.21638/11702/spbu10.2019.106.
12. Orekhov A. V. Agglomerative Method for Texts Clustering // Internet Science / ed. by S. S. Bodrunova [et al.]. — Cham : Springer Interna­tional Publishing, 2019. — P. 19-32.
13. Orekhov A. V. Criterion for estimation of stress-deformed state of SD- materials // AIP Conference Proceedings. — 2018. — Vol. 1959, no. 1. — P. 070028. — DOI: 10.1063/1.5034703.
14. Орехов А. В. Аппроксимационно-оценочные критерии напряженно- деформируемого состояния твердого тела // Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управ­ления. — 2018. — т. 14, № 3. — с. 230—242. — DOI: 10.21638/11702/ spbu10.2018.304.
15. An Introduction to Classification and Clustering // Cluster Analysis. — John Wiley & Sons, Ltd, 2011. — Chap. 1. P. 1-13. — DOI: 10.1002/ 9780470977811.ch1.
...


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ