МЕТОДЫ ПРОСТРАНСТВЕННОЙ КЛАСТЕРИЗАЦИИ И МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОПРЕДЕЛЕНИЯ ТЕРРИТОРИЙ РИСКА РАЗВИТИЯ СОЦИАЛЬНО-ЗНАЧИМЫХ ЗАБОЛЕВАНИЙ В САНКТ - ПЕТЕРБУРГЕ
ВВЕДЕНИЕ 3
1 МЕТОДЫ ПРОСТРАНСТВЕННОЙ КЛАСТЕРИЗАЦИИ И МАШИННОГО ОБУЧЕНИЯ ДЛЯ ВЫЯВЛЕНИЯ МЕСТ СКОПЛЕНИЙ СОЦИАЛЬНО-ЗНАЧИМЫХ ЗАБОЛЕВАНИЙ 4
1. 1 Характеристика социально-значимых заболеваний 4
1.2 Обзор предыдущих исследований 6
2 ОБРАБОТКА МАТЕРИАЛОВ ИССЛЕДОВАНИЯ 10
2. 1 Описание заболевания и территории исследования 10
2.2 Первичная обработка данных 11
2.3 Группировка на основании местожительства пациента 15
2.4 Деление данных на временные группы 16
3 МЕТОДЫ ИССЛЕДОВАНИЯ 17
3. 1 Применение статистических методов для анализа пространственных данных17
3.2 Применение методов машинного обучения 40
ЗАКЛЮЧЕНИЕ 55
ЛИТЕРАТУРА 56
ПРИЛОЖЕНИE 58
Здоровье населения является одним из ключевых факторов благополучия общества и важным показателем экономического и социального развития страны. Значительное влияние на качество жизни общества оказывают социально-значимые заболевания. Поэтому определение территорий, где существует риск развития социально-значимых заболеваний, является одной из приоритетных задач государственного управления. Это может улучшить планирование и организацию здравоохранения населения. На основе такой информации можно определить, какие меры необходимы для предотвращения распространения заболеваний и улучшения доступности медицинской помощи гражданам.
Целью работы является определение оптимального алгоритма для кластеризации заболеваний и применение его для выявления мест скоплений заболевших туберкулезом.
В соответствии с целью были поставлены следующие задачи:
• Проанализировать данные о заболевании туберкулезом в Санкт-Петербурге и выяснить как они распределяются по территории;
• Изучить существующие методы пространственной кластеризации и машинного обучения;
• Адаптировать существующие методы кластеризации для определения риска развития туберкулеза;
• Разработать алгоритм выявления кластеров заболеваний, используя выбранные методы.
Объектом исследования данной работы являются статистические методы анализа пространственных данных и алгоритмы машинного обучения.
Предметом исследования является проблема выявления территорий, в которых существует риск развития социально-значимых заболеваний.
В рамках выпускной квалификационной работы проанализирован набор данных о пациентах с диагнозом туберкулез в Санкт-Петербурге. В результате получены значимые результаты, которые могут иметь практическое применение для профилактики этого заболевания среди населения.
Первоначально был применен алгоритм плотности ядра, с помощью которого выделены территории с наибольшей плотностью заболевших. Это позволило определить приблизительные территории с высокой долей заболевших и понять общий тренд в размещении пациентов. Затем проведен анализ с использованием гексагональной сетки, который подтвердил наличие связи между распределением населения в городе и распространением заболевших. Это свидетельствует о том, что густонаселенные районы могут быть особенно подвержены риску заражения туберкулезом, возможно, из-за более интенсивных социальных взаимодействий и плотной застройки. При анализе данных на уровне административных единицы выявлены конкретные территории в городе, где наблюдается наибольшая доля пациентов с туберкулезом. Это поможет сосредоточить усилия на этих территориях для эффективного контроля распространения болезни и обеспечения необходимой медицинской помощи. Далее применены алгоритмы машинного обучения, включая k-means, иерархическую агломеративную кластеризацию и DBSCAN. Для каждого из алгоритмов подобраны гиперпараметры, так, чтобы метрики качества кластеризации были наиболее высокими. С кластеризацией пациентов лучше всего справился плотностной алгоритм DBSCAN. В результате его работы получили наиболее равномерные кластеры, которые проходят с соблюдением географических зон.
В итоге, при проведении статистического анализа набора данных и применении к нему алгоритмов машинного обучении разработан новый алгоритм для выявления мест распространения туберкулеза в г. Санкт-Петербург. Этот метод имеет потенциал для применения не только в выявлении риска развития туберкулеза, но и в обнаружении других эпидемиологических заболеваний.