Тип работы:
Предмет:
Язык работы:


МЕТОДЫ ПРОСТРАНСТВЕННОЙ КЛАСТЕРИЗАЦИИ И МАШИННОГО ОБУЧЕНИЯ ДЛЯ ОПРЕДЕЛЕНИЯ ТЕРРИТОРИЙ РИСКА РАЗВИТИЯ СОЦИАЛЬНО-ЗНАЧИМЫХ ЗАБОЛЕВАНИЙ В САНКТ - ПЕТЕРБУРГЕ

Работа №142092

Тип работы

Бакалаврская работа

Предмет

картография

Объем работы58
Год сдачи2023
Стоимость4275 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
28
Не подходит работа?

Узнай цену на написание


ВВЕДЕНИЕ 3
1 МЕТОДЫ ПРОСТРАНСТВЕННОЙ КЛАСТЕРИЗАЦИИ И МАШИННОГО ОБУЧЕНИЯ ДЛЯ ВЫЯВЛЕНИЯ МЕСТ СКОПЛЕНИЙ СОЦИАЛЬНО-ЗНАЧИМЫХ ЗАБОЛЕВАНИЙ 4
1. 1 Характеристика социально-значимых заболеваний 4
1.2 Обзор предыдущих исследований 6
2 ОБРАБОТКА МАТЕРИАЛОВ ИССЛЕДОВАНИЯ 10
2. 1 Описание заболевания и территории исследования 10
2.2 Первичная обработка данных 11
2.3 Группировка на основании местожительства пациента 15
2.4 Деление данных на временные группы 16
3 МЕТОДЫ ИССЛЕДОВАНИЯ 17
3. 1 Применение статистических методов для анализа пространственных данных17
3.2 Применение методов машинного обучения 40
ЗАКЛЮЧЕНИЕ 55
ЛИТЕРАТУРА 56
ПРИЛОЖЕНИE 58



Здоровье населения является одним из ключевых факторов благополучия общества и важным показателем экономического и социального развития страны. Значительное влияние на качество жизни общества оказывают социально-значимые заболевания. Поэтому определение территорий, где существует риск развития социально-значимых заболеваний, является одной из приоритетных задач государственного управления. Это может улучшить планирование и организацию здравоохранения населения. На основе такой информации можно определить, какие меры необходимы для предотвращения распространения заболеваний и улучшения доступности медицинской помощи гражданам.
Целью работы является определение оптимального алгоритма для кластеризации заболеваний и применение его для выявления мест скоплений заболевших туберкулезом.
В соответствии с целью были поставлены следующие задачи:
• Проанализировать данные о заболевании туберкулезом в Санкт-Петербурге и выяснить как они распределяются по территории;
• Изучить существующие методы пространственной кластеризации и машинного обучения;
• Адаптировать существующие методы кластеризации для определения риска развития туберкулеза;
• Разработать алгоритм выявления кластеров заболеваний, используя выбранные методы.
Объектом исследования данной работы являются статистические методы анализа пространственных данных и алгоритмы машинного обучения.
Предметом исследования является проблема выявления территорий, в которых существует риск развития социально-значимых заболеваний.


Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


В рамках выпускной квалификационной работы проанализирован набор данных о пациентах с диагнозом туберкулез в Санкт-Петербурге. В результате получены значимые результаты, которые могут иметь практическое применение для профилактики этого заболевания среди населения.
Первоначально был применен алгоритм плотности ядра, с помощью которого выделены территории с наибольшей плотностью заболевших. Это позволило определить приблизительные территории с высокой долей заболевших и понять общий тренд в размещении пациентов. Затем проведен анализ с использованием гексагональной сетки, который подтвердил наличие связи между распределением населения в городе и распространением заболевших. Это свидетельствует о том, что густонаселенные районы могут быть особенно подвержены риску заражения туберкулезом, возможно, из-за более интенсивных социальных взаимодействий и плотной застройки. При анализе данных на уровне административных единицы выявлены конкретные территории в городе, где наблюдается наибольшая доля пациентов с туберкулезом. Это поможет сосредоточить усилия на этих территориях для эффективного контроля распространения болезни и обеспечения необходимой медицинской помощи. Далее применены алгоритмы машинного обучения, включая k-means, иерархическую агломеративную кластеризацию и DBSCAN. Для каждого из алгоритмов подобраны гиперпараметры, так, чтобы метрики качества кластеризации были наиболее высокими. С кластеризацией пациентов лучше всего справился плотностной алгоритм DBSCAN. В результате его работы получили наиболее равномерные кластеры, которые проходят с соблюдением географических зон.
В итоге, при проведении статистического анализа набора данных и применении к нему алгоритмов машинного обучении разработан новый алгоритм для выявления мест распространения туберкулеза в г. Санкт-Петербург. Этот метод имеет потенциал для применения не только в выявлении риска развития туберкулеза, но и в обнаружении других эпидемиологических заболеваний.



1) T. A. Баянова, А. Д. Ботвинкин, Н. Ю. Куприянова. "Социально значимые заболевания. Эпидемиология и профилактика инфекционных заболеваний: туберкулез, ВИЧ-инфекция, вирусные гепатиты В, С". Учебное пособие для студентов. стр. 10-16.
2) Freda E. Alexander. "Clusters and Clustering of Childhood Cancer: A Review." European Journal of Epidemiology (10.1998)
3) J F Bithell, M F G Murphy, C A Stiller, E Toumpakari, T Vincent, R Wakeford. "Leukaemia in young children in the vicinity of British nuclear power plants: a case–control study." Br J Cancer (Volume 109(11); 2013 Nov 26).
4) Jia-Hong Tang, Tzu-Jung Tseng, Ta-Chien Chan “Detecting spatio-temporal hotspots of scarlet fever in Taiwan with spatio-temporal Gi* statistic”. PLoS One. 2019; 14(4): e0215434.
5) Parasian Silitonga. "Clustering of Patient Disease Data by Using K-Means Clustering." International Journal of Computer Science and Information Security (March 2018), стр. 15
6) Ricardo A. Rios, Tatiane Nogueira, Danilo B. Coimbra, Tiago J. S. Lopes, Ajith Abraham & Rodrigo F. de Mello. "Country transition index based on hierarchical clustering to predict next COVID-19 waves." Sci Rep, 2021 Jul 27;
7) Özge Pasin and Handan Ankarali. "Usage of Kernel K-Means and DBSCAN cluster algorıthms in health studies:An application." International Journal of Medical Science and Clinical Invention, vol. 4, Issue 3, March, 2017. Means_and_DBSCAN_cluster_algorithms_in_health_studiesAn_application
8) Luc Anselin «Local Indicators of Spatial Association—LISA». 1995 г. , стр. 1
9) Ester, M., Kriegel, H. P., Sander, J., & Xu, X. (1996, August). "A density-based algorithm for discovering clusters in large spatial databases with noise." In Kdd (Vol. 96, No. 34, pp. 226-231).
РесурсысетиИнтернет:
1) http://pravo.gov.ru/proxy/ips/?docbody=&prevDoc=102158143&backlink=1&&nd=102089734 - перечень социально значимых заболеваний.
2) http://pravo.gov.ru/proxy/ips/?docbody=&prevDoc=131103620&backlink=1&&nd=131047453&showsearch=1 - о программе развития здравоохранения Санкт-Петербурга до 2020 года.
3) http://statistica.ru/theory/klasterizatsiya-metod-k-srednikh/ - кластеризация k-средних.
4) http://zdrav.spb.ru/ru/cityprogramms/phthisiatry/ - официальный сайт комитета по здравоохранению Санкт-Петербурга.
5) https://78.rosstat.gov.ru/folder/27595 - управление Федеральной службы государственной статистики по г. Санкт-Петербургу и Ленинградской области. Дата обращения: 19.02.2023
6) https://desktop.arcgis.com/ru/arcmap/latest/tools/spatial-analyst-toolbox/kernel-density.htm - описание алгоритма kde. Дата обращения 17.03.2023.
7) https://h3geo.org/ - Hexagonal hierarchical geospatial indexing system. Дата обращения 27.03.2023.
8) https://machinelearningmastery.ru/img/0-564765-359407.png - работа алгоритма k-средних.
9) https://medium.com/analytics-vidhya/partitional-clustering-using-clarans-method-with-python-example-545dd84e58b4 - методе кластеризации Clarans. Дата обращения: 19.02.2023
10) https://miro.medium.com/max/1400/1*Lc3knFwBssFOs01WZZPOCw.png - работа алгоритма DBSCAN.
11) https://mosgorzdrav.ru/ru-RU/magic/default/download/4230.html - сайт Министерства здравоохранения Российской Федерации. Дата обращения: 19.02.2023
12) https://pro.arcgis.com/en/pro-app/latest/tool-reference/spatial-statistics/how-density-based-clustering-works.htm - плотностные алгоритмы.
13) https://www.arcgis.com/apps/View/index.html?appid=5252486c61a64e46b61237ac6b1ccc43 - подложка для карты. Дата обращения: 21.02.2023
14) https://www.arcgis.com/home/item.html?id=30e5fe3149c34df1ba922e6f5bbf808f - мировая топографическая карта.Дата обращения: 25.05.2023
15) https://www.biomedware.com/files/documentation/OldCSHelp/BesagNewell/About_Besag_and_Newell_s_Method.htm - информация о методах Бесага и Ньюлена.
16) https://www.openstreetmap.org/#map=15/55.7882/37.6783 - OpenStreetMap.Дата обращения: 26.05.2023
17) https://machinelearningmastery.ru/https-towardsdatascience-com-hierarchical-clustering-6f3c98c9d0ca/ - иерархическая кластеризация. Дата обращения: 20.02.2023
18) https://www.rospotrebnadzor.ru/about/info/news/news_details.php?ELEMENT_ID=17144 - официальный сайт Роспотребнадзора.Дата обращения: 18.02.2023
19) https://iac.spb.ru/proekty-i-sistemy/detail.php/?ELEMENT_ID=82 - отраслевой портал жилищно-коммунального хозяйства Санкт-Петербурга. Дата обращения: 18.02.2023


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ