ВВЕДЕНИЕ 6
1. АНАЛИТИЧЕСКАЯ ЧАСТЬ 9
1.1 Анализ информации о хронических заболеваний 9
1.1.1 Анализ увеличения распространенности хронических заболеваний ... 10
1.1.2 Обзор статистики мировой смертности от НИЗ 12
1.1.3 НИЗ в странах с высоким уровнем доходов и СНСД 13
1.1.4 НИЗ и COVID-19 15
1.2 Исследования в сфере хронических заболеваний 16
1.2.1 Обзор исследований в сфере хронических заболеваний 16
1.2.2 Программа ВОЗ CINDI 18
1.2.3 Анализ Института Милкена 19
1.2.4 Общие данные об исследованиях в сфере НИЗ 20
1.3 Борьба с НИЗ 21
1.3.1 Обзор независимой комиссии ВОЗ по профилактике и лечению НИЗ 21
1.3.2 Система профилактики НИЗ Дина Орниша 22
1.3.3 «Красная лента» 23
1.3.4 Исследования в области легочной гипертензии 24
1.4 Данные для исследований 25
1.4.1 История составления показателей хронических заболеваний 26
1.4.2 CDC и CDI для исследования 27
1.4.3 Обзор данных 30
2 ТЕОРЕТИЧЕСКАЯ ЧАСТЬ 34
2.1 Технологии Big Data 34
2.1.1 Методы Big Data 39
2.1.2 Процессы технологии Data Mining 44
2.1.3 Методы и задачи Data Mining 52
2.1.4 Большие данные в промышленности 57
2.2 Python 59
2.2.1 Анализ конкурентных языков программирования Python, R и Scala. .. 59
2.2.2 Средства Python для анализа данных 62
2.2.3 Jupyter Notebook 65
3 ПРОЕКТНАЯ ЧАСТЬ 67
3.1 Подготовка и обзор данных 67
3.2 Построение первоначальной модели 73
3.2.1 Анализ взаимосвязи между показателями хронического состояния
здоровья населения 73
3.2.2 Стратификационный анализ преждевременной смертности по полу и
расе среди взрослых 78
3.2.3 Анализ тем по годам 82
3.2.4 Анализ тем по штатам 85
3.2.5 Анализ источников данных 89
3.2.6 Кросс-факторный анализ 91
3.2.7 Анализ по широте и долготе 94
3.2.8 Визуализация данных с помощью ресурсов CDC 96
3.2.9 Исходная модель 97
3.3 Итоговая модель 98
3.3.1 Экономическая, экологическая и социальная сферы 100
3.3.4 Уменьшение рисков распространенности НИЗ 104
3.4 Практическая значимость модели 106
3.5 Структура модели 107
ЗАКЛЮЧЕНИЕ 108
СПИСОК ИСПОЛЬЗУЕМЫХ ИСТОЧНИКОВ И ЛИТЕРАТУРЫ 111
ПРИЛОЖЕНИЕ 114
Здоровье человека - очень важный показатель экологической, социальной и экономической сферы. В зависимости от того, как эти сферы балансируют в государстве меняются и факторы, влияющие на здоровье человека. Результат такого воздействия факторов, как генетические, физиологические и поведенческие можно наблюдать у людей с хроническими неинфекционными заболеваниями (ХНИЗ). Например, астма из-за загрязненного воздуха, рак, развившийся из-за постоянного стресса.
Одну из главных проблем сегодня заняла распространённость неинфекционных заболеваний. Более двух третей всех смертей вызваны одним или несколькими из этих пяти хронических заболеваний: болезни сердца, рак, инсульт, хроническая болезнь легких и диабет. Они уносят каждый год миллионы жизней, а также приводят к тяжелым осложнениям и инвалидности. В свою очередь осложнения связаны с потерей трудоспособности и необходимостью высоко затратного лечения. Сегодня перед системами здравоохранения стоит задача уменьшить показатели хронических заболеваний за счет улучшения качества жизни, увеличения периода активной жизни, повышения и сохранения трудоспособность у пациентов с данными заболеваниями.
Не смотря на, все попытки стран в борьбе с НИЗ, хронические заболевания до сих пор являются главной причиной смерти в мире. Для более эффективной борьбы с НИЗ, а также для оптимизации работы органы здравоохранения стали активно внедрять в свою деятельность различные средства по цифровой обработке баз данных. Применив к имеющимся данным интеллектуальный анализ, можно не только узнать сколько человек болеет определенным заболеванием, но и выявить предрасположенность группы людей к определенной болезни. Полученные в результате анализа выводы помогут медицинским работникам, а также органам здравоохранения в борьбе с хроническими заболеваниями и уменьшить риск их распространенности.
Интеллектуальный анализ данных (Data Mining) - это процесс сортировки больших наборов, для выявления закономерностей и установления взаимосвязей для решения проблем посредством анализа данных. Инструменты интеллектуального анализа данных позволяют предприятиям прогнозировать будущие тенденции.
Обширные объемы данных, хранящихся в медицинских базах данных, структурированных и неструктурированных наборов показателей здоровья требуют разработки и анализа с помощью специализированных инструментов.
Таким образом, интеллектуальный анализ показателей хронических заболеваний США будет иметь практическую значимость и применение.
Цель настоящей работы - анализ показателей и уменьшение рисков хронических заболеваний с помощью технологий больших данных.
Данная цель реализуется с помощью следующих задач:
1. Изучить информацию о хронических неинфекционных заболеваниях.
2. Изучить исследования в сфере НИЗ.
3. Борьба с НИЗ.
4. Подготовка и обзор данных для анализа.
5. Построение первоначальной модели.
6. Построение итоговой модели.
7. Формирование практической значимости и уменьшение рисков.
Объектом работы являются показатели хронических заболеваний (CDI) США, взятые с веб-сайта Центра Хронических Заболеваний (CDC).
Предметом исследования являются показатели хронических заболеваний (CDI) США, взятые с веб-сайта Центра Хронических Заболеваний (CDC). Они представлены с помощью набора из 124 показателей предоставленные CDC's Division of Population Health (отделом здоровья населения CDC), которые были разработаны на основе консенсуса. Он позволяет штатам и территориям единообразно определять, собирать и представлять данные о хронических заболеваниях, которые важны для практики общественного здравоохранения и доступны для штатов, и крупных столичные районы.
В рамках данной работы использовались такие инструменты анализа, как технологии Big Data, а точнее интеллектуальный анализ больших данных (Big Data Mining), методология визуализации данных и кросс-факторный анализ данных.
Основными источниками данных для анализа, использованными в работе, являются данные показателей хронических заболеваний (CDI), отчет о заболеваемости и смертности (Morbidity and Mortality Weekly Report (MMWR)) и официальный сайт центра хронических заболеваний США (CDC).
Данная работа включает в себя три части: (1) Аналитическую часть: анализ информации и исследований в области хронических неинфекционных заболеваний; (2) Теоретическую часть: ознакомление с технологией Data
Mining, выбор основного метода и инструмента; (3) Проектную часть: интеллектуальный анализ больших данных показателей хронических заболеваний США (CDI), составление итоговой модели, подсчет практической значимости и анализ рисков распространенности НИЗ.
В Аналитической части была рассмотрена информация и исследования в области НИЗ. Приведены примеры борьбы с хроническими заболеваниями и мировая статистика смертности, где первые строчки занимали такие заболевания, как сердечнососудистые заболевания, рак, обструктивная болезнь легких и диабет. Также были выявлены основные тенденции и актуальные вопросы, касающиеся данной темы: влияние наличия хронических заболеваний на заражение коронавирусом COVID-19.
В Теоретической части был произведен детальный обзор технологий и методов Big Data. Как основной метод реализации работы была выбрана, и технология Data Mining, а также произведен полный ее разбор. Были выявлены основные процессы, задачи и технологии интеллектуального анализа данных. К основным методам Data Mining относятся: линейная регрессия, нейронные сети, визуализация, деревья решений, полиномиальные нейронные сети, метод k-ближайшего соседа. По результатам проведения сравнительного анализа всех перечисленных методов, был выбран наиболее подходящий под специфику задачи - метод визуализации. Помимо этого, с помощью сравнительного анализа был выбран основной инструмент для проведения интеллектуального анализа больших данных - язык программирования Python 3. В качестве платформы был выбран Jupyter Notebook, а для хороших графиков и диаграмм загрузили библиотеки Pandas, Numpy, Matplotlib и Seaborn.
В Проектной части были использованы данные центра хронических заболеваний США (CDC), в количестве 815 тысяч показателей и индикаторов хронических заболеваний. Работа началась с подготовки и очистки данных, был произведен первичный анализ, построение исходной модели, построение итоговой модели, написание практической значимости и структуры проекта. По результатам анализа было выявлено, что (CKD) хроническое заболевание почек и (CVD) сердечно-сосудистые заболевания; CKD и диабет (DIA); CVD и DIA; общие условия (OVC) и CKD, DIA, CVD; и, наконец, пациенты с хронической обструктивной болезнью легких (COP) с DIA и CVD имеют высокую корреляцию. Преждевременная смертность среди взрослых в возрасте 45-64 лет наиболее сильно влияет на группы чернокожих, не латиноамериканцев и коренных американцев или жителей Аляски. В последние годы проблемой здравоохранительных органов стали сердечно-сосудистые заболевания и диабет. Так же из модели мы получили, что штаты Iowa и Maine имеют большое количество данных и информации по основным болезням.
В ходе построения тепловой карты были получены выводы касательно того, что в наборе данных присутствуют 33 источника данных, но большая часть данных поступает из двух источников: BRFSS и NVSS.
Также, по результатам прогнозных значений 2020 год будет отличатся от всех, что были раньше и будут потом, так как из-за всемирной пандемии коронавируса все показатели смертности и здоровья могут сбиться. Душевное здоровье вместе с онкологическими заболеваниями, так же поднимутся по шкале смертности и будут занимать эти места еще не один год. А вот в 2021 году намечаются хорошие показатели, так как весь мир начнет активную борьбу за свое здоровье.
Люди склонны принимать смерти от НИЗ как неизбежность. Бремя болезней слишком велико и сложно, чтобы с ним справиться. Тем не менее, данная модель новый стратегический ответ, основанный на последних данных и надежном анализе, позволяет предположить, что пора изменить взгляд на хронические заболевания. Интегрируя эффективные меры в глобальном масштабе, можно спасти миллионы жизней, получить экономические выгоды и добиться значительного прогресса в достижении целей в экономической, социальной и медицинской сферах.