Введение 3
Актуальность предметной области 3
Актуальность исследования 4
Постановка задачи 6
Цель исследования 6
Этапы реализации 6
Обзор литературы 8
Глава 1. Работа с данными 10
1.1. Описание данных 10
1.2. Предобработка данных 12
1.3. Нормализация данных 15
1.4. Разбиение на обучающую и тестовую выборку 15
Глава 2. Классификация на бинарных данных 17
2.1. Построение адаптивного алгоритма двусторонней оценки 17
2.2. Построение модели 18
Глава 3. Построение логистической регрессии на значимых непрерывных показателях 21
3.1. Выявление статистически значимых признаков 21
3.2. Построение модели 23
Глава 4. Классификация временных рядов через систему дифференциальных уравнений 25
4.1. Выбор параметров 25
4.2. Построение модели 25
Глава 5. Сравнение моделей 30
Вывод 31
Литература 32
Возможность предсказания события, которое произойдет в будущем, опираясь лишь на данные в прошлом, дает анализ временных рядов. Временные ряды используются во всех сферах деятельности человека, но в работе будут рассматриваться именно биомедицинские временные ряды. В медицинской среде приходится работать с большим объемом разрозненных данных, так как человеческий организм является сложной системой. Медицинские данные часто имеют сложные взаимосвязи как между собой, так и с параметром времени, что делает актуальным динамический анализ.
Анализ биомедицинских данных имеет явное практическое применение. Необходимость в улучшении математических моделей для прогнозирования случайных данных приводит к выявлению глубоких взаимодействий. Анализ медицинских данных имеет огромное значение в современной медицине, поскольку он позволяет выявлять закономерности, тренды и взаимосвязи между различными данными анализов пациентов. Это помогает врачам принимать более информированные решения при диагностике, лечении, а также профилактике различных заболеваний. Кроме того, анализ медицинских данных помогает исследователям и ученым выявлять новые тенденции в медицине, разрабатывать новые методы диагностики и лечения, а также прогнозировать возможные эпидемии, пандемии и их последствия.
Биомедицинские временные ряды представляют собой
последовательные измерения биологических параметров, таких как накопление углекислоты в крови, уровень гемоглобина, альбумина, креатинина и т.д. Анализ и классификация таких временных рядов при анализе заболевания имеет большое значение для медицины и здравоохранения, так как прогнозирование состояния пациента, позволяет своевременно оказывать требуемую медицинскую помощь.
Одним из основных применений классификации биомедицинских временных рядов является построение систем диагностики и мониторинга заболеваний, а также построение систем поддержки и принятия решений для медицинского персонала. Кроме того, классификация биомедицинских временных рядов может использоваться для оценки эффективности лечения, определения факторов, влияющих на здоровье и для решения многих других задач.
Таким образом, актуальность темы классификации биомедицинских временных рядов заключается в повышении эффективности диагностики и лечения заболеваний, а также в создании новых методов анализа данных, способствующих улучшению качества медицинской помощи.
Классификация временных рядов в медицинской среде является важной задачей, которая может помочь в прогнозировании выживаемости пациентов. В работе за счет классификации временных рядов производится прогнозирование выживаемости пациентов с коронавирусной инфекцией, поступивших в отделение реанимации и интенсивной терапии (ОРИТ) [1].
Производиться классификация временных рядов будет при помощи языка программирования Python на основе обезличенных анализов пациентов, с применением пакетов для работы с базами данных - Pandas и NumPy.
Актуальность исследования
Актуальность темы статистического анализа выживаемости пациентов с коронавирусной инфекцией крайне велика, потому что прогнозирование выживаемости позволяет медицинским работникам принимать более обоснованные решения о лечении пациентов. Знание вероятности выживания пациента помогает определить наиболее эффективное лечение, уровень допустимого риска при лечении, предсказать возможные осложнения, а также планировать использование ресурсов медицинской системы. Кроме того, прогнозирование выживаемости пациентов помогает предупредить возможный летальный исход и скорректировать план лечения.
Создание систем поддержки принятия решений для медицинского персонала является актуальной задачей, а для корректной работы систем поддержки принятия решений необходимы качественные статистические модели [2]. Модель анализа выживаемости, базирующаяся на данных пациентов при поступлении, позволит в короткие сроки оценить тяжесть заболевания и принять экстренные меры при необходимости.
Более того за годы пандемии COVID-19 были накоплены большие объемы данных, работа над которыми даст возможность быстрого реагирования при дальнейших эпидемиях, которые возможны в связи с неопределенностью эпидемиологической обстановки в настоящее время.
В результате проделанной работы была проведена классификация биомедицинских временных рядов тремя подходами и спроектирована система прогнозирования выживаемости пациентов с коронавирусной инфекцией.
Предложен новый алгоритм двусторонней адаптивной оценки для перевода непрерывных данных в бинарные, который показал высокую эффективность. А также произведен перевод реальных анализируемых данных в бинарный вид при помощи данного алгоритма и построена прогностическая модель высокого качества на полученных данных.
Выявлены статистически значимые непрерывные показатели и построена классификационная модель с их применением, имеющая высокую точность прогноза на ранних стадиях развития заболевания.
Построена классификационная модель на данных реакции здорового организма человека на воспаление, моделируемая системой
дифференциальных уравнений на уровнях тромбоцитов и альбумина в крови пациента. Получено решение данной задачи и найдены коэффициенты, приближающие результат к фактическим данным.
Произведена оценка качества каждого подхода в зависимости от дня пребывания пациента в отделении реанимации и интенсивной терапии.
Произведено сравнение подходов классификации биомедицинских временных рядов для прогнозирования выживаемости пациентов методом бинарной классификации медицинских параметров на данных пациентов, поступивших в отделение реанимации и интенсивной терапии (ОРИТ) и выявлено, в каких ситуациях лучше использовать каждый из подходов.
1. Бычинин М. В., Антонов И. О., Клыпа Т В. Нозокомиальная инфекция у пациентов с тяжелым и крайне тяжелым течением COVID-19 // Общая реаниматология. 2022. Т 18. № 1. С. 4-10.
2. Гончарова А. Б., Виль М. Ю. Программное обеспечение для анализа медицинских данных // Современные методы прикладной математики, теории управления и компьютерных технологий (ПМТУКТ-2022). Воронеж. 2022. С. 13-15.
3. Weigend A. S. Time series prediction: forecasting the future and understanding thepast // Santa Fe Institute Studies in the Sciences of Complexity. 1994.
4. Межов, М. С. Модель машинного обучения для обнаружения COVID-19 на ранней стадии по аномалиям в ритме сердца // Advanced Engineering Research (Rostov-on-Don). 2023. Vol. 23. № 1. P. 66-75.
5. Human activity recognition using smart phone embedded sensors: A linear dynamicalsystems method // Neural Networks (IJCNN), 2014 International Joint Conference on / IEEE. 2014. P 1185-1190.
6. Медик, В. А., Токмачев, М. С. Математическая статистика в медицине / Финансы и статистика, 2007 — 800 c.
7. Hyndman R. J., Athanasopoulos G. Forecasting: principles and practice / Hyndman R. J., Athanasopoulos G. — 3. — Melbourne, Australia: OTexts, 2007 — 449 c.
8. Афанасьев, В. Н., Юзбашев, М. М. Анализ временных рядов и прогнозирование / В. Н. Афанасьев, М. М. Юзбашев. — Москва: Финансы и статистика, 2001 — 228 c.
9. Безручко, Б. П., Смирнов, Д. А. Реконструкция обыкновенных дифференциальных уравнений по временным рядам. / Б. П. Безручко, Д. А. Смирнов — 1. — Саратов: ГосУНЦ “Колледж”, 2000 — 46 c.
10.Зильбернагль С., Деспопулос А.; пер. с англ. Наглядная Физиология // М.: БИНОМ. Лаборатория знаний, 2013. - 408 с.
11. Zweig M.H., Campbell G.: A Fundamental Evaluation Tool in Clinical Medicine // Clinical Chemistry. 1993. Vol. 39. №. 4. P 561-577.
12. Davis J., Goadrich M. The Relationship Between Precision-Recall and ROC Curves // Proc. Of 23 International Conference on Machine Learning, Pittsburgh. 2006. - 8 с.
13. Легкова И. А., Хоменко И. Е. Применение логистической регрессии для анализа необходимости подключения больного коронавирусной инфекцией к аппарату ИВЛ // Процессы управления и устойчивость. 2023. T. 10. № 1. С. 207-210.
14. Клычева Ф.Г., Эшбоев Э.А., Равшанов Д.Г. Реализация прогнозирования сердечно-сосудистых заболеваний с использованием признаков и линейной регрессии // Universum. 2022. 8(101).
15. Ягудина Р И., Гаврилина Н. И. Использование метода Min—Max в оценке эффективности здравоохранения и лекарственного обеспечения населения // Ремедиум. 2022. № 2. Т 26, С. 139—142.
16. Аржаник А. А., Гончарова А. Б. Сравнение способов преобразования количественных данных в бинарные при предсказании рисков осложнения внебольничной пневмонии // Процессы управления и устойчивость. 2020. T. 7. № 1. С. 148-152.
17. Старовойтов В. В., Голуб Ю. И. Сравнительный анализ оценок качества бинарной классификации // Информатика. - 2020. - Т 17. № 1. - С. 87¬101.
18. Tayal K., Ravi V. Fuzzy association rule mining using binary particle swarm optimization: Application to cyber fraud analytics // 2015 IEEE International Conference on Computational Intelligence and Computing Research (ICCIC). 2015. P 1-5.
19. Zhang S., Yang J. Factors influencing TCM syndrome types of acute cerebral infarction: A binomial logistic regression analysis // Medicine. 2023. Vol. 102. № 46. P 36-80.
20. Красько О. Статистический анализ данных в медицинских исследованиях / Красько О. — 1. — Республика Беларусь, г. Минск: Международный государственный экологический университет имени А. Д. Сахарова, 2014 — 127 c.