Введение 3
Глава 1. Современное состояние применения интеллектуального анализа данных в медицине 6
1.1 Роль больших данных в медицинской деятельности 6
1.2 Системы поддержки врачебных решений 7
1.3 Примеры применения машинного обучения в медицине 11
1.4 Заключение к главе 1 16
Глава 2. Интеллектуальный анализ данных и машинное обучение 18
2.1 Методы интеллектуального анализа данных 18
2.2 Алгоритмы машинного обучения 21
2.2.1 Дерево решений 21
2.2.2 Логистическая регрессия 24
2.2.3 Наивный Байес 26
2.3 Функционал программы Orange Data Mining 27
2.4 Заключение к главе 2 32
Глава 3. Исследование оптимизационных моделей поддержки принятия врачебных решений 33
3.1 Постановка задачи 33
3.2 Визуализация алгоритма дерево решений 38
3.3. Визуализация алгоритма логистической регрессии 44
3.4. Визуализация алгоритма наивный Байес 50
3.5. Прогнозы диагнозов моделей на основе данных о заболеваниях 57
3.6. Тестирование алгоритмов классификации 60
Основные результаты и выводы 65
Список литературы 67
Актуальность проблемы. Современные объемы накопленных данных настолько внушительны, что человеку не по силам самостоятельно их анализировать. Необходимость выполнения такого анализа вполне очевидна, поскольку в необработанных данных заключены знания, которые могут быть востребованы при принятии решений, в том числе и врачебных. Для выполнения автоматического анализа данных, используется технология Data Mining. Структурированные и неструктурированные большие объемы данных называют большими данными (Big Data). Как известно, термин «большие данные» впервые ввёл редактор американского журнала Nature Клиффорд Линч в 2008 году в специальном выпуске на тему взрывного роста мировых объемов информации [10]. В действительности, большие данные - это не только размер данных с расширенными возможностями их обработки, это ещё и технологии анализа, визуализации прогнозирования результатов. В России термин «большие данные» вошел в употребление несколько позже. Для анализа больших данных используют разные способы обработки, обобщенные термином «анализ данных». Развитие методов анализа данных не обошло стороной и систему здравоохранения России.
В федеральном проекте «Создание единого цифрового контура в здравоохранении на основе единой государственной информационной системы здравоохранения (ЕГИСЗ)» утверждается необходимость комплексного внедрения медицинских информационных систем во всех медицинских организациях. Развитие данного направления включает в себя разработку систем поддержки принятия врачебных решений.
Сегодня в системе здравоохранения генерируются цифровые данные, которые поступают от разных источников, например, результаты лабораторных анализов, информационное взаимодействие между подразделениями организации и так далее. Большое количество цифровой медицинской информации позволяет совершенствовать здравоохранение. Широкое применение интеллектуальных систем и методов машинного обучения можно увидеть в примерах от предварительного анализа медицинских данных до постановки диагноза и этапов лечения [31].
Методы машинного обучения используются в здравоохранении [1,3,9]. Прогнозы алгоритмов машинного обучения для здравоохранения, проверяются врачом или поставщиком медицинских услуг и применяются при поддержке принятия врачебных решений [38]. Однако процесс тестирования модели и сравнения разных алгоритмов обучения часто остается понятным лишь для специалистов по анализу данных. Необходимо внедрение понятных медицинскому персоналу инструментов анализа данных.
Исходя из обозначенного круга вопросов анализа данных системы здравоохранения, возникла следующая цель: оценка возможности
применения алгоритмов машинного обучения для повышения эффективности принятия врачебных решений.
Для достижения поставленной цели были поставлены и решены следующие задачи:
1. Поиск способов визуализации работы алгоритмов диагностики.
2. Создание диагностической модели ансамбля алгоритмов машинного обучения на основе исходных данных.
3. Тестирование комплексной диагностической модели.
4. Определение основных факторов, влияющих на работу алгоритмов при выявлении заболеваний по симптомам.
Область исследования. Выпускная квалификационная работа выполнена в рамках освоения компетенций ОПК-2 (способен творчески использовать в профессиональной деятельности знания фундаментальных и прикладных разделов дисциплин (модулей), определяющих направленность магистратуры), и ОПК-6 (способен творчески применять и модифицировать современные компьютерные технологии, работать с профессиональными базами данных, профессионально оформлять и представлять результаты новых разработок) ФГОС ВО - Магистратура по направлению подготовки 06.04.01 Биология. В процессе написания выпускной квалификационной работы использовались труды отечественных и зарубежных исследователей в области моделирования медицинских процессов на основе методов математической статистики, искусственного интеллекта и машинного обучения.
Решение поставленных задач выполнено в программе Orange Data Mining. Она является программой визуального отображения данных, машинного обучения и интеллектуального анализа данных. В программе Orange Data Mining применяется визуальное программирование, представленное в виде предопределенных или разработанных пользователем блоков (виджетов). В результате математического анализа закономерностей в большом объеме данных, решаются задачи анализа данных.
В выпускной квалификационной работе выполнен анализ данных на примере симптоматических показателей по диагностике заболеваний для оценки возможности применения алгоритмов машинного обучения для повышения эффективности принятия врачебных решений.
Объектом исследования является открытая база данных, загруженная с платформы Kaggle. Исследуемая база данных состоит из двух CSV-файлов для обучения и тестирования модели.
Файл для обучения алгоритмов содержит 4920 случаев заболеваний, а файл для тестирования содержит 41 случай заболевания.
В данной работе автором проанализирован ряд алгоритмов, позволяющих поддерживать принятие врачебных решений с большим количеством атрибутов, которые определяют принадлежность к определенной метке класса. Исследование принадлежности атрибутов к определенному заболеванию позволяет сделать следующие выводы:
а) Алгоритм дерева решений может проводить классификацию заболеваний по разным симптомам, но учитывает при классификации не все имеющиеся в конкретном случае симптомы. В некоторых случаях алгоритм дерева решений классифицирует заболевание не по наличию симптомов, а их отсутствию, поскольку это обеспечивает минимальное значение энтропии.
б) Алгоритм логистической регрессии при визуализации дает представление о влиянии каждого симптома заболевания на его классификацию.
в) Результаты применения алгоритма наивного Байеса являются содержательно интерпретируемыми и обоснованными.
г) Совокупность алгоритмов поддержки принятия решений способна повысить эффективность решения инновационных задач при обработке медицинской информации.
Созданная диагностическая модель ансамбля алгоритмов машинного обучения на тестовых данных показала, что все исследуемые алгоритмы дали правильное прогнозирование диагнозов заболевания.
Тестирование комплексной диагностической модели показало, что точность классификации алгоритма дерево решений составил 0,989, но точность классификации алгоритмов логистической регрессии и наивного Байеса составила 1,000.
По времени обучения алгоритм наивный Байес показывает лучший результат - 0,70 секунды. Время обучения алгоритма Дерево решений около 18 секунд, а алгоритма логистической регрессии около 66 секунд.
По времени тестирования лучший результат у алгоритма Дерево решений - 0,005 секунды. Время тестирования алгоритма наивный Байес 0,224 секунды, а алгоритма логистическая регрессия - 1,855 секунды.
В этом исследовании были сделаны прогнозы диагнозов заболеваний по симптомам.
В ходе исследования было проведено сравнение между различными алгоритмами, которые могли бы быть использованы в системах поддержки принятия врачебных решений.
Из полученных результатов видно, что алгоритм наивный Байес генерирует наилучший результат среди исследуемых алгоритмов.
1. A correlation-based feature analysis of physical examination indicators can help predict the overall underlying health status using machine learning / H. Wang, P. Shuai, Y. Deng [et al.] // Sci. Rep. - 2022. - Vol. 12, №1. - DOI: 10.1038/s41598- 022-20474-3.
2. A data-driven approach to predicting diabetes and cardiovascular disease with machine learning. / A. Dinh, S. Miertschin, A. Young, S. D. Mohanty // BMC Med. Inform. Decis. Mak. - 2019. - Vol.19, №211. -DOI: 10.1186/s12911-019- 0918-5.
3. A machine learning framework supporting prospective clinical decisions applied to risk prediction in oncology / L. Coombs, A. Orlando, X. Wang [et al.] // npj Digital Medicine. - 2022. - Vol.117, №2022. - DOI:10.1038/s41746-022-00660-3.
4. A machine learning-based framework to identify type 2 diabetes through electronic health records. / T. Zheng, W. Xie, L. Xu [et al.] // Int. J. Med. Inform. - 2017. - Vol.97. - P.120-127. - DOI: 10.1016/j.ijmedinf.2016.09.014.
5. Araujo, F. H. D. Using machine learning to support healthcare professionals in making preauthorisation decisions. / F. H. D. Araujo, A. M. Santana, P. de A. Santos Neto // Int. J. Med. Inform. - 2016. - Vol.94. - P.1-7. - DOI: 10.1016/j.ijmedinf.2016.06.007.
6. Artificial intelligence applications in type 2 diabetes mellitus care: focus on machine learning methods / S. Abhari, S. R. N. Kalhori, M. Ebrahimi, [et al.] // Healthc. Inform. Res. - 2019. - Vol.25, №4. - P.248-261. - DOI 10.4258/hir.2019.25.4.248.
7. Beam, A. L. Big Data and machine learning in health care / A. L. Beam, I. S. Kohane // JAMA. - 2018. - Vol.319, №13. - P.1317-1318. - DOI:10.1001/jama.2017.18391.
8. Building risk prediction models for type 2 diabetes using machine learning techniques / Z. Xie, O. Nikolayeva, J. Luo, D. Li // Preventing Chronic Disease. - 2019. - Vol.16. - DOI: 10.5888/pcd16.190109.
9. Chen, A. Simulation of a machine learning enabled learning health system for risk prediction using synthetic patient data / A. Chen, D. O. Chen // Sci. Rep. - 2022. - Vol.12, №1. - DOI: 10.1038/s41598-022-23011-4.
10. Clifford Lynch. How do your data grow? / C. Lynch // Nature. - 2008. - Vol.455, №7209. - P.28-29.
11. Clinical decision support systems for the practice of evidence-based medicine / I Sim, P Gorman, R A Greenes [et al.] // J. Am. Med. Inform. Assoc. - 2001. - Vol.8, №6. - P.527-534. - DOI:10.1136/jamia.2001.0080527.
12. Combining elemental analysis of toenails and machine learning techniques as a non-invasive diagnostic tool for the robust classification of type-2 diabetes / J. A. Carter, C. S. Long, B. P. Smith [et al.] //Expert Systems with Applications. - 2019. - Vol.115. - P.245-255 - DOI: 10.1016/j.eswa.2018.08.002.
13. Comparative assessment of statistical and machine learning techniques towards estimating the risk of developing type 2 diabetes and cardiovascular complications. / K. Dalakleidi, K. Zarkogianni, A. Thanopoulou, K. Nikita // Expert Systems. - 2017. - Vol.34, №6. - DOI:10.1111/exsy.12214.
14. Detection of type-2 diabetes using characteristics of toe photoplethysmogram by applying support vector machine/ N. Nirala, R. Periyasamy, B. K. Singh, A. Kumar // Biocybernetics and Biomedical Engineering. - 2019. - Vol.39, №1 - P.38-51 - DOI:10.1016/j.bbe.2018.09.007.
15. Diagnostic method of diabetes based on support vector machine and tongue images / J. Zhang, J. Xu, X. Hu [et al.] // Biomed. Res. Int. - 2017. - Vol.2017, №7961494 - DOI: 10.1155/2017/7961494... 52