Оптимизационные модели поддержки принятия врачебных решений с помощью машинного обучения
|
Введение 3
Глава 1. Современное состояние применения интеллектуального анализа данных в медицине 6
1.1 Роль больших данных в медицинской деятельности 6
1.2 Системы поддержки врачебных решений 7
1.3 Примеры применения машинного обучения в медицине 11
1.4 Заключение к главе 1 16
Глава 2. Интеллектуальный анализ данных и машинное обучение 18
2.1 Методы интеллектуального анализа данных 18
2.2 Алгоритмы машинного обучения 21
2.2.1 Дерево решений 21
2.2.2 Логистическая регрессия 24
2.2.3 Наивный Байес 26
2.3 Функционал программы Orange Data Mining 27
2.4 Заключение к главе 2 32
Глава 3. Исследование оптимизационных моделей поддержки принятия врачебных решений 33
3.1 Постановка задачи 33
3.2 Визуализация алгоритма дерево решений 38
3.3. Визуализация алгоритма логистической регрессии 44
3.4. Визуализация алгоритма наивный Байес 50
3.5. Прогнозы диагнозов моделей на основе данных о заболеваниях 57
3.6. Тестирование алгоритмов классификации 60
Основные результаты и выводы 65
Список литературы 67
Глава 1. Современное состояние применения интеллектуального анализа данных в медицине 6
1.1 Роль больших данных в медицинской деятельности 6
1.2 Системы поддержки врачебных решений 7
1.3 Примеры применения машинного обучения в медицине 11
1.4 Заключение к главе 1 16
Глава 2. Интеллектуальный анализ данных и машинное обучение 18
2.1 Методы интеллектуального анализа данных 18
2.2 Алгоритмы машинного обучения 21
2.2.1 Дерево решений 21
2.2.2 Логистическая регрессия 24
2.2.3 Наивный Байес 26
2.3 Функционал программы Orange Data Mining 27
2.4 Заключение к главе 2 32
Глава 3. Исследование оптимизационных моделей поддержки принятия врачебных решений 33
3.1 Постановка задачи 33
3.2 Визуализация алгоритма дерево решений 38
3.3. Визуализация алгоритма логистической регрессии 44
3.4. Визуализация алгоритма наивный Байес 50
3.5. Прогнозы диагнозов моделей на основе данных о заболеваниях 57
3.6. Тестирование алгоритмов классификации 60
Основные результаты и выводы 65
Список литературы 67
Актуальность проблемы. Современные объемы накопленных данных настолько внушительны, что человеку не по силам самостоятельно их анализировать. Необходимость выполнения такого анализа вполне очевидна, поскольку в необработанных данных заключены знания, которые могут быть востребованы при принятии решений, в том числе и врачебных. Для выполнения автоматического анализа данных, используется технология Data Mining. Структурированные и неструктурированные большие объемы данных называют большими данными (Big Data). Как известно, термин «большие данные» впервые ввёл редактор американского журнала Nature Клиффорд Линч в 2008 году в специальном выпуске на тему взрывного роста мировых объемов информации [10]. В действительности, большие данные - это не только размер данных с расширенными возможностями их обработки, это ещё и технологии анализа, визуализации прогнозирования результатов. В России термин «большие данные» вошел в употребление несколько позже. Для анализа больших данных используют разные способы обработки, обобщенные термином «анализ данных». Развитие методов анализа данных не обошло стороной и систему здравоохранения России.
В федеральном проекте «Создание единого цифрового контура в здравоохранении на основе единой государственной информационной системы здравоохранения (ЕГИСЗ)» утверждается необходимость комплексного внедрения медицинских информационных систем во всех медицинских организациях. Развитие данного направления включает в себя разработку систем поддержки принятия врачебных решений.
Сегодня в системе здравоохранения генерируются цифровые данные, которые поступают от разных источников, например, результаты лабораторных анализов, информационное взаимодействие между подразделениями организации и так далее. Большое количество цифровой медицинской информации позволяет совершенствовать здравоохранение. Широкое применение интеллектуальных систем и методов машинного обучения можно увидеть в примерах от предварительного анализа медицинских данных до постановки диагноза и этапов лечения [31].
Методы машинного обучения используются в здравоохранении [1,3,9]. Прогнозы алгоритмов машинного обучения для здравоохранения, проверяются врачом или поставщиком медицинских услуг и применяются при поддержке принятия врачебных решений [38]. Однако процесс тестирования модели и сравнения разных алгоритмов обучения часто остается понятным лишь для специалистов по анализу данных. Необходимо внедрение понятных медицинскому персоналу инструментов анализа данных.
Исходя из обозначенного круга вопросов анализа данных системы здравоохранения, возникла следующая цель: оценка возможности
применения алгоритмов машинного обучения для повышения эффективности принятия врачебных решений.
Для достижения поставленной цели были поставлены и решены следующие задачи:
1. Поиск способов визуализации работы алгоритмов диагностики.
2. Создание диагностической модели ансамбля алгоритмов машинного обучения на основе исходных данных.
3. Тестирование комплексной диагностической модели.
4. Определение основных факторов, влияющих на работу алгоритмов при выявлении заболеваний по симптомам.
Область исследования. Выпускная квалификационная работа выполнена в рамках освоения компетенций ОПК-2 (способен творчески использовать в профессиональной деятельности знания фундаментальных и прикладных разделов дисциплин (модулей), определяющих направленность магистратуры), и ОПК-6 (способен творчески применять и модифицировать современные компьютерные технологии, работать с профессиональными базами данных, профессионально оформлять и представлять результаты новых разработок) ФГОС ВО - Магистратура по направлению подготовки 06.04.01 Биология. В процессе написания выпускной квалификационной работы использовались труды отечественных и зарубежных исследователей в области моделирования медицинских процессов на основе методов математической статистики, искусственного интеллекта и машинного обучения.
Решение поставленных задач выполнено в программе Orange Data Mining. Она является программой визуального отображения данных, машинного обучения и интеллектуального анализа данных. В программе Orange Data Mining применяется визуальное программирование, представленное в виде предопределенных или разработанных пользователем блоков (виджетов). В результате математического анализа закономерностей в большом объеме данных, решаются задачи анализа данных.
В выпускной квалификационной работе выполнен анализ данных на примере симптоматических показателей по диагностике заболеваний для оценки возможности применения алгоритмов машинного обучения для повышения эффективности принятия врачебных решений.
Объектом исследования является открытая база данных, загруженная с платформы Kaggle. Исследуемая база данных состоит из двух CSV-файлов для обучения и тестирования модели.
Файл для обучения алгоритмов содержит 4920 случаев заболеваний, а файл для тестирования содержит 41 случай заболевания.
В федеральном проекте «Создание единого цифрового контура в здравоохранении на основе единой государственной информационной системы здравоохранения (ЕГИСЗ)» утверждается необходимость комплексного внедрения медицинских информационных систем во всех медицинских организациях. Развитие данного направления включает в себя разработку систем поддержки принятия врачебных решений.
Сегодня в системе здравоохранения генерируются цифровые данные, которые поступают от разных источников, например, результаты лабораторных анализов, информационное взаимодействие между подразделениями организации и так далее. Большое количество цифровой медицинской информации позволяет совершенствовать здравоохранение. Широкое применение интеллектуальных систем и методов машинного обучения можно увидеть в примерах от предварительного анализа медицинских данных до постановки диагноза и этапов лечения [31].
Методы машинного обучения используются в здравоохранении [1,3,9]. Прогнозы алгоритмов машинного обучения для здравоохранения, проверяются врачом или поставщиком медицинских услуг и применяются при поддержке принятия врачебных решений [38]. Однако процесс тестирования модели и сравнения разных алгоритмов обучения часто остается понятным лишь для специалистов по анализу данных. Необходимо внедрение понятных медицинскому персоналу инструментов анализа данных.
Исходя из обозначенного круга вопросов анализа данных системы здравоохранения, возникла следующая цель: оценка возможности
применения алгоритмов машинного обучения для повышения эффективности принятия врачебных решений.
Для достижения поставленной цели были поставлены и решены следующие задачи:
1. Поиск способов визуализации работы алгоритмов диагностики.
2. Создание диагностической модели ансамбля алгоритмов машинного обучения на основе исходных данных.
3. Тестирование комплексной диагностической модели.
4. Определение основных факторов, влияющих на работу алгоритмов при выявлении заболеваний по симптомам.
Область исследования. Выпускная квалификационная работа выполнена в рамках освоения компетенций ОПК-2 (способен творчески использовать в профессиональной деятельности знания фундаментальных и прикладных разделов дисциплин (модулей), определяющих направленность магистратуры), и ОПК-6 (способен творчески применять и модифицировать современные компьютерные технологии, работать с профессиональными базами данных, профессионально оформлять и представлять результаты новых разработок) ФГОС ВО - Магистратура по направлению подготовки 06.04.01 Биология. В процессе написания выпускной квалификационной работы использовались труды отечественных и зарубежных исследователей в области моделирования медицинских процессов на основе методов математической статистики, искусственного интеллекта и машинного обучения.
Решение поставленных задач выполнено в программе Orange Data Mining. Она является программой визуального отображения данных, машинного обучения и интеллектуального анализа данных. В программе Orange Data Mining применяется визуальное программирование, представленное в виде предопределенных или разработанных пользователем блоков (виджетов). В результате математического анализа закономерностей в большом объеме данных, решаются задачи анализа данных.
В выпускной квалификационной работе выполнен анализ данных на примере симптоматических показателей по диагностике заболеваний для оценки возможности применения алгоритмов машинного обучения для повышения эффективности принятия врачебных решений.
Объектом исследования является открытая база данных, загруженная с платформы Kaggle. Исследуемая база данных состоит из двух CSV-файлов для обучения и тестирования модели.
Файл для обучения алгоритмов содержит 4920 случаев заболеваний, а файл для тестирования содержит 41 случай заболевания.
В данной работе автором проанализирован ряд алгоритмов, позволяющих поддерживать принятие врачебных решений с большим количеством атрибутов, которые определяют принадлежность к определенной метке класса. Исследование принадлежности атрибутов к определенному заболеванию позволяет сделать следующие выводы:
а) Алгоритм дерева решений может проводить классификацию заболеваний по разным симптомам, но учитывает при классификации не все имеющиеся в конкретном случае симптомы. В некоторых случаях алгоритм дерева решений классифицирует заболевание не по наличию симптомов, а их отсутствию, поскольку это обеспечивает минимальное значение энтропии.
б) Алгоритм логистической регрессии при визуализации дает представление о влиянии каждого симптома заболевания на его классификацию.
в) Результаты применения алгоритма наивного Байеса являются содержательно интерпретируемыми и обоснованными.
г) Совокупность алгоритмов поддержки принятия решений способна повысить эффективность решения инновационных задач при обработке медицинской информации.
Созданная диагностическая модель ансамбля алгоритмов машинного обучения на тестовых данных показала, что все исследуемые алгоритмы дали правильное прогнозирование диагнозов заболевания.
Тестирование комплексной диагностической модели показало, что точность классификации алгоритма дерево решений составил 0,989, но точность классификации алгоритмов логистической регрессии и наивного Байеса составила 1,000.
По времени обучения алгоритм наивный Байес показывает лучший результат - 0,70 секунды. Время обучения алгоритма Дерево решений около 18 секунд, а алгоритма логистической регрессии около 66 секунд.
По времени тестирования лучший результат у алгоритма Дерево решений - 0,005 секунды. Время тестирования алгоритма наивный Байес 0,224 секунды, а алгоритма логистическая регрессия - 1,855 секунды.
В этом исследовании были сделаны прогнозы диагнозов заболеваний по симптомам.
В ходе исследования было проведено сравнение между различными алгоритмами, которые могли бы быть использованы в системах поддержки принятия врачебных решений.
Из полученных результатов видно, что алгоритм наивный Байес генерирует наилучший результат среди исследуемых алгоритмов.
а) Алгоритм дерева решений может проводить классификацию заболеваний по разным симптомам, но учитывает при классификации не все имеющиеся в конкретном случае симптомы. В некоторых случаях алгоритм дерева решений классифицирует заболевание не по наличию симптомов, а их отсутствию, поскольку это обеспечивает минимальное значение энтропии.
б) Алгоритм логистической регрессии при визуализации дает представление о влиянии каждого симптома заболевания на его классификацию.
в) Результаты применения алгоритма наивного Байеса являются содержательно интерпретируемыми и обоснованными.
г) Совокупность алгоритмов поддержки принятия решений способна повысить эффективность решения инновационных задач при обработке медицинской информации.
Созданная диагностическая модель ансамбля алгоритмов машинного обучения на тестовых данных показала, что все исследуемые алгоритмы дали правильное прогнозирование диагнозов заболевания.
Тестирование комплексной диагностической модели показало, что точность классификации алгоритма дерево решений составил 0,989, но точность классификации алгоритмов логистической регрессии и наивного Байеса составила 1,000.
По времени обучения алгоритм наивный Байес показывает лучший результат - 0,70 секунды. Время обучения алгоритма Дерево решений около 18 секунд, а алгоритма логистической регрессии около 66 секунд.
По времени тестирования лучший результат у алгоритма Дерево решений - 0,005 секунды. Время тестирования алгоритма наивный Байес 0,224 секунды, а алгоритма логистическая регрессия - 1,855 секунды.
В этом исследовании были сделаны прогнозы диагнозов заболеваний по симптомам.
В ходе исследования было проведено сравнение между различными алгоритмами, которые могли бы быть использованы в системах поддержки принятия врачебных решений.
Из полученных результатов видно, что алгоритм наивный Байес генерирует наилучший результат среди исследуемых алгоритмов.





