Программное обеспечение и модели анализа предикторов пациентов с заболеваниями, передаваемыми клещами
|
Введение 15
1 Обзор литературы 17
2 Объект и методы исследования 20
2.1 Объект исследования 20
2.2 Методы исследования 21
2.2.1 Методы предварительной обработки данных 21
2.2.1.1 Методы обнаружения и устранения выбросов 22
2.2.1.2 Методы работы с пропущенными значениями 25
2.2.1.3 Методы преобразования данных 26
2.2.1.3.1 Методы работы с категориальными признаками 28
2.2.1.3.2 Методы масштабирования данных 29
2.2.2 Методы машинного обучения 30
2.2.2.1 Метод дерева решений 31
2.2.2.2 Метод логистической регрессии 34
2.2.2.3 Метод случайного леса 36
2.2.2.4 Метод градиентного бустинга 37
2.2.3 Методы оценки качества и интерпретации работы моделей 39
2.2.3.1 Матрица ошибок и простые оценки 39
2.2.3.2 Важность и степень влияния признаков 42
3 Расчеты и аналитика 46
3.1 Выбор программного обеспечения и инструментов разработки 47
3.2 Загрузка, предварительный анализ и предобработка данных 49
3.3 Деление данных на обучающую и тестовую выборки 53
3.4 Построение классификаторов 53
3.4.1 Выбор моделей классификации и поиск оптимальных гиперпараметров . 53
3.4.2 Построение классификаторов с оптимальными гиперпараметрами 55
4 Результаты 57
4.1 Классификация диагнозов пациентов с клещевыми инфекциями 57
4.2 Важности признаков 59
4.3 Разработка дашборда 61
5 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение 69
5.1 Предпроектный анализ 70
5.1.1 Технология «QuaD» 70
5.1.2 Диаграмма Исикавы 71
5.1.3 SWOT-анализ 73
5.2 Инициация научно-исследовательского проекта 74
5.2.1 Цели и результаты научно-исследовательского проекта 74
5.2.2 Организационная структура научно -исследовательского проекта 76
5.2.3 Ограничения и допущения проекта 76
5.3 Планирование управления научно-исследовательским проектом 77
5.3.1 План научно-исследовательского проекта 77
5.3.2 Бюджет научно-исследовательского проекта 78
5.3.2.1 Расчет материальных затрат 79
5.3.2.2 Расчет затрат на электроэнергию 79
5.3.2.3 Заработная плата исполнителей 80
5.3.2.4 Отчисления во внебюджетные фонды (страховые отчисления) 82
5.3.2.5 Накладные расходы 82
5.3.2.6 Формирование бюджета затрат научно-исследовательского проекта 82
5.3.3 Риски научно-исследовательского проекта 83
5.3.4 Описание потенциального эффекта 84
6 Социальная ответственность 85
6.1 Правовые и организационные вопросы обеспечения безопасности 86
6.1.1 Специальные правовые нормы трудового законодательства 86
6.1.2 Эргономические требования к рабочему месту оператора ПЭВМ 86
6.2 Производственная безопасность 88
6.2.1 Анализ вредных и опасных факторов, которые может создать объект исследования 88
6.2.2 Производственные факторы, связанные с аномальными
микроклиматическими параметрами воздушной среды на местонахождении работающего 89
6.2.3 Производственные факторы, связанные с отсутствием или недостатком
необходимого естественного освещения 91
6.2.4 Производственные факторы, обладающие свойствами
психофизиологического воздействия на организм человека 95
6.2.5 Производственные факторы, связанные с электрическим током, вызываемым разницей электрических потенциалов, под действие которого попадает работающий 96
6.2.6 Производственные факторы, связанные с электромагнитными полями, неионизирующими ткани тела человека 97
6.3 Экологическая безопасность 97
6.4 Безопасность в чрезвычайных ситуациях 99
Заключение 103
Список использованных источников и литературы 105
Приложение А (справочное) 111
Приложение Б - Признаки исходного набора данных 126
1 Обзор литературы 17
2 Объект и методы исследования 20
2.1 Объект исследования 20
2.2 Методы исследования 21
2.2.1 Методы предварительной обработки данных 21
2.2.1.1 Методы обнаружения и устранения выбросов 22
2.2.1.2 Методы работы с пропущенными значениями 25
2.2.1.3 Методы преобразования данных 26
2.2.1.3.1 Методы работы с категориальными признаками 28
2.2.1.3.2 Методы масштабирования данных 29
2.2.2 Методы машинного обучения 30
2.2.2.1 Метод дерева решений 31
2.2.2.2 Метод логистической регрессии 34
2.2.2.3 Метод случайного леса 36
2.2.2.4 Метод градиентного бустинга 37
2.2.3 Методы оценки качества и интерпретации работы моделей 39
2.2.3.1 Матрица ошибок и простые оценки 39
2.2.3.2 Важность и степень влияния признаков 42
3 Расчеты и аналитика 46
3.1 Выбор программного обеспечения и инструментов разработки 47
3.2 Загрузка, предварительный анализ и предобработка данных 49
3.3 Деление данных на обучающую и тестовую выборки 53
3.4 Построение классификаторов 53
3.4.1 Выбор моделей классификации и поиск оптимальных гиперпараметров . 53
3.4.2 Построение классификаторов с оптимальными гиперпараметрами 55
4 Результаты 57
4.1 Классификация диагнозов пациентов с клещевыми инфекциями 57
4.2 Важности признаков 59
4.3 Разработка дашборда 61
5 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение 69
5.1 Предпроектный анализ 70
5.1.1 Технология «QuaD» 70
5.1.2 Диаграмма Исикавы 71
5.1.3 SWOT-анализ 73
5.2 Инициация научно-исследовательского проекта 74
5.2.1 Цели и результаты научно-исследовательского проекта 74
5.2.2 Организационная структура научно -исследовательского проекта 76
5.2.3 Ограничения и допущения проекта 76
5.3 Планирование управления научно-исследовательским проектом 77
5.3.1 План научно-исследовательского проекта 77
5.3.2 Бюджет научно-исследовательского проекта 78
5.3.2.1 Расчет материальных затрат 79
5.3.2.2 Расчет затрат на электроэнергию 79
5.3.2.3 Заработная плата исполнителей 80
5.3.2.4 Отчисления во внебюджетные фонды (страховые отчисления) 82
5.3.2.5 Накладные расходы 82
5.3.2.6 Формирование бюджета затрат научно-исследовательского проекта 82
5.3.3 Риски научно-исследовательского проекта 83
5.3.4 Описание потенциального эффекта 84
6 Социальная ответственность 85
6.1 Правовые и организационные вопросы обеспечения безопасности 86
6.1.1 Специальные правовые нормы трудового законодательства 86
6.1.2 Эргономические требования к рабочему месту оператора ПЭВМ 86
6.2 Производственная безопасность 88
6.2.1 Анализ вредных и опасных факторов, которые может создать объект исследования 88
6.2.2 Производственные факторы, связанные с аномальными
микроклиматическими параметрами воздушной среды на местонахождении работающего 89
6.2.3 Производственные факторы, связанные с отсутствием или недостатком
необходимого естественного освещения 91
6.2.4 Производственные факторы, обладающие свойствами
психофизиологического воздействия на организм человека 95
6.2.5 Производственные факторы, связанные с электрическим током, вызываемым разницей электрических потенциалов, под действие которого попадает работающий 96
6.2.6 Производственные факторы, связанные с электромагнитными полями, неионизирующими ткани тела человека 97
6.3 Экологическая безопасность 97
6.4 Безопасность в чрезвычайных ситуациях 99
Заключение 103
Список использованных источников и литературы 105
Приложение А (справочное) 111
Приложение Б - Признаки исходного набора данных 126
В настоящее время в медицинских учреждениях активно внедряются и применяются различные медицинские информационные системы (МИС), данные системы служат в качестве инструментов для сбора и хранения данных. Однако уровень развития информационных технологий позволяет не ограничиваться данным функционалом. Массивы данных могут быть использованы для поиска скрытых закономерностей с помощью алгоритмов машинного и глубокого обучения.
МИС позволяют получать отчеты по введенным данным, однако, помимо важной для анализа информации выгружаются и персональные данные пациентов, такие отчеты не могут быть использованы для проведения анализа. Интеграцию с МИС реализовать достаточно сложно, поэтому целесообразней разработать отдельное программное обеспечение, которое позволит вносить данные, на основе которых будет производиться обучение моделей машинного обучения для дальнейшего использования их в качестве инструмента для оказания помощи специалисту в постановке диагноза, а также для визуального анализа собранных данных, чтобы наглядно оценивать, сравнивать между собой отдельные случаи [1], получать некоторые статистические сведения, чтобы иметь общее представление о наборе данных.
Так как в настоящее время наиболее популярными являются кроссплатформенные программные продукты, не требующие предварительной установки, оптимальным решением будет создать веб - интерфейс [2].
Отделением инфекционных заболеваний Сибирского государственного медицинского университета были предоставлены деперсонализированные данные пациентов с инфекциями, передаваемыми клещами в виде электронной таблицы. Таблица состоит из 9 листов, в которых представлены сведения о пациентах и проводимых исследованиях.
Целью работы является повышение эффективности работы врача инфекциониста при анализе данных пациентов с клещевыми инфекциями путем разработки программного обеспечения и моделей анализа предикторов пациентов с заболеваниями, передаваемыми клещами.
В рамках данной работы проводится подготовка табличных данных пациентов с инфекциями, передаваемыми клещами, к анализу. Также предложен подход классификации диагнозов пациентов с клещевыми инфекциями, разработан интерактивный веб-интерфейс.
Объектом исследования являются данные пациентов, страдающих инфекционными заболеваниями, передаваемыми иксодовыми клещами. Предметом исследования является процесс разработки программного обеспечения и моделей анализа предикторов пациентов с заболеваниями, передаваемыми клещами.
Методы исследования - поиск литературы и источников, анализ информационных материалов, сравнение, консультация со специалистами, методы машинного обучения, методы визуализации.
В работе использованы различные методические материалы и интернет-ресурсы. Работа будет реализована на языке программирования Python, веб-фреймворке Dash.
МИС позволяют получать отчеты по введенным данным, однако, помимо важной для анализа информации выгружаются и персональные данные пациентов, такие отчеты не могут быть использованы для проведения анализа. Интеграцию с МИС реализовать достаточно сложно, поэтому целесообразней разработать отдельное программное обеспечение, которое позволит вносить данные, на основе которых будет производиться обучение моделей машинного обучения для дальнейшего использования их в качестве инструмента для оказания помощи специалисту в постановке диагноза, а также для визуального анализа собранных данных, чтобы наглядно оценивать, сравнивать между собой отдельные случаи [1], получать некоторые статистические сведения, чтобы иметь общее представление о наборе данных.
Так как в настоящее время наиболее популярными являются кроссплатформенные программные продукты, не требующие предварительной установки, оптимальным решением будет создать веб - интерфейс [2].
Отделением инфекционных заболеваний Сибирского государственного медицинского университета были предоставлены деперсонализированные данные пациентов с инфекциями, передаваемыми клещами в виде электронной таблицы. Таблица состоит из 9 листов, в которых представлены сведения о пациентах и проводимых исследованиях.
Целью работы является повышение эффективности работы врача инфекциониста при анализе данных пациентов с клещевыми инфекциями путем разработки программного обеспечения и моделей анализа предикторов пациентов с заболеваниями, передаваемыми клещами.
В рамках данной работы проводится подготовка табличных данных пациентов с инфекциями, передаваемыми клещами, к анализу. Также предложен подход классификации диагнозов пациентов с клещевыми инфекциями, разработан интерактивный веб-интерфейс.
Объектом исследования являются данные пациентов, страдающих инфекционными заболеваниями, передаваемыми иксодовыми клещами. Предметом исследования является процесс разработки программного обеспечения и моделей анализа предикторов пациентов с заболеваниями, передаваемыми клещами.
Методы исследования - поиск литературы и источников, анализ информационных материалов, сравнение, консультация со специалистами, методы машинного обучения, методы визуализации.
В работе использованы различные методические материалы и интернет-ресурсы. Работа будет реализована на языке программирования Python, веб-фреймворке Dash.
На протяжении выполнения данной работы поставленные задачи были выполнены. А именно, была проведена подготовка табличных данных пациентов с инфекциями, передаваемыми клещами, к анализу, а также построены классификаторы диагнозов пациентов с клещевыми инфекциями, разработан интерактивный веб-интерфейс.
Предварительно загруженные данные были проверены на наличие пропущенных значений и выбросов. Признаки и записи, содержащие пропущенные значения, которые невозможно было восстановить исключены из дальнейшего анализа. Пропущенные значения в бинарных категориальных признаках были заполнены нулями, что соответствует отсутствию у пациента того или иного признака, пропуски в числовых признаках анализов крови рассчитаны на основе лейкоцитарной формулы. Текстовые категориальные признаки были закодированы методом прямого кодирования.
Набор данных был разделен на тренировочное и тестовое подмножества. Было построено несколько моделей для определения диагноза пациентов с клещевыми инфекциями. Для выбранных моделей был проведен подбор оптимальных параметров. После чего проведена оценка качества работы моделей классификации с помощью метрик качества и ROC-кривых. Чувствительность дерева решений, логистической регрессии, случайного леса и градиентного бустинга составила 0,67, 0,75, 0,81 и 0,77, соответственно. Значения же специфичности для данных алгоритмов, соответственно, 0,7, 0,77, 0,79 и 0,78. Таким образом, наилучший результат показала модель случайного леса. Что касается значений площадей под ROC- кривыми, то наилучшие результаты по трем классам, а именно, клещевому энцефалиту, иксодовому клещевому боррелиозу и микст-инфекции, показали градиентный бустинг и дерево решений. При классификации диагнозов пациентов с помощью логистической регрессии и случайного леса, микст - инфекция определяется слабее, чем два других диагноза.
На основе проведенного анализа данных был интерактивный веб-интерфейс, позволяющий изучить структуры набора данных и результаты анализа.
Также разработаны следующие разделы: «Финансовый менеджмент, ресурсоэффективность и ресурсосбережение», «Социальная ответственность», а также раздел на иностранном языке (английский) - «Data Preprocessing Methods», приведенный в Приложении А.
Предварительно загруженные данные были проверены на наличие пропущенных значений и выбросов. Признаки и записи, содержащие пропущенные значения, которые невозможно было восстановить исключены из дальнейшего анализа. Пропущенные значения в бинарных категориальных признаках были заполнены нулями, что соответствует отсутствию у пациента того или иного признака, пропуски в числовых признаках анализов крови рассчитаны на основе лейкоцитарной формулы. Текстовые категориальные признаки были закодированы методом прямого кодирования.
Набор данных был разделен на тренировочное и тестовое подмножества. Было построено несколько моделей для определения диагноза пациентов с клещевыми инфекциями. Для выбранных моделей был проведен подбор оптимальных параметров. После чего проведена оценка качества работы моделей классификации с помощью метрик качества и ROC-кривых. Чувствительность дерева решений, логистической регрессии, случайного леса и градиентного бустинга составила 0,67, 0,75, 0,81 и 0,77, соответственно. Значения же специфичности для данных алгоритмов, соответственно, 0,7, 0,77, 0,79 и 0,78. Таким образом, наилучший результат показала модель случайного леса. Что касается значений площадей под ROC- кривыми, то наилучшие результаты по трем классам, а именно, клещевому энцефалиту, иксодовому клещевому боррелиозу и микст-инфекции, показали градиентный бустинг и дерево решений. При классификации диагнозов пациентов с помощью логистической регрессии и случайного леса, микст - инфекция определяется слабее, чем два других диагноза.
На основе проведенного анализа данных был интерактивный веб-интерфейс, позволяющий изучить структуры набора данных и результаты анализа.
Также разработаны следующие разделы: «Финансовый менеджмент, ресурсоэффективность и ресурсосбережение», «Социальная ответственность», а также раздел на иностранном языке (английский) - «Data Preprocessing Methods», приведенный в Приложении А.



