Тема: Программное обеспечение и модели анализа предикторов пациентов с заболеваниями, передаваемыми клещами
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Обзор литературы 17
2 Объект и методы исследования 20
2.1 Объект исследования 20
2.2 Методы исследования 21
2.2.1 Методы предварительной обработки данных 21
2.2.1.1 Методы обнаружения и устранения выбросов 22
2.2.1.2 Методы работы с пропущенными значениями 25
2.2.1.3 Методы преобразования данных 26
2.2.1.3.1 Методы работы с категориальными признаками 28
2.2.1.3.2 Методы масштабирования данных 29
2.2.2 Методы машинного обучения 30
2.2.2.1 Метод дерева решений 31
2.2.2.2 Метод логистической регрессии 34
2.2.2.3 Метод случайного леса 36
2.2.2.4 Метод градиентного бустинга 37
2.2.3 Методы оценки качества и интерпретации работы моделей 39
2.2.3.1 Матрица ошибок и простые оценки 39
2.2.3.2 Важность и степень влияния признаков 42
3 Расчеты и аналитика 46
3.1 Выбор программного обеспечения и инструментов разработки 47
3.2 Загрузка, предварительный анализ и предобработка данных 49
3.3 Деление данных на обучающую и тестовую выборки 53
3.4 Построение классификаторов 53
3.4.1 Выбор моделей классификации и поиск оптимальных гиперпараметров . 53
3.4.2 Построение классификаторов с оптимальными гиперпараметрами 55
4 Результаты 57
4.1 Классификация диагнозов пациентов с клещевыми инфекциями 57
4.2 Важности признаков 59
4.3 Разработка дашборда 61
5 Финансовый менеджмент, ресурсоэффективность и ресурсосбережение 69
5.1 Предпроектный анализ 70
5.1.1 Технология «QuaD» 70
5.1.2 Диаграмма Исикавы 71
5.1.3 SWOT-анализ 73
5.2 Инициация научно-исследовательского проекта 74
5.2.1 Цели и результаты научно-исследовательского проекта 74
5.2.2 Организационная структура научно -исследовательского проекта 76
5.2.3 Ограничения и допущения проекта 76
5.3 Планирование управления научно-исследовательским проектом 77
5.3.1 План научно-исследовательского проекта 77
5.3.2 Бюджет научно-исследовательского проекта 78
5.3.2.1 Расчет материальных затрат 79
5.3.2.2 Расчет затрат на электроэнергию 79
5.3.2.3 Заработная плата исполнителей 80
5.3.2.4 Отчисления во внебюджетные фонды (страховые отчисления) 82
5.3.2.5 Накладные расходы 82
5.3.2.6 Формирование бюджета затрат научно-исследовательского проекта 82
5.3.3 Риски научно-исследовательского проекта 83
5.3.4 Описание потенциального эффекта 84
6 Социальная ответственность 85
6.1 Правовые и организационные вопросы обеспечения безопасности 86
6.1.1 Специальные правовые нормы трудового законодательства 86
6.1.2 Эргономические требования к рабочему месту оператора ПЭВМ 86
6.2 Производственная безопасность 88
6.2.1 Анализ вредных и опасных факторов, которые может создать объект исследования 88
6.2.2 Производственные факторы, связанные с аномальными
микроклиматическими параметрами воздушной среды на местонахождении работающего 89
6.2.3 Производственные факторы, связанные с отсутствием или недостатком
необходимого естественного освещения 91
6.2.4 Производственные факторы, обладающие свойствами
психофизиологического воздействия на организм человека 95
6.2.5 Производственные факторы, связанные с электрическим током, вызываемым разницей электрических потенциалов, под действие которого попадает работающий 96
6.2.6 Производственные факторы, связанные с электромагнитными полями, неионизирующими ткани тела человека 97
6.3 Экологическая безопасность 97
6.4 Безопасность в чрезвычайных ситуациях 99
Заключение 103
Список использованных источников и литературы 105
Приложение А (справочное) 111
Приложение Б - Признаки исходного набора данных 126
📖 Введение
МИС позволяют получать отчеты по введенным данным, однако, помимо важной для анализа информации выгружаются и персональные данные пациентов, такие отчеты не могут быть использованы для проведения анализа. Интеграцию с МИС реализовать достаточно сложно, поэтому целесообразней разработать отдельное программное обеспечение, которое позволит вносить данные, на основе которых будет производиться обучение моделей машинного обучения для дальнейшего использования их в качестве инструмента для оказания помощи специалисту в постановке диагноза, а также для визуального анализа собранных данных, чтобы наглядно оценивать, сравнивать между собой отдельные случаи [1], получать некоторые статистические сведения, чтобы иметь общее представление о наборе данных.
Так как в настоящее время наиболее популярными являются кроссплатформенные программные продукты, не требующие предварительной установки, оптимальным решением будет создать веб - интерфейс [2].
Отделением инфекционных заболеваний Сибирского государственного медицинского университета были предоставлены деперсонализированные данные пациентов с инфекциями, передаваемыми клещами в виде электронной таблицы. Таблица состоит из 9 листов, в которых представлены сведения о пациентах и проводимых исследованиях.
Целью работы является повышение эффективности работы врача инфекциониста при анализе данных пациентов с клещевыми инфекциями путем разработки программного обеспечения и моделей анализа предикторов пациентов с заболеваниями, передаваемыми клещами.
В рамках данной работы проводится подготовка табличных данных пациентов с инфекциями, передаваемыми клещами, к анализу. Также предложен подход классификации диагнозов пациентов с клещевыми инфекциями, разработан интерактивный веб-интерфейс.
Объектом исследования являются данные пациентов, страдающих инфекционными заболеваниями, передаваемыми иксодовыми клещами. Предметом исследования является процесс разработки программного обеспечения и моделей анализа предикторов пациентов с заболеваниями, передаваемыми клещами.
Методы исследования - поиск литературы и источников, анализ информационных материалов, сравнение, консультация со специалистами, методы машинного обучения, методы визуализации.
В работе использованы различные методические материалы и интернет-ресурсы. Работа будет реализована на языке программирования Python, веб-фреймворке Dash.
✅ Заключение
Предварительно загруженные данные были проверены на наличие пропущенных значений и выбросов. Признаки и записи, содержащие пропущенные значения, которые невозможно было восстановить исключены из дальнейшего анализа. Пропущенные значения в бинарных категориальных признаках были заполнены нулями, что соответствует отсутствию у пациента того или иного признака, пропуски в числовых признаках анализов крови рассчитаны на основе лейкоцитарной формулы. Текстовые категориальные признаки были закодированы методом прямого кодирования.
Набор данных был разделен на тренировочное и тестовое подмножества. Было построено несколько моделей для определения диагноза пациентов с клещевыми инфекциями. Для выбранных моделей был проведен подбор оптимальных параметров. После чего проведена оценка качества работы моделей классификации с помощью метрик качества и ROC-кривых. Чувствительность дерева решений, логистической регрессии, случайного леса и градиентного бустинга составила 0,67, 0,75, 0,81 и 0,77, соответственно. Значения же специфичности для данных алгоритмов, соответственно, 0,7, 0,77, 0,79 и 0,78. Таким образом, наилучший результат показала модель случайного леса. Что касается значений площадей под ROC- кривыми, то наилучшие результаты по трем классам, а именно, клещевому энцефалиту, иксодовому клещевому боррелиозу и микст-инфекции, показали градиентный бустинг и дерево решений. При классификации диагнозов пациентов с помощью логистической регрессии и случайного леса, микст - инфекция определяется слабее, чем два других диагноза.
На основе проведенного анализа данных был интерактивный веб-интерфейс, позволяющий изучить структуры набора данных и результаты анализа.
Также разработаны следующие разделы: «Финансовый менеджмент, ресурсоэффективность и ресурсосбережение», «Социальная ответственность», а также раздел на иностранном языке (английский) - «Data Preprocessing Methods», приведенный в Приложении А.



