Разработка прогностической модели машинного обучения для диагностики диабета
|
АННОТАЦИЯ 2
ВВЕДЕНИЕ 7
1 АНАЛИЗ СОСТОЯНИЯ ОТЕЧЕСТВЕННЫХ И ЗАРУБЕЖНЫХ
РЕШЕНИЙ 9
1.1 Понятие сахарного диабета и анализ существующих диагностик 9
1.2 Анализ отечественных решений 11
1.3 Анализ зарубежных решений 14
1.4 Анализ медицинских информационных систем 16
2 ИССЛЕДОВАНИЕ МОДЕЛИ 19
2.1 Описание датасета 19
2.2 Статистическое исследование данных 21
2.3 Предобработка данных 25
2.4 Построение модели машинного обучения 27
2.5 Валидация модели 32
2.6 Тестирование модели 39
3 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 42
3.1 Выбор направления коммерциализации 42
3.2 Основные этапы проекта 45
3.3 Составление необходимых ресурсов 46
3.4 Оценка рисков проекта 49
3.5 Доходная часть проекта 52
3.6 Экономическая эффективность проекта 52
ЗАКЛЮЧЕНИЕ 57
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 59
ВВЕДЕНИЕ 7
1 АНАЛИЗ СОСТОЯНИЯ ОТЕЧЕСТВЕННЫХ И ЗАРУБЕЖНЫХ
РЕШЕНИЙ 9
1.1 Понятие сахарного диабета и анализ существующих диагностик 9
1.2 Анализ отечественных решений 11
1.3 Анализ зарубежных решений 14
1.4 Анализ медицинских информационных систем 16
2 ИССЛЕДОВАНИЕ МОДЕЛИ 19
2.1 Описание датасета 19
2.2 Статистическое исследование данных 21
2.3 Предобработка данных 25
2.4 Построение модели машинного обучения 27
2.5 Валидация модели 32
2.6 Тестирование модели 39
3 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 42
3.1 Выбор направления коммерциализации 42
3.2 Основные этапы проекта 45
3.3 Составление необходимых ресурсов 46
3.4 Оценка рисков проекта 49
3.5 Доходная часть проекта 52
3.6 Экономическая эффективность проекта 52
ЗАКЛЮЧЕНИЕ 57
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 59
Объект исследования: Государственные медицинские учреждения.
Предмет исследования: Эффективность диагностики диабета, текущее состояние процесса и причины, которые привели к необходимости разработки.
Актуальность темы: По данным Министерства Здравоохранения Российской Федерации численность больных сахарным диабетом оценивается до 5 млн. человек. С каждым годом численность заболевших увеличивается. Текущая ситуация требует новых подходов для диагностики диабета.
Эффективность лечения диабета во многом зависит от того, на каком этапе удалось выявить заболевание. При этом на ранних этапах характерные симптомы могут не связывать с появлением диабета, а анализ крови может показывать уровень гликемии, находящийся в пределах нормы, даже при многократном анализе крови. Традиционные методы диагностики диабета, такие как измерение уровня гликемии, могут оказаться не всегда надежными.
Машинное обучение эффективно выявляет сложные закономерности в медицинских данных, что делает его перспективным инструментом для разработки точных и не инвазивных методов диагностики диабета.
Таким образом, разработка прогностической модели машинного обучения для диагностики диабета имеет значительный потенциал для улучшения здравоохранения путем повышения точности, удобства и своевременности диагностики этого распространенного и серьезного заболевания.
Цель работы: Снизить количество врачебных ошибок и упростить выявление диабета на более ранней стадии для снижения риска осложнений.
Задачи исследования: Для достижения цели необходимо:
- Дать определение сахарному диабету, рассмотреть существующие методы диагностики.
- Проанализировать имеющиеся исследования, направленные на решение проблемы.
- Подготовить и проанализировать датасет, содержащий данные по заболеваниям, характерным для больных диабетом.
- Подготовить данные для обучения модели.
- Обучить несколько моделей машинного обучения и выбрать наилучшую.
- Подготовить отдельную выборку и протестировать работу обученной модели.
- Оценить экономическую эффективность проекта.
Информационная база исследования: данные об информационных системах в государственных медицинских организациях, аналитические и информационные материалы, опубликованные в российской периодической печати и представленные в компьютерной сети Интернет, справочные материалы, связанные с выбранной темой исследования.
Методы исследования: Описательная статистика, графические методы, метод анализ статистических совокупностей, классификация, модель ТСО.
Структура работы: Выпускная квалификационная работа структурно состоит из следующих элементов: введение, три основные главы, заключение, библиографический список.
Предмет исследования: Эффективность диагностики диабета, текущее состояние процесса и причины, которые привели к необходимости разработки.
Актуальность темы: По данным Министерства Здравоохранения Российской Федерации численность больных сахарным диабетом оценивается до 5 млн. человек. С каждым годом численность заболевших увеличивается. Текущая ситуация требует новых подходов для диагностики диабета.
Эффективность лечения диабета во многом зависит от того, на каком этапе удалось выявить заболевание. При этом на ранних этапах характерные симптомы могут не связывать с появлением диабета, а анализ крови может показывать уровень гликемии, находящийся в пределах нормы, даже при многократном анализе крови. Традиционные методы диагностики диабета, такие как измерение уровня гликемии, могут оказаться не всегда надежными.
Машинное обучение эффективно выявляет сложные закономерности в медицинских данных, что делает его перспективным инструментом для разработки точных и не инвазивных методов диагностики диабета.
Таким образом, разработка прогностической модели машинного обучения для диагностики диабета имеет значительный потенциал для улучшения здравоохранения путем повышения точности, удобства и своевременности диагностики этого распространенного и серьезного заболевания.
Цель работы: Снизить количество врачебных ошибок и упростить выявление диабета на более ранней стадии для снижения риска осложнений.
Задачи исследования: Для достижения цели необходимо:
- Дать определение сахарному диабету, рассмотреть существующие методы диагностики.
- Проанализировать имеющиеся исследования, направленные на решение проблемы.
- Подготовить и проанализировать датасет, содержащий данные по заболеваниям, характерным для больных диабетом.
- Подготовить данные для обучения модели.
- Обучить несколько моделей машинного обучения и выбрать наилучшую.
- Подготовить отдельную выборку и протестировать работу обученной модели.
- Оценить экономическую эффективность проекта.
Информационная база исследования: данные об информационных системах в государственных медицинских организациях, аналитические и информационные материалы, опубликованные в российской периодической печати и представленные в компьютерной сети Интернет, справочные материалы, связанные с выбранной темой исследования.
Методы исследования: Описательная статистика, графические методы, метод анализ статистических совокупностей, классификация, модель ТСО.
Структура работы: Выпускная квалификационная работа структурно состоит из следующих элементов: введение, три основные главы, заключение, библиографический список.
В ходе выполнения ВКР были проанализированы методы диагностики диабета от широко применимых на данный момент, таких как анализ крови, до новейших решений, основанных на технологиях искусственного интеллекта. Недостатками традиционных методов оказались наличие скрытого диабета, то, что врачи зачастую не связывают ранние симптомы напрямую с диабетом. Кроме того, точность анализа крови по разным оценкам составила от 80% до 85%.
Более высокую точность удалось получить разработчикам тех решений, что были основаны на технологии искусственного интеллекта. Оценка точности некоторых моделей в исследовании составляет до 89%. Тем не менее, авторы отмечают, что прежде чем внедрять подобные инструменты, необходимы дальнейшие исследования с различными наборами факторов, размерами датасетов, разными моделями. Также установлены возможные ошибки первого и второго рода, по результатам которых сделан вывод, что куда важнее предотвращать «гиподиагностику», то есть заключении, что у пациента нет диабета при наличии этого заболевания.
Также проанализированы некоторые медицинские информационные системы. Анализ показал, что большая часть систем может быть в дальнейшем модернизирована, имеет API, в некоторые уже ведутся попытки внедрить ИИ решения.
Было предложено реализовать модель машинного обучения для диагностики диабета по ранним симптомам. Был найден соответствующий набор данных, проведён статистический анализ данных. В результате были сделаны выводы, что наиболее сильно влияющими факторами на наличие диабета стали ожирение, полиурия, полидипсия, полифагия и возраст.
Построены и исследованы различные модели машинного обучения. После экспериментов с гиперпараметрами моделей, разбиением выборки, наиболее качественной моделью принято решение считать модель адаптивного бустинга. Несмотря на то, что модель по показателям качества классификации имеет высокие значения, необходимы дальнейшие исследования в этой области. В частности, необходимо проанализировать поведение модели при включении или исключении каких-либо факторов, увеличении или уменьшении размера датасета.
Далее для проекта был выбран способ коммерциализации, определены этапы дальнейшей разработки и внедрения, рассчитана стоимость этапов и необходимые ресурсы. Доработка займет 46,5 дней, сам проект рассчитан на 18 месяцев.
Проведён анализ рисков и предложены способы минимизации. Наиболее опасным риском идентифицирован «ввод в эксплуатацию с незамеченными ошибками». Игнорирование данного риска может привести к постановке неверного диагноза, то есть врачебной ошибке, значение которой оценивается в 200 000 рублей. Для минимизации вероятности данного риска принято решение привлечь более квалифицированных специалистов.
Затем был проведён финансовый анализ, который подтвердил экономическую целесообразность проекта. Несмотря на то, что решение принесёт в общем не так много прибыли, работа приложения поможет устанавливать более качественный диагноз.
Результаты работы совпадают с поставленными целями и задачами.
Более высокую точность удалось получить разработчикам тех решений, что были основаны на технологии искусственного интеллекта. Оценка точности некоторых моделей в исследовании составляет до 89%. Тем не менее, авторы отмечают, что прежде чем внедрять подобные инструменты, необходимы дальнейшие исследования с различными наборами факторов, размерами датасетов, разными моделями. Также установлены возможные ошибки первого и второго рода, по результатам которых сделан вывод, что куда важнее предотвращать «гиподиагностику», то есть заключении, что у пациента нет диабета при наличии этого заболевания.
Также проанализированы некоторые медицинские информационные системы. Анализ показал, что большая часть систем может быть в дальнейшем модернизирована, имеет API, в некоторые уже ведутся попытки внедрить ИИ решения.
Было предложено реализовать модель машинного обучения для диагностики диабета по ранним симптомам. Был найден соответствующий набор данных, проведён статистический анализ данных. В результате были сделаны выводы, что наиболее сильно влияющими факторами на наличие диабета стали ожирение, полиурия, полидипсия, полифагия и возраст.
Построены и исследованы различные модели машинного обучения. После экспериментов с гиперпараметрами моделей, разбиением выборки, наиболее качественной моделью принято решение считать модель адаптивного бустинга. Несмотря на то, что модель по показателям качества классификации имеет высокие значения, необходимы дальнейшие исследования в этой области. В частности, необходимо проанализировать поведение модели при включении или исключении каких-либо факторов, увеличении или уменьшении размера датасета.
Далее для проекта был выбран способ коммерциализации, определены этапы дальнейшей разработки и внедрения, рассчитана стоимость этапов и необходимые ресурсы. Доработка займет 46,5 дней, сам проект рассчитан на 18 месяцев.
Проведён анализ рисков и предложены способы минимизации. Наиболее опасным риском идентифицирован «ввод в эксплуатацию с незамеченными ошибками». Игнорирование данного риска может привести к постановке неверного диагноза, то есть врачебной ошибке, значение которой оценивается в 200 000 рублей. Для минимизации вероятности данного риска принято решение привлечь более квалифицированных специалистов.
Затем был проведён финансовый анализ, который подтвердил экономическую целесообразность проекта. Несмотря на то, что решение принесёт в общем не так много прибыли, работа приложения поможет устанавливать более качественный диагноз.
Результаты работы совпадают с поставленными целями и задачами.
Подобные работы
- Исследование алгоритмов прогнозирования по признакам базы данных
Дипломные работы, ВКР, биология. Язык работы: Русский. Цена: 4730 р. Год сдачи: 2023





