Тема: Экспериментальное исследование методов решения задачи классификации в задачах медицинской диагностики (в среде R)
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 4
1. Источник данных для анализа 5
1.1. Выгрузка данных из базы данных 9
1.2. Конкретизация задачи 15
1.3. Подготовка данных. Решение проблемы неполных данных 16
1.4. Замена отсутствующих значений для числовых данных 16
1.5. Замена отсутствующих значений для категориальных данных 16
2. Выявление значимых факторов 18
2.1 Исследование количественных характеристик 18
2.2 Исследование дискретных характеристик 28
3. Решение задачи классификации 35
3.1. Решение задачи классификации, используя все 24 признака 35
3.2. Решение задачи классификации, используя все категориальные признаки и
признак «уровень гемоглобина» 40
3.3. Решение задачи классификации, используя все категориальные признаки
и признак «уровень гемоглобина» 44
4. Сравнительный анализ результатов решения задачи классификации 48
Заключение 49
Список литературы 50
Приложение
📖 Введение
Не секрет, что своевременная диагностика заболевания имеет не меньшее значение, чем его лечение. Но зачастую в силу разных причин она может быть затруднена рядом дополнительных факторов. И если в случае не особо угрожающих жизни состояний промедление не даст больших осложнений, то заболевания вроде онкологии нуждаются в как можно более быстрой диагностике.
Поэтому в настоящее время применение методов интеллектуального анализа данных (DataMining) и машинного обучения (МасЫпеЬеагшпд)является одним из способов выявление скрытых закономерностей в больших объема медицинских данных, что позволяет прогнозировать значения исследуемых признаков.
Возможность практического применения методов анализа данных и машинного обучения появилась благодаря достижению высокого уровня развития компьютерной техники, позволяющей хранить и обрабатывать огромные объёмы данных. До недавнего времени постановка медицинских диагнозов опиралась на анализ характеристик анамнеза пациента, сейчас же появляется новая возможность производить анализ, опираясь так же на результаты уже имеющихся законченных случаев какого-либо заболевания, т.е. опираясь на уже поставленный ранее диагноз.
Постановка задачи
Предположим, что врачу необходимо выявить наличие или отсутствие у некоторого пациента какого-либо заболевания, опираясь на различные признаки (факторы), характеризующие состояние больного, например: результаты анализов, субъективные характеристики, наличие других заболеваний. Здесь основой для подтверждения или опровержения наличия заболевания является выявление закономерностей - зависимости между наличием заболевания и значениями факторов, характеризующих состояние больного посредством анализа больших объёмов данных по пациентам с уже установленным диагнозом.
В терминах анализа данных эта задача сводится к бинарной задаче классификации, где переменная отклика принимает одно из двух возможных значений (0 - предположительный диагноз не подтверждён, 1 - диагноз
подтверждён), здесь характеристики анамнеза выступают в качестве факторов.
Решение задачи предполагает последовательную реализацию следующих этапов:
1. Поиск открытых источников данных.
2. Чтение и первичная обработка данных, включая удаление «выбросов» и замену отсутствующих значений с учётом значений переменной отклика.
3. Выявление наиболее значимых факторов.
4. Экспериментальное исследование применимости методов решения задачи классификации, используя все признаки или только признаки, выявленные на этапе 3, визуализация результатов, формулировка выводов о применимости каждого из методов для решения задачи медицинской диагностики как задачи классификации, выработка рекомендаций по применению методов.
✅ Заключение
Помимо выявления значимых признаков ключевым моментом в решении подобных задач так же является метод, которым такая задача решается. Рекомендацией по этому направлению может служить предложение находить решения посредством использования нескольких методов для одинаковых наборов данных. В дальнейшем такая стратегия позволит выбрать самый эффективный из методов.
В качестве рекомендаций так же можно выделить направление интеграции Яс серверной базой данных. Такая интеграция позволила бы обращаться к данным удаленно, а так же пополнять базу данных для того, чтобы в будущем она не теряла актуальности, т.е. - обеспечить сбор, хранение и анализ характеристик анамнеза и субъективных данных большого количества пациентов для последующего применения методов машинного обучения. Это, в свою очередь, должно стать основой для создания системы интеллектуальной поддержки принятия решений в области медицинской диагностики.



