Введение 3
Постановка задачи 4
1. Источник данных для анализа 5
1.1. Выгрузка данных из базы данных 9
1.2. Конкретизация задачи 15
1.3. Подготовка данных. Решение проблемы неполных данных 16
1.4. Замена отсутствующих значений для числовых данных 16
1.5. Замена отсутствующих значений для категориальных данных 16
2. Выявление значимых факторов 18
2.1 Исследование количественных характеристик 18
2.2 Исследование дискретных характеристик 28
3. Решение задачи классификации 35
3.1. Решение задачи классификации, используя все 24 признака 35
3.2. Решение задачи классификации, используя все категориальные признаки и
признак «уровень гемоглобина» 40
3.3. Решение задачи классификации, используя все категориальные признаки
и признак «уровень гемоглобина» 44
4. Сравнительный анализ результатов решения задачи классификации 48
Заключение 49
Список литературы 50
Приложение
Прогресс современной медицины и здравоохранения в значительной степени определяют информационные технологии (ИТ). Весь процесс информатизации направлен на создание единого медицинского информационного пространства, позволяющего врачам общаться друг с другом, обращаться к архивам и библиотекам медицинских знаний и технологий для установления более полной картины в контексте отдельно взятого заболевания.
Не секрет, что своевременная диагностика заболевания имеет не меньшее значение, чем его лечение. Но зачастую в силу разных причин она может быть затруднена рядом дополнительных факторов. И если в случае не особо угрожающих жизни состояний промедление не даст больших осложнений, то заболевания вроде онкологии нуждаются в как можно более быстрой диагностике.
Поэтому в настоящее время применение методов интеллектуального анализа данных (DataMining) и машинного обучения (МасЫпеЬеагшпд)является одним из способов выявление скрытых закономерностей в больших объема медицинских данных, что позволяет прогнозировать значения исследуемых признаков.
Возможность практического применения методов анализа данных и машинного обучения появилась благодаря достижению высокого уровня развития компьютерной техники, позволяющей хранить и обрабатывать огромные объёмы данных. До недавнего времени постановка медицинских диагнозов опиралась на анализ характеристик анамнеза пациента, сейчас же появляется новая возможность производить анализ, опираясь так же на результаты уже имеющихся законченных случаев какого-либо заболевания, т.е. опираясь на уже поставленный ранее диагноз.
Постановка задачи
Предположим, что врачу необходимо выявить наличие или отсутствие у некоторого пациента какого-либо заболевания, опираясь на различные признаки (факторы), характеризующие состояние больного, например: результаты анализов, субъективные характеристики, наличие других заболеваний. Здесь основой для подтверждения или опровержения наличия заболевания является выявление закономерностей - зависимости между наличием заболевания и значениями факторов, характеризующих состояние больного посредством анализа больших объёмов данных по пациентам с уже установленным диагнозом.
В терминах анализа данных эта задача сводится к бинарной задаче классификации, где переменная отклика принимает одно из двух возможных значений (0 - предположительный диагноз не подтверждён, 1 - диагноз
подтверждён), здесь характеристики анамнеза выступают в качестве факторов.
Решение задачи предполагает последовательную реализацию следующих этапов:
1. Поиск открытых источников данных.
2. Чтение и первичная обработка данных, включая удаление «выбросов» и замену отсутствующих значений с учётом значений переменной отклика.
3. Выявление наиболее значимых факторов.
4. Экспериментальное исследование применимости методов решения задачи классификации, используя все признаки или только признаки, выявленные на этапе 3, визуализация результатов, формулировка выводов о применимости каждого из методов для решения задачи медицинской диагностики как задачи классификации, выработка рекомендаций по применению методов.
Постановка диагноза всегда опирается на комплексную оценку различных характеристик состояния обследуемого пациента, поэтому очень важно перед применением методов решения задачи оценить, какие признаки лучше использовать. Такой подход способен в значительной степени сократить время, которое требуется для постановки диагноза.
Помимо выявления значимых признаков ключевым моментом в решении подобных задач так же является метод, которым такая задача решается. Рекомендацией по этому направлению может служить предложение находить решения посредством использования нескольких методов для одинаковых наборов данных. В дальнейшем такая стратегия позволит выбрать самый эффективный из методов.
В качестве рекомендаций так же можно выделить направление интеграции Яс серверной базой данных. Такая интеграция позволила бы обращаться к данным удаленно, а так же пополнять базу данных для того, чтобы в будущем она не теряла актуальности, т.е. - обеспечить сбор, хранение и анализ характеристик анамнеза и субъективных данных большого количества пациентов для последующего применения методов машинного обучения. Это, в свою очередь, должно стать основой для создания системы интеллектуальной поддержки принятия решений в области медицинской диагностики.
1. R в действии. Анализ и визуализация данных в программе R. - Роберт И. Кабаков. // ДМК Пресс, 2014. - 588 с.
2. MachineLearningwithR. -BrettLantz.// PacktPublishingLtd, 2013
3. Анализ данных и процессов - А. А. Барсегян, М. С. Куприянов, И. И. Холод, М.Д.Тесс, С.И.Елизаров //3-е изд., перераб. и доп. - СПб.: БХВ- Петербург. - 2009.
Используемые интернет-ресурсы
1. Репозиторий, откуда взяты данные : https://archive.ics.uci.edu
2. Блог о работе с Microsoft SQL Server и анализе: http://olontsev.ru/2016/06/sql-server-2016-r-services-part-1-overview/
3. R: анализ и визуализация данных:http://r-analytics.blogspot.ru