Введение 4
1. Постановка задачи 6
2. Источник данных для анализа 8
3. Общие понятия 9
4. База Данных 14
4.1 Описание структуры 14
4.2 Подключение базы данных из R-программы, загрузка таблиц 15
5. Выявление значимых признаков 18
5.1. Работа с непрерывными признаками 18
5.1.1 Описание метода исследования 18
5.1.2 Проверка гипотезы о нормальности распределения 18
5.1.2.0 Обработка пропущенных (NA) значений 20
5.1.2.1 Случай, когда данные не имеют пропусков 20
5.1.2.2 Случай, когда данные имеют пропуски 22
5.1.3 Проверка гипотезы о равенстве средних значений признаков для
генеральных совокупностей «Больные» и «Здоровые» 26
5.1.4 Проверка гипотезы о равенстве медиан случайных распределений
(тест Вилкоксона) 30
5.2. Работа с дискретными признаками 32
5.2.1 Проверка гипотезы о независимости признаков 32
5.3. Результаты работы по выделению значимых признаков 35
6. Решение задачи классификации (постановки диагноза) 36
6.1 Постановка задачи классификации 36
6.2 Ход работы 36
6.2.1 Подготовка к исследованиям, Исследование №1 37
6.2.2 Исследование №2 42
6.2.3 Исследование №3 45
6.3 Результаты и выводы 46
7. Постановка диагноза 47
8. Взаимодействие системы и интерфейса 53
9. Схема интерфейса программы 58
Заключение 61
Список литературы 62
Приложение 64
Одной из современных тенденций развития прикладных наук является применение методов интеллектуального анализа данных (Data Mining) и машинного обучения (Machine Learning) для выявления скрытых закономерностей в явлениях и процессах реального мира путём анализа больших объёмов данных.
Выявление скрытых закономерностей позволяет осуществлять прогноз значений исследуемых признаков. Подобные задачи возникают в самых разных областях знаний - как в естественнонаучных, так и в гуманитарных. Од¬ной из перспективных областей применения систем интеллектуального анализа данных является медицина, в частности, задачи медицинской диагностики.
Возможность практического применения методов анализа данных и машинного обучения появилась благодаря достижению высокого уровня развития компьютерной техники и сети Интернет - это позволяет хранить большие объёмы данных и обрабатывать их в режиме реального времени. Тем самым открываются широкие перспективы для реализации принципиально новых подходов к решению названных задач. До настоящего времени постановка медицинских диагнозов опиралась, главным образом, на анализ индивидуальных признаков пациента (результатов анализов пациента, симптомов, субъективных жалоб, условий жизни и работы и прочих характеристик анамнеза), причём результаты анализов и симптомы сравнивались с так называемыми референсными значениями, содержащимися в справочной медицинской литературе. Теперь же, за счёт доступа к общей базе пациентов и применения математических методов обработки больших объёмов данных (big data), появляется новая возможность - наряду с индивидуальными данными пациента, учитывать общие закономерности поведения исследуемого признака.
Настоящая работа была инициирована коллегами из Казанской государственной медицинской академии, которые обратились в Институт вычислительной математики и информационных технологий КФУ с предложением начать совместную работу по созданию систем поддержки принятия решений в области медицинской диагностики. Концепция системы состояла в том, чтобы не только обеспечить с её помощью консультационную поддержку пациентов с определённым заболеванием (в режиме онлайн), но главное - обеспечить сбор, хранение и анализ характеристик анамнеза и субъективных данных большого количества пациентов для последующего применения методов машинного обучения. Это, в свою очередь, должно стать основой для создания системы интеллектуальной поддержки принятия решений в области медицинской диагностики. Наличие такой системы позволит повысить точность диагностики и, вместе с тем, даст исследователю инструментарий для выявления скрытых закономерностей между факторами, связанными с наличием у пациента того или иного заболевания.
По нашему мнению, дальнейшее развитие предлагаемого в данной работе подхода может привести к созданию специализированного «Интернет- подмножества» - распределённой базы данных о пациентах с веб¬интерфейсом для применения методов машинного обучения с целью поддержки решения задачи диагностики в режиме онлайн. Важность такой системы трудно переоценить.
Результатом дипломной работы является программа, которая позволяет конечному пользователю проанализировать данные по конкретному заболеванию (выявить значимые признаки) и получить на выходе модель классификации, позволяющую поставить диагноз конкретному лицу на основании его анализов. Также был предложен вариант пользовательского интерфейса для работы с данной системой.
Разработка велась с помощью программного пакета R. Для работы с Базой Данных был использован MySQL сервер и его пользовательская надстройка (интерфейс) MySQL Workbench.