Введение 4
1. Постановка задачи 6
2. Источник данных для анализа 8
3. Общие понятия 9
4. База Данных 14
4.1 Описание структуры 14
4.2 Подключение базы данных из R-программы, загрузка таблиц 15
5. Выявление значимых признаков 18
5.1. Работа с непрерывными признаками 18
5.1.1 Описание метода исследования 18
5.1.2 Проверка гипотезы о нормальности распределения 18
5.1.2.0 Обработка пропущенных (NA) значений 20
5.1.2.1 Случай, когда данные не имеют пропусков 20
5.1.2.2 Случай, когда данные имеют пропуски 22
5.1.3 Проверка гипотезы о равенстве средних значений признаков для
генеральных совокупностей «Больные» и «Здоровые» 26
5.1.4 Проверка гипотезы о равенстве медиан случайных распределений
(тест Вилкоксона) 30
5.2. Работа с дискретными признаками 32
5.2.1 Проверка гипотезы о независимости признаков 32
5.3. Результаты работы по выделению значимых признаков 35
6. Решение задачи классификации (постановки диагноза) 36
6.1 Постановка задачи классификации 36
6.2 Ход работы 36
6.2.1 Подготовка к исследованиям, Исследование №1 37
6.2.2 Исследование №2 42
6.2.3 Исследование №3 45
6.3 Результаты и выводы 46
7. Постановка диагноза 47
8. Взаимодействие системы и интерфейса 53
9. Схема интерфейса программы 58
Заключение 61
Список литературы 62
Приложение 64
Одной из современных тенденций развития прикладных наук является применение методов интеллектуального анализа данных (Data Mining) и машинного обучения (Machine Learning) для выявления скрытых закономерностей в явлениях и процессах реального мира путём анализа больших объёмов данных.
Выявление скрытых закономерностей позволяет осуществлять прогноз значений исследуемых признаков. Подобные задачи возникают в самых разных областях знаний - как в естественнонаучных, так и в гуманитарных. Од¬ной из перспективных областей применения систем интеллектуального анализа данных является медицина, в частности, задачи медицинской диагностики.
Возможность практического применения методов анализа данных и машинного обучения появилась благодаря достижению высокого уровня развития компьютерной техники и сети Интернет - это позволяет хранить большие объёмы данных и обрабатывать их в режиме реального времени. Тем самым открываются широкие перспективы для реализации принципиально новых подходов к решению названных задач. До настоящего времени постановка медицинских диагнозов опиралась, главным образом, на анализ индивидуальных признаков пациента (результатов анализов пациента, симптомов, субъективных жалоб, условий жизни и работы и прочих характеристик анамнеза), причём результаты анализов и симптомы сравнивались с так называемыми референсными значениями, содержащимися в справочной медицинской литературе. Теперь же, за счёт доступа к общей базе пациентов и применения математических методов обработки больших объёмов данных (big data), появляется новая возможность - наряду с индивидуальными данными пациента, учитывать общие закономерности поведения исследуемого признака.
Настоящая работа была инициирована коллегами из Казанской государственной медицинской академии, которые обратились в Институт вычислительной математики и информационных технологий КФУ с предложением начать совместную работу по созданию систем поддержки принятия решений в области медицинской диагностики. Концепция системы состояла в том, чтобы не только обеспечить с её помощью консультационную поддержку пациентов с определённым заболеванием (в режиме онлайн), но главное - обеспечить сбор, хранение и анализ характеристик анамнеза и субъективных данных большого количества пациентов для последующего применения методов машинного обучения. Это, в свою очередь, должно стать основой для создания системы интеллектуальной поддержки принятия решений в области медицинской диагностики. Наличие такой системы позволит повысить точность диагностики и, вместе с тем, даст исследователю инструментарий для выявления скрытых закономерностей между факторами, связанными с наличием у пациента того или иного заболевания.
По нашему мнению, дальнейшее развитие предлагаемого в данной работе подхода может привести к созданию специализированного «Интернет- подмножества» - распределённой базы данных о пациентах с веб¬интерфейсом для применения методов машинного обучения с целью поддержки решения задачи диагностики в режиме онлайн. Важность такой системы трудно переоценить.
Результатом дипломной работы является программа, которая позволяет конечному пользователю проанализировать данные по конкретному заболеванию (выявить значимые признаки) и получить на выходе модель классификации, позволяющую поставить диагноз конкретному лицу на основании его анализов. Также был предложен вариант пользовательского интерфейса для работы с данной системой.
Разработка велась с помощью программного пакета R. Для работы с Базой Данных был использован MySQL сервер и его пользовательская надстройка (интерфейс) MySQL Workbench.
1. http://r-analytics.blogspot.ru/2012/06/blog-post 14.html - Протокол разве¬дочного анализа данных: проверка на нормальность распределения
2. Мастицкий С.Э., Шитиков В.К. Статистический анализ и визуализация данных с помощью R: электронная книга - Хайдельберг - Лондон - Тольят¬ти, 2014, гл. 5 - с. 128 - 136.
3. Зарядов, И. С. Статистический пакет R: теория вероятностей
и математическая статистика: учебно-методическое пособие/ И. С. Зарядов - М: Издательство Российского университета дружбы народов, 2010 - Глава 3, с. 120-124
4. Орлов, А.И Непараметрические критерии согласия Колмогорова- Смирнова, Омега-квадрат и ошибки при их применении: научный журнал КубГАУ - 2014 г. - №97(03) , http: //ej .kubagro .ru/2014/03/pdf/47 .pdf
5. Зарядов, И.С. Статистический пакет R: теория вероятностей
и математическая статистика: учебно-методическое пособие/ И.С. Зарядов - М: Издательство Российского университета дружбы народов, 2010 - Глава 3, с. 110-114
6. https://en.wikipedia.org/wiki/Shapiro%E2%80%93Wilk test - Критерий Шапиро-Уилка
7. http: //www. тасЬте1еаштд.ги^1к1/шбех.рЬр?ЬЬе=Критерий хи-квадрат
- Критерий Хи-квадрат Пирсона
8. Зарядов, И.С. Статистический пакет R: теория вероятностей
и математическая статистика: учебно-методическое пособие/ И.С. Зарядов - М: Издательство Российского университета дружбы народов, 2010 - Глава 3, с. 114-120
9. Brett Lantz Machine Learning with R .- Second Edition.- Birmingham - Mumbai: Packt Publishing Ltd, 2015 - ch.4, pp. 89 -124
10. Brett Lantz Machine Learning with R .- Second Edition.- Birmingham - Mumbai: Packt Publishing Ltd, 2015 - ch.5, pp.125 - 149
11. Brett Lantz Machine Learning with R .- Second Edition.- Birmingham - Mumbai: Packt Publishing Ltd, 2015 - ch.7, pp.239 - 257
12. https://www.r-bloggers.com/accessing-mysql-through-r/ - Accessing MySQL through R