ВВЕДЕНИЕ 4
ГЛАВА 1. ОПИСАНИЕ ИСХОДНЫХ ДАННЫХ. МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ 6
1.1 Перспективы использования методов машинного обучения в медицине.... 6
1.2 Извлечения показателей из исходных данных 10
1.3 Анализ библиотек языка python и описание методов машинного обучения 14
ГЛАВА 2. ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ 26
2.1 Первичный анализ и предобработка исходных данных 26
2.2 Применение методов классификации, отбора признаков и заполнения
пропусков 33
ГЛАВА 3. АПРОБИРОВАНИЕ РЕЗУЛЬТАТОВ 37
3.1 Анализ и интерпретация полученных результатов 37
3.2 Практическое обоснование результатов исследования в предметной
области 40
ЗАКЛЮЧЕНИЕ 42
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 43
Приложение 1. Шаблон выписки 46
Приложение 2. Матрица корреляции 48
Приложение 3. Графики поиска оптимальных гиперпараметров (без заполнения припусков) 51
Методы машинного обучения применяются в разнообразных областях и помогают решать множество задач: от обнаружения спама и актов мошенничества до распознавания и генерации изображений и музыкальных композиций. Важным и перспективным приложением методов машинного обучения является медицинская диагностика. В частности, прогнозирование состояния пациента, дифференциальная диагностика заболеваний, проверка эффективности препаратов и т.д. [7, 21]
На сегодняшний день в медицине накапливаются огромные массивы разнородных данных, а с совершенствованием и внедрением новых медицинских технологий, в том числе компьютерных, скорость их накопления постоянно растет. Большую роль играют текстовые и числовые медицинские данные, находящиеся в выписках пациентов. В связи с этим существует потребность в их обработке и анализе, а также применения методов искусственного интеллекта для получения новых знаний [17].
Расчет Федеральной службы государственной статистики по данным Минздрава России показал, что за период 2000-2016 гг. существует тенденция к увеличению количества зарегистрированных больных в возрасте 0-14 лет с заболеваниями мочеполовой системы, установленными впервые в жизни [29]. Это может быть следствием недостаточной эффективности системы профилактики и предотвращения заболеваний [4].
Наиболее распространенными заболеваниями мочеполовой системы у детей являются пиелонефрит, гломерулонефрит и тубулоинтерстициальный нефрит. Их особенностью является сложная диагностика и порой бессимптомная клиническая картина. К примеру, при пиелонефрите обычно преобладают общие симптомы в клинической картине, что приводит к достаточно трудному выявлению данного заболевания [8]. Своевременная диагностика перечисленных заболеваний поможет оперативно подобрать индивидуальное лечение и избежать осложнений в будущем.
Цель работы - анализ методов машинного обучения для повышения точности и сокращения времени диагностики заболеваний мочеполовой системы у детей.
Объект исследования - методы машинного обучения.
Предмет исследования - классификатор заболеваний мочеполовой системы пациентов Алтайской краевой клинической детской больницы.
Актуальность данной работы обуславливается необходимостью повышения точности и сокращения времени диагностики заболеваний мочеполовой системы у детей.
Практическая значимость исследования состоит в подборе и описании таких методов машинного обучения, которые помогут врачам проводить диагностику заболеваний мочеполовой системы у детей.
Исследования в области применения методов машинного обучения к диагностике заболеваний мочеполовой системы у детей являются актуальными на сегодняшний день и проводятся как в нашей стране, так и за рубежом.
В рамках данной работы были решены различные трудности работы с выписками пациентов и была написана программа, извлекающая необходимую информацию из них в полуавтоматическом режиме.
Также были проанализированы различные методы машинного обучения и подходы к повышению их качества применительно к извлеченным данным. В результате градиентный бустинг показал большую по сравнению с остальными методами адекватность и предсказательную способность по всем подходам. Метод рекурсивного отбора признаков в целом значительно не улучшил и не ухудшил качество классификаторов, а метод заполнения пропущенных значений в большинстве случаях сильно ухудшил его.
Результаты работы показали необходимость развития данной проблематики. Дальнейшие исследования в области применения на практике методов машинного обучения к диагностике заболеваний мочеполовой системы у детей могут помочь врачу не только в извлечении информации из массива выписок и его анализе, но и в сокращении времени постановки диагноза и увеличении его точности.
1. Айвазян С.А. Прикладная статистика. Классификация и снижение размерности / С.А. Айвазян [и др.]. - М.: Финансы и статистика, 1989. - 607 с.
2. Вандерплас Д. Python для сложных задач: наука о данных и машинное обучение. - СПб.: Питер, 2018. - 576 с.
3. Горбань А.Н. Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей / А.Н. Горбань // Сиб. журн. вычисл. математики. - 1998. - Т. 1, № 1. - С. 11-24.
4. Каприн А.Д. Анализ уронефрологической заболеваемости и смертности в
Российской Федерации за 2003-2013 гг. / А.Д. Каприн [и др.] //
Экспериментальная и клиническая урология. - 2015. - №2. - С. 4-12.
5. Кобзарь А. И. Прикладная математическая статистика. - М.: Физматлит, 2006. - 626-628 с.
6. Кохонен Т. Самоорганизующиеся карты / пер. 3-го англ. изд. - М.: БИНОМ. Лаборатория знаний, 2014. - 655 с.
7. Кочетов А.Г Методы статистической обработки медицинских данных: Методические рекомендации для ординаторов и аспирантов медицинских учебных заведений, научных работников / А.Г. Кочетов [и др.]. - М.: РКНПК, 2012. - 42 с.
8. Фадеев П.А. Болезни почек. Пиелонефрит. - М.: Мир и Образование, 2011. - 180 с.
9. Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных / пер. с англ. А.А. Слинкина. - М.: ДМК Пресс, 2015. - 400 с.
10. Хайкин С. Нейронные сети: Полный курс / пер. с англ. Н.Н. Куссуль,
А.Ю. Шелестова. - 2-е изд., испр. - М.: Издательский дом Вильямс,
2008. - 1103 с.
11. Bauer E. An Empirical Comparison of Voting Classification Algorithms: Bagging, Boosting, and Variants / E. Bauer, R. Kohavi // Machine Learning. - 1999. - P 105-139.
12. Boughorbel S. Optimal classifier for imbalanced data using Matthews Correlation Coefficient metric / S. Boughorbel, F. Jarray, M. El-Anbari // PLoS ONE 12(6). - 2017. - 17 p.
13. Breiman L. Bagging Predictors / L. Breiman // Machine Learning. - 1996. - P 123-140.
14. D’Agostino R.B. An omnibus test of normality for moderate and large sample size / R.B. D’Agostino // Biometrika. - 1971. - Vol. 58, No. 2. - P 341-348.
15. Gopika S. Machine learning Approach of Chronic Kidney Disease Prediction using Clustering Technique / S. Gopika, Dr.M. Vanitha // International Journal of Innovative Research in Science, Engineering and Technology. - 2017. - Vol. 6, No. 7. - P 14488-14496...