ВВЕДЕНИЕ 6
ГЛАВА 1 ИССЛЕДОВАНИЕ ПРОГНОЗИРОВАНИЯ РИСКА СЕРДЕЧНО¬
СОСУДИСТЫХ ЗАБОЛЕВАНИЙ 8
1.1 Актуальность предметной области 8
1.2 Постановка задачи прогнозирования риска сердечно-сосудистых
заболеваний 9
1.3 Обзор существующих решений поставленной задачи 10
1.4 Интеллектуальный анализ данных как способ решения задачи
прогнозирования риска сердечно-сосудистых заболеваний 11
1.4.1 Деревья принятия решений 13
1.4.2 Метод случайного леса 16
1.4.3 Наивный байесовский классификатор 17
1.4.5 Метод k-ближайших соседей 18
1.5 Выбор метода классификации для решения поставленной задачи 19
1.5.1 Метрики для определения качества классификационных моделей . 19
1.5.2 Данные для прогнозирования риска сердечно-сосудистых
заболеваний 21
1.5.3 Тестирование классификаторов 23
1.6 Формализация требований к разрабатываемой системе 27
1.7 Выводы по первой главе 28
ГЛАВА 2 ПРОГРАММНАЯ РЕАЛИЗАЦИЯ СИСТЕМЫ
ПРОГНОЗИРОВАНИЯ РИСКА СЕРДЕЧНО-СОСУДИСТЫХ ЗАБОЛЕВАНИЙ 29
2.1 Проектирование интеллектуальной информационной системы 29
2.1.1 Проектирование архитектуры системы прогнозирования риска
сердечно-сосудистых заболеваний 29
2.1.2 Проектирование пользовательского интерфейса системы 31
2.1.3 Проектирование базы данных 33
2.2 Разработка интеллектуальной информационной системы 34
2.2.1 Реализация собственного классификатора 35
2.2.2 Создание графического представления программы 37
2.2.4 Создание базы данных 38
2.3 Выводы по второй главе 39
ГЛАВА 3 ТЕСТИРОВАНИЕ РАЗРАБОТАННОЙ СИСТЕМЫ 40
3.1 Тестирование классификатора 40
3.2 Функциональное тестирование 41
3.3 Выводы по третьей главе 44
ЗАКЛЮЧЕНИЕ 45
СПИСОК ИСПОЛЬЗУЕМОЙ ЛИТЕРАТУРЫ 46
ПРИЛОЖЕНИЕ А Основные классы приложения 49
ПРИЛОЖЕНИЕ Б Экранные формы работы интеллектуальной системы 51
Одной из главных причин госпитализаций и смертности в мире являются сердечно-сосудистые заболевания. В России сердечно-сосудистые заболевания являются национальной проблемой, ведь по статистике каждый 13-й гражданин Российской Федерации страдает сердечно-сосудистой патологией. В общую структуру смертности сердечно-сосудистые заболевания вносят весомый вклад - на них приходится 49,6% всех смертей, вызывая наибольшее количество социально-экономических потерь [1].
Таким образом, становится актуальным вопрос разработки интеллектуальной информационной системы для успешного прогнозирования риска сердечно-сосудистых заболеваний. Система, способная совершать подобный прогноз, смогла бы существенно повысить шанс предотвращение заболеваний данного вида у граждан Российской Федерации, а также увеличить эффективность работы отечественных поликлиник.
Целью выпускной квалификационной работы является создание интеллектуальной информационной системы, предназначенной для прогнозирования риска сердечно-сосудистых заболеваний.
Для достижения указанной цели были поставлены следующие исследовательские задачи:
• выявить актуальность разработки;
• предложить метод классификации для поставленной задачи;
• спроектировать интеллектуальную информационную систему и её практически реализовать;
• провести анализ достигнутых показателей выбранного классификатора с помощью различных метрик .
Объектом исследования стал процесс прогнозирования риска сердечно-сосудистых заболеваний. Предметом исследования работы является интеллектуальная система, использующая метод случайного леса для прогнозирования риска сердечно-сосудистых заболеваний.
Новизна заключается в проведении исследования решении задачи прогнозирования риска сердечно-сосудистых заболеваний методом случайного леса.
Работа состоит из введения, трех разделов, заключения, списка используемой литературы и приложений. Объем работы составляет 51 страниц, объем библиографии - 30 источников, количество рисунков - 17, количество таблиц - 6, количество приложений - 7.
Первая глава бакалаврской работы посвящена теоретической части, содержащей описание исследуемой задачи, обзор подходов для создания интеллектуальных системы, выбран оптимальный подход для решения поставленной задачи и составлен перечень требований к программному продукту.
Вторая глава сконцентрирована на проектировке и разработке информационной технологии для решения исследуемой задачи.
Заключительная третья глава посвящена тестированию разработанного программного решения.
В результате выполнения бакалаврской работы для решения задачи прогнозирования риска сердечно-сосудистых заболеваний был предложен метод случайного леса. Реализация предложенного мной в данной работе способа решения поставленной задачи представляет собой построение классификационной модели, с помощью метода случайного леса. В ходе работы была разработана собственная программная реализация данного метода на объектном-ориентированном языке Java. Доля правильно классифицированных записей на тестовой выборке данным классификатором составила и F-мера составили 0,81 и 0,83, соответственно, что позволяет сделать выводы об эффективности данного способа решения исследуемой задачи.
В первой части бакалаврской работы было приведено обоснование необходимости и цели создания интеллектуальной информационной системы для решения поставленной задачи, проведен обзор и анализ технологий искусственного интеллекта, а также была выбрана стратегия решения задачи прогнозирования риска сердечно-сосудистых заболеваний.
Вторая часть включает в себя проектирование интеллектуальной информационной системы и её программную реализацию.
В третьей части произведено тестирование работоспособности и эффективности разработанной интеллектуальной информационной системы.
1. Об актуальных проблемах борьбы с сердечно-сосудистыми заболеваниями // Совет Федерации Федерального Собрания РФ. - М., 2015 - 108 с.
2. Всё о сердце [Электронный ресурс] // Ассоциация сердечно¬
сосудистых хирургов России Секция "Кардиология и визуализация в кардиохирургии" - Режим доступа: http://heart-
master.com/for_patients/about_heart/(Дата обращения: 12.05.2019).
3. Заболевания сердечно-сосудистой системы: виды и особенности
[Электронный ресурс] // Самоздрав Дыхательный Тренажер - Режим доступа: https://samozdrav.ru/blog/zabolevaniya-serdechno-sosudistoy-sistemy/ (Дата
обращения: 07.05.2019).
4. Здравоохранение в России. 2017 // Стат.сб./Росстат. - М., 2017. - 21 с.
5. Прикладная статистика: Классификация и снижение размерности / Айвазян С.А. и др. - М.: Финансы и статистика, 1989. - 607 с.
6. Барсегян А.А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP/ А.А. Барсегян - СПб.: БХВ-Петербург, 2007. - 284 с.
7. «Деревья решений - общие принципы работы» [Электронный
документ] // BaseGroup Labs Systems - Режим доступа:
http://www.basegroup.ru/library/analysis/tree/description/ (Дата обращения:
14.04.2019).
8. Информационный поиск [Электронный ресурс] // Википедия - Режим доступа: https://ru.wikipedia.org/?oldid=93657750(Дата обращения: 29.05.2019).
9. Документация по библиотеке scikit-learn для машинного обучения с Python [Электронный ресурс] — Режим доступа: http://scikit-learn.org/stable/(Дата обращения: 14.04.2019).
10. Избачков Ю.С. Информационные системы: Учебник для вузов/ Ю.С.Избачков, Петров В.Н. - Санкт-Петербург, 2006. - 656 с.
11. Соломон М., Мориссо-Леруа Н., Басу Дж. Oracle. Программирование на языке Java. — М.: Издательство «Лори», 2010. — 512 с.
12. Примеры объектно-ориентированного проектирования. Паттерны проектирования. / Э. Гамма, Р. Хелм, Р. Джонсон и др.; пер. с анг. А. Слинкина. - СПб.: Питер, 2001 - 368с.
13. Розенберг Д., Скотт К. Применение объектного моделирования с использованием UML и анализ прецедентов - М.: "ДМК Пресс", 2002. - 160 с.
14. Голицына, О.Л. Базы данных: Учебное пособие / О.Л. Голицына, Н.В. Максимов, И.И. Попов. - М.: Форум, 2012. - 400 с.
15. Монахов, В. Язык программирования Java и среда NetBeans / В. Монахов. - М.: БХВ-Петербург, 2011. - 704 с.
16. Машнин, Тимур JavaFX 2.0. Разработка RIA-приложений / Тимур Машнин. - М.: БХВ-Петербург, 2017. - 320 с.
17. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: ИМ СО РАН, 1999. - 270 с.
18. Scene Builder [Электронный ресурс] // Gluon - Режим доступа: http://gluonhq.com/open-source/scenebuilder(дата обращения: 01.06.2019).
19. Информационные технологии. Основы работы с реляционной БД Oracle. - М.: McGraw-Hill, 2002. - 200 c.
20. Яргер, Р.Дж. MySQL и mSQL: Базы данных для небольших предприятий и Интернета / Р.Дж. Яргер, Дж. Риз, Т. Кинг. - М.: СПб: Символ- Плюс, 2015. - 560 c.
21. Cardiovascular disease [Электронный ресурс] // World Health Organization - Режим доступа: https://www.who.int/cardiovascular_diseases/ru/(Дата обращения: 05.06.2019).
22. K. Srinivas, B. Kavitha Rani and Dr. A. Govrdhan, “Application of Data Mining Techniques in Healthcare and Prediction of Heart Attacks”, International Journal on Computer Science and Engineering, Vol. 02, No. 02, pp. 250 - 255, 2011.
23. M. Marimuthu, M. Abinaya, K. S. Hariesh, K. Madhankumar and V. Pavithra. A Review on Heart Disease Prediction using Machine Learning and Data Analytics Approach. International Journal of Computer Applications 181(18):20-25, September 2018.
24. Dr. D. Raghu. T. Srikanth Ch. Raja Jacub,"Probability: based Heart Disease Prediction using Data Mining Techniques” IJCST Vol. 2, Issue 4, Oct - Dec. 2011, ISSN: 0976-8491 (Online) | ISSN: 2229-4333 (Print).
25. Isra’a Ahmed Zriqat, Ahmad Mousa Altamimi, Mohammad Azzeh. A Comparative Study for Predicting Heart Diseases Using Data Mining Classification Methods. International Journal of Computer Science and Information Security (IJCSIS), Vol. 14, No. 12, December 2016.
26. Breiman, L., Friedman, J., Stone, C.J. and Olshen, R.A. Classification and Regression Trees. - 1984. - Taylor & Francis. - 368 c.
27. Hastie, T., Tibshirani R., Friedman J. Chapter 15. Random Forests // The Elements of Statistical Learning: Data Mining, Inference, and Prediction. — 2nd ed. - Springer-Verlag, 2009. - 746 p.
28. Rish, I. An empirical study of the naive Bayes classifier // IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence. - т.3. № 22. - 2001. - с. 41-46.
29. Brett Lantz. Machine Learning with R. Pack Publishing. - 2013. - 375 с.
30. Statlog (Heart) Data Set [Электронный документ] // UCI Machine Learning Repository. Center for Machine Learning and Intelligent Systems - Режим доступа: http://archive.ics.uci.edu/ml/datasets/statlog+(heart) (Дата обращения: 28.05.2018).