ВВЕДЕНИЕ 5
ГЛАВА 1. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ 9
1.1. Интеллектуальный анализ данных 9
1.1.1. Автоматическое обнаружение шаблонов 10
1.1.2. Прогнозирование вероятных результатов 10
1.1.3. Создание действенной информации 11
1.1.4. Большие массивы данных и базы данных 12
1.1.5. Интеллектуальный анализ данных и статистика 12
1.2. Этапы интеллектуального анализа данных 13
1.3. Методы интеллектуального анализа данных. Функционал программы Orange Data
Mining 17
1.3.1. Ассоциация 17
1.3.2. Классификация 18
1.3.3. Кластеризация 19
1.3.4. Регрессия 20
1.3.5. Прогнозирование 22
1.3.6. Обнаружение выбросов 23
1.3.7. Сопоставление шаблонов 25
ГЛАВА 2. ОБЗОР ЛИТЕРАТУРЫ. ПРИМЕНЕНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АНЛИЗА
ДАННЫХ 26
2.1. Анализ изображений с помощью визуального программирования 26
2.1.1. Анализ изображений с помощью визуального программирования 27
2.1.2. Методика визуальной аналитики 29
2.2. Анализ данных по сердечным заболеваниям с использованием алгоритма кластеризации
К-средних 30
2.2.1. Кластеризация болезней сердца методом К-средних 30
ГЛАВА 3. ИССЛЕДОВАНИЕ ПРОГНОСТИЧЕСКИХ МОДЕЛЕЙ ПО ПРИЗНАКАМ БАЗЫ
ДАННЫХ (НА ПРИМЕРЕ СЕРДЕЧНОЙ НЕДОСТАТОЧНОСТИ) 33
3.1. Orange Data Mining 33
3.2. База данных 33
3.3. Набор данных в Orange Data Mining, ее интерпретация и настройка параметров 35
3.4. Алгоритмы обработки и прогнозирования данных 37
3.4.1. Дерево решений 38
3.4.2. Логистическая регрессия 41
3.4.3. Наивный Байесовский алгоритм 44
3.4.4. Индукция правил 47
3.5. Результаты прогнозирования алгоритмов 49
3.6. Тестирование алгоритмов принятия решений 50
3.7. Визуализация прогностических данных 58
Заключение 68
Список литературы 70
Актуальность проблемы
На протяжении многих лет ученые пытаются разгадать тайну работы мозга и создать устройства, способные принимать решения. Идея создания машин, обладающих подобием человеческого интеллекта, была очень привлекательна. Первоначальные успехи отмечались разработкой компьютеров, играющих в простые игры и доказывающих теоремы. Впоследствии были спроектированы интеллектуальные вычислительные устройства по образу и подобию биологических систем, которые привели к созданию теории нейронных сетей, ставшей одним из самых мощных и полезных подходов к разработке искусственного интеллекта [20].
Сейчас мы живем в веке цифровых технологий [3]. В условиях цифровизации общества, процесс поиска новых знаний, получаемых путем анализа данных, просто необходим. Знания анализируются с различных точек зрения и обобщаются в полезную информацию. Важность извлечения знаний и информации сделало интеллектуальный анализ данных важным фактором, прямо или косвенно влияющим на жизнь человека в различных сферах, в том числе в медицине и биологии. Современные технологии, внедренные в медицинскую диагностику, оказали большое влияние на предварительную постановку диагноза. Подходы глубокого обучения для анализа медицинских баз данных дают возможность разрабатывать удобные инструменты для исследовательского анализа, которые могут быть применены к широкому спектру задач [26]. Такой подход позволяет решать проблемы, с которыми невозможно справиться вручную в силу большого объема информации. При применении к большим данным, машинное обучение иногда может обнаружить тонкие взаимосвязи, которые остаются незамеченными при ручном исследовании. Когда многие такие «слабы» отношения объединяются, они становятся сильными предикторами [4]. На данный момент разработано немало экспертных систем обработки данных, построенные на основе ряда закономерностей и правил. Заложенные в программах алгоритмы позволяют диагностировать заболевание по определенной симптоматике, предсказать дальнейшее течение и исход заболевания на основе выбранного метода лечения, а также позволяет рассмотреть причины возникновения патологий. Обнаруженные, технологиями анализа данных (Data Mining), скрытые закономерности позволяют разрабатывать новые методы диагностики. Следовательно разработка системных методов медицинской диагностики является актуальной задачей, которая относится к разделу классификации [56]. Примером может служить работа, в которой описывается прогнозирование сахарного диабета. Её авторы рассматривают новый подход диагностики сахарного диабета, который основан на классификаторе нейронных сетей. Данный метод позволяет выявлять диабет на ранней стадии, что позволяет сохранить здоровье и жизни людей [60].
В данной выпускной квалификационной работе применяется аналитическая система Orange Data Mining. Данная программа является системой визуального программирования с открытым исходным кодом, который доступен для модификации и свободного распространения. Orange Data Mining был разработан Лабораторией биоинформатики Люблянского университета и институтом Йожефа Стефана (Bioinformatics Laboratory, Faculty of Computer and Information Science, University of Ljubljana, Slovenia). Программа предназначена для интеллектуального анализа данных, статистических исследований и визуализации данных. Orange Data Mining позволяет проводить эксперименты, выбирать систему рекомендаций и прогнозирования моделей. На основании изложенного можно выделить следующие функции Orange Data Mining:
1. Импорт и экспорт данных
2. Статистический анализ
3. Отчетность и аналитика
4. Визуализация данных
5. Интеллектуальный анализ данных
6. Коннекторы для источников данных.
Программа Orange Data Mining широко используется в биомедицине [53], биоинформатике, геномных исследованиях и обучении. В научных исследованиях программа используется как платформа тестирования новых алгоритмов машинного обучения и внедрения новых методов в генетике и биоинформатике. Программа так же нашла применение и в образовательном процессе. Её используют при обучении методам машинного обучения и интеллектуального анализа данных различного происхождения (биология, биомедицина [30], информатика). Для специалистов в области анализа данных, исследователей и ученых, данная аналитическая система является эффективным инструментом.
Благодаря адаптивному характеру машинного обучения, Orange Data Mining хорошо подходит для сценариев, в которых данные постоянно изменяются, свойство запросов и задач нестабильны или же написать код для решения фактически невозможно. Компоненты программы называются виджетами. Интерфейс программы Orange Data Mining предусмотрен для размещения виджетов и создания рабочего процесса анализа данных. Виджеты содержат базовые функциональные возможности, например чтение данных, отображение таблицы данных и так далее. Каждый виджет представляет собой программный блок, который каким- либо образом обрабатывает поступившую на его вход информацию и передает её дальше, для обработки, визуализации или сохранения следующим виджетом.
В настоящей работе изложены новые методы применения алгоритмов и инструментов интеграции, слияния, предварительной обработки, отображения, анализа и интерпретации сложных биомедицинских данных с целью выявления проверяемых гипотез и построения реалистичных моделей прогнозирования. Используемые биомедицинские данные относятся к области биологических наук, которые включают в себя различные отрасли медицины, одной из которых является кардиология. Кардиология - область науки, занимающаяся изучением широкого спектра проблем, связанных как с нормальным функционированием, так и с патологией сердечно-сосудистой системы человека. С практической точки зрения современная кардиология решает вопросы заболеваний, которые на сегодняшний день занимают ведущее место в инвалидизации и смертности населения планеты. Именно поэтому данная работа основана на клинико-диагностических исследованиях пациентов с риском возникновения сердечной недостаточности.
Сердечная недостаточность - это синдром, при котором нарушена работа сердца. Иными словами, это патологическое состояние, при котором работа сердечно-сосудистой системы не обеспечивает потребностей организма в кислороде сначала при физической нагрузке, а потом и в покое. Проявляется одышкой, слабостью, сердцебиением и повышенной утомляемостью. Это означает, что указанные признаки можно распределить по тем или иным классам и произвести автоматический анализ данных. Имеющийся инструментарий программы Orange Data Mining позволил выявить корреляционные зависимости и определить группы риска пациентов с сердечной недостаточностью. Полученные корреляционные зависимости дают возможность сформулировать рекомендации пациентам. Схожее исследование выполнено в работе по прогнозированию диабета 2 типа, где авторы рассмотрели семь классификаторов глубокой нейронной сети. Результатом исследования взаимосвязи классификаторов и заболевания стало выявление диабета в раннем возрасте и определение необходимого лечения [55].
Целью выпускной квалификационной работы является выявление прогностических возможностей алгоритмов машинного обучения и визуализации данных у групп риска пациентов с сердечной недостаточностью.
Для достижения указанной цели, были поставлены следующие задачи:
1. Изучить теоретические основы интеллектуального анализа данных.
2. Рассмотреть существующие методы интеллектуального анализа и изучить имеющуюся базу данных пациентов с сердечной недостаточностью.
3. Оценить эффективность применения методов анализа данных.
Объектом исследования являются диагностические данные о пациентах с сердечной недостаточностью или ее отсутствием. Имеющиеся данные включают 11 диагностических признаков, которые могут оказать влияние на данное заболевание.
Полученные результаты работы могут быть использованы при принятии решений в клинической практике врача, определении и корректировке методов лечения заболевания, а также при обучении студентов на занятиях по цифровым технологиям и формировании их роли в практической деятельности врача.
В выполненной работе были проанализированы и сопоставлены четыре прогностические модели интеллектуального анализа данных на примере сердечной недостаточности. Выполнив тестирование алгоритмов и оценку прогноза каждой модели, можно заключить, что алгоритм правил индукции является наиболее эффективным и обладает наименьшей погрешностью. Показатели коэффициента точности алгоритма правил индукций составили 95,2% при прогнозировании отсутствия сердечной недостаточности и 95,3% при диагностировании сердечной недостаточности. Вероятности
ложноположительных и ложноотрицательных результатов составили 4,8% и 4,7% соответственно.
Показатели точности алгоритма дерева решений незначительно уступают по эффективности алгоритму правил индукции. Показатели коэффициента точности алгоритма составили 92,5% при прогнозировании отсутствия сердечной недостаточности и 94,4% при диагностировании сердечной недостаточности. Вероятности ложноположительных и ложноотрицательных результатов составили 7,5% и 5,6% соответственно. Погрешность результатов алгоритма дерева решений немного выше, чем у алгоритма правил индукций, но в сравнении с другими исследуемыми прогностическими моделями значительно меньше. Соответственно данный алгоритм также весьма эффективен для помощи принятия врачебных решений при диагностике сердечной недостаточности. С целью повышения достоверности прогнозируемых результатов, совместное использование выше приведенных прогностических моделей позволит улучшить достоверность прогнозируемых данных.
Прогностические модели логистическая регрессия и наивный Баейс показали невысокие показатели точности прогнозов. У логистической регрессии показатели коэффициента точности алгоритма составили 74,7% при прогнозировании отсутствия сердечной недостаточности и 75,8% при диагностировании сердечной недостаточности. Вероятности ложноположительных и ложноотрицательных результатов составили 25,3% и 24,2% соответственно. У алгоритма наивного Байеса показатели коэффициента точности составили 74,6% при прогнозировании отсутствия сердечной недостаточности и 75,8% при прогнозировании наличия сердечной недостаточности. Вероятности ложноположительных и ложноотрицательных результатов составили 25,4% и 24,2% соответственно. Тестирование и оценка данных алгоритмов показали коэффициенты точности, которые значительно ниже вышеизложенных исследуемых прогностических моделей. Прогнозирование сердечной недостаточности на примере тестового набора данных по средствам данным алгоритмов, также показали высокую погрешность прогнозов. Следовательно данные прогностические модели наименее подходят для диагностики сердечной недостаточности. Мы связываем это с тем, что для логистической регрессии не хватает обучающей выборки, а алгоритм наивного Байеса предполагает независимость всех атрибутов данных и учитывает позитивное и негативное влияние каждого атрибута. Данное предположение алгоритма в анализе данных сердечной недостаточности выдает более высокие значения ошибочных прогнозов, так как совокупность нескольких клинико-диагностических данных увеличивает вероятность возникновения сердечной недостаточности в то время, как по отдельности эти признаки могут не приводить к возникновению сердечной недостаточности. Это может свидетельствовать об отдельных индивидуальных физиологических особенностях пациентов.
Корректное применение прогностических моделей позволяет медицинским организациям правильно распределять нагрузку на персонал, особенно в условиях ограниченных диагностических ресурсов. Прогностические модели превосходно подходят для определенных задач медицины, в частности при диагностике заболеваний по клинико-диагностическим признакам. Таким образом, прогностические модели позволяют увидеть даже незначительные закономерности при диагностике заболеваний, что позволяет снизить затраты на дополнительную диагностику и увеличить эффективность работы медицинского персонала.
1. Анализ данных / М.Ю. Архипова, В.П. Сиротин, В.С. Мхитарян [и др.]. - М.: Изд-во Юрайт, 2016. - 491 с.
2. Андерсон, К. Аналитическая культура. От сбора данных до бизнес-результатов / К. Андерсон. - СПб.: «Питер», 2015. - 392 с.
3. Благирев, А.П. Big data простым языком / А.П. Благирев. - М.: "Издательство АСТ", 2019. - 256 с.
4. Бринк, Х. Машинное обучение / Х. Бринк, Дж. Ричардс, М. Феверолф. - СПб.: "Питер", 2017. - 336 с.
5. Вьюгин, В.В. Математические основы теории машинного обучения и прогнозирования / В.В. Вьюгин. - М.: Издательство МЦНМО, 2013. - 304 с.
6. Гифт, Н. Прагматичный ИИ. Машинное обучение и облачные технологии / Н. Гифт. - СПб.: "Питер", 2019. - 306 с.
7. Грас, Д. Data Science. Наука о данных с нуля / Д. Грас. - СПб.: «БХВ-Петербург», 2021. - 416 с.
8. Джеймс, Г. Введение в статистическое обучение с примерами на языке R / Г. Джеймс, Д. Уиттон, Т. Хасти, Р. Тибширани. - М.: ДМК Пресс, 2017. - 456 с.
9. Джулли, А. Библиотека Keras - инструмент глубокого обучения / А. Джулли, С. Пал. - М.: ДМК Пресс, 2018. - 298 с.
10. Кук, Д. Машинное обучение с использованием библиотеки H2O / Д. Кук. - М.: ДМК Пресс, 2018. - 252 с.
11. Култыгин, О.П. Использование искусственного интеллекта - реальность и преспективы / О.П. Култыгин // Journal of applied informatics. - 2019. - Vol. 14. - DOI: org/10.24411/1993- 8314-2019-10010.
12. Люгер, Д.Ф. Искусственный интеллект. Стратегии и методы решения сложных проблем / Д.Ф. Люгер. - М.: ИД «Вильямс», 2003. - 864 с.
13. Марманис, Х. Алгоритмы интеллектуального Интернета. Передовые методики сбора, анализа и обработки данных / Х. Марманис, Д. Бабенко. - СПб.; М.: «Символ», 2011. - 468 с.
14. Мерков, А.Б. Распознавание образов: Введение в методы статистического обучения / А.Б. Мерков. - М.: Едиториал УРСС, 2011. - 254 с.
15. Молниеносный анализ данных / Х. Керау, Э. Конвински, П. Венделл, М. Захария. - М.: ДМК Пресс, 2015. - 306 с... 61