Тема: Дискриминантный анализ базы данных
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
Постановка задачи 5
Обзор литературы 6
1 Обзор математических методов 7
1.1 Дискриминантный анализ 7
1.1.1 Принцип дискриминации 7
1.1.2 Линейная дискриминация 7
1.1.3 Квадратичная дискриминация 10
1.2 Проверка выполнения условий 10
1.2.1 Критерий Шапиро-Уилка 10
1.2.2 Критерий Мардиа 11
1.2.3 Критерий Бартлетта 12
1.2.4 Box’s М test 12
1.3 Отбор признаков 13
1.3.1 Необходимость отбора 13
1.3.2 Лямбда Уилкса и тест на добавочную информацию . 14
1.3.3 Пошаговый выбор: forward selection 15
1.4 Оценка величины ошибки 16
1.4.1 Ошибка обученной модели 16
1.4.2 Ошибка на обучении 17
1.4.3 Cross-validation leave-one-out 17
1.4.4 Bootstrap leave-one-out 18
1.4.5 Bootstrap 0.632 19
1.4.6 Bootstrap 0.632+ 20
2 Сведения из медицины 21
2.1 Сочетанная травма груди 21
2.2 Травматический шок 21
2.3 Медицинские шкалы 22
2.3.1 Военно-полевая хирургия (ВПХ) 22
2.3.2 Шкала комы Глазго 23
2.3.3 AIS и ISS 23
2.4 Анализ сердечного ритма 23
2.5 Артериальное давление (АД) 25
2.6 Анализ газов крови 26
2.7 Анализ крови 26
3 Анализ Данных 28
3.1 Описание задачи 28
3.2 Предварительная очистка данных 29
3.3 Пошаговый отбор признаков 30
3.3.1 Этап I 30
3.3.2 Этап II 33
3.3.3 Сравнение с результатами другого исследования ... 34
3.4 Дополнительный анализ с целью улучшения результата ... 35
3.5 Сравнение методов оценки величины
ошибки 38
Выводы 41
Заключение 43
Список литературы 44
Приложение
📖 Введение
Статистика всегда играла большую роль в медико-биологических системах. Благодаря этому, сам статистический анализ активно развивается. Достаточно вспомнить, что одной из ключевых фигур в статистике был и остается биолог Рональд Фишер. Но и сегодня в этой области возникают новые задачи, которые требуют нестандартного подхода к статистической обработке данных. Так, появляется класс задач анализа малого количества данных большой размерности, в биоинформатике получившие название Microarray Data [2].
Большая часть таких задач посвящена анализу различных смертельных болезней. Поэтому исследования формулируются в виде задачи классификации: предсказания летального или благоприятного исхода развития болезни для пациента. Основной проблемой в таких задачах при проведении статистического анализа является тот факт, что количество объектов в обучающей выборке в несколько раз меньше, чем признаков, описывающих каждого объекта. Поэтому возникает необходимость использования специальных методов, благодаря которым становится возможным использование классических методов классификации.
В данной работе будет анализироваться база данных по пациентам с травматической болезнью — сочетанной травмой груди. Будут рассматриваться актуальные методы, позволяющие расширить один из методов классификации, а именно дискриминантный анализ, на случай, когда число признаков превышает количество наблюдений.
Постановка задачи
Требуется построить классификатор m : X ^ Y, который будет определять принадлежность х G X к одному из классов. С практической точки зрения, имеется обучающая выборка из п наблюдений: {хД/=1, для каждого из которых известно, к какой популяции он относится. Необходимо построить классификатор, предназначенный для последующего прогнозирования принадлежности к классам наблюдений, которые могут появиться впоследствии. Построение классификатора происходит за счет обучения на имеющихся данных [5].
В выпускной квалификационной работе рассматривается медицинская база данных пострадавших с сочетанной травмой груди, каждый из которых описывается большим количеством различных признаков. Для каждого пациента известно, исход полученной травмы был смертельный или благоприятный. Необходимо построить классификационное правило, позволяющее предсказать исход травмы для будущих пострадавших в ситуации, когда число наблюдений в обучающей выборке меньше числа признаков. С медицинской точки зрения, задача состоит в выявлении признаков, которые являются наиболее важными при оценке критического состояния пациента.
Обзор литературы
Основная часть теории из математической главы была взята преимущественно из книг:
1. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ [5].
2. Рао С. Р. — Линейные статистические методах и их применения [6].
3. Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников [9].
4. Rencher А. С. Methods of Multivariate Analysis [10].
5. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning:
Data Mining, Inference, and Prediction [12].
Большая часть сведений из медицины была взята из книг:
1. Соколов В.А. Множественные и сочетание травмах (практическое руководство для врачей травматологов) [22].
2. Мусалатов X. А. Хирургия катастроф [26].
3. Военно-полевая хирургия [27].
4. Зудбинов Ю. И. Азбука ЭКГ [29].
5. Руководство по кардиологии [30].
6. Хеннеси А. А. М., Джапп А. Д. Анализ газов артериальной крови понятным языком [33].



