📄Работа №125129

Тема: Дискриминантный анализ базы данных

📝

Тип работы Бакалаврская работа

📚

Предмет база данных

📄

Объем: 59 листов

📅

Год: 2016

👁️

4700 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 4
Постановка задачи 5
Обзор литературы 6
1 Обзор математических методов 7
1.1 Дискриминантный анализ 7
1.1.1 Принцип дискриминации 7
1.1.2 Линейная дискриминация 7
1.1.3 Квадратичная дискриминация 10
1.2 Проверка выполнения условий 10
1.2.1 Критерий Шапиро-Уилка 10
1.2.2 Критерий Мардиа 11
1.2.3 Критерий Бартлетта 12
1.2.4 Box’s М test 12
1.3 Отбор признаков 13
1.3.1 Необходимости отбора 13
1.3.2 Лямбда Уилкса и тест на добавочную информацию 14
1.3.3 Пошаговый выбор: forward selection 15
1.4 Оценка величины ошибки 16
1.4.1 Ошибка обученной модели 16
1.4.2 Ошибка на обучении 17
1.4.3 Cross-validation leave-one-out 17
1.4.4 Bootstrap leave-one-out 18
1.4.5 Bootstrap 0.632 19
1.4.6 Bootstrap 0.632+ 20
2 Сведения из медицины 21
2.1 Сочетанная травма груди 21
2.2 Травматический шок 21
2.3 Медицинские шкалы 22
2.3.1 Военно-полевая хирургия (ВПХ) 22
2.3.2 Шкала комы Глазго 23
2.3.3 AIS и ISS 23
2.4 Анализ сердечного ритма 23
2.5 Артериальное давление (АД) 25
2.6 Анализ газов крови 26
2.7 Анализ крови 26
3 Анализ Данных 28
3.1 Описание задачи 28
3.2 Предварительная очистка данных 29
3.3 Пошаговый отбор признаков 30
3.3.1 Этап I 30
3.3.2 Этап II 33
3.3.3 Сравнение с результатами другого исследования 34
3.4 Дополнительный анализ с целью улучшения результата 35
3.5 Сравнение методов оценки величинах ошибки 38
Выводы 41
Заключение 43
Список литературы 44
Приложение 48

📖 Введение

Одним из самых актуальных разделов прикладной статистики на сегодняшний день является обучение классификационной модели с учителем. Методы классификации находят широкое применение в различных областях науки: в медицине [1], генетике [2], экономике [3], социологии [4].
Статистика всегда играла большую роль в медико-биологических системах. Благодаря этому, сам статистический анализ активно развивается. Достаточно вспомнить, что одной из ключевых фигур в статистике был и остается биолог Рональд Фишер. Но и сегодня в этой области возникают новые задачи, которые требуют нестандартного подхода к статистической обработке данных. Так, появляется класс задач анализа малого количества данных большой размерности, в биоинформатике получившие название Microarray Data [2].
Большая часть таких задач посвящена анализу различных смертельных болезней. Поэтому исследования формулируются в виде задачи классификации: предсказания летального или благоприятного исхода развития болезни для пациента. Основной проблемой в таких задачах при проведении статистического анализа является тот факт, что количество объектов в обучающей выборке в несколько раз меньше, чем признаков, описывающих каждого объекта. Поэтому возникает необходимость использования специальных методов, благодаря которым становится возможным использование классических методов классификации.
В данной работе будет анализироваться база данных по пациентам с травматической болезнью — сочетанной травмой груди. Будут рассматриваться актуальные методы, позволяющие расширить один из методов классификации, а именно дискриминантный анализ, на случай, когда число признаков превышает количество наблюдений.

✅ Заключение

В выпускной квалификационной работе проводилось исследование базы данных пострадавших с сочетанной травмой груди. Для непосредственной классификации использовался линейный и квадратичный дискриминантный анализ, для отбора признаков — пошаговый дискриминантный анализ, для оценки величинах ошибки — классический подход вычисления ошибки на обучении и современные методы cross-validation leave-one- out, bootstrap leave-one-out, bootstrap 0.632 и bootstrap 0.632+. Благодаря такому подходу, удалось добиться довольно высокой точности (81,5-87%) в ситуации, когда число признаков превышает количество наблюдений. Данный результат оказался лучше, по сравнению с прошлогодним исследованием тех же данных. После проведения пошагового анализа были проведены различные эксперименты с целью увеличения точности классификации. В результате, удалось найти более оптимальный набор признаков, на котором достигается еще более высокая точность (91,1-94,9%).

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

[1] Буре В. М., Щербакова А. А. Применение дискриминантного анализа и метода деревьев принятия решений для диагностики офтальмологических заболеваний // Вестник Санкт-Петербургского университета. Серия 10: Прикладная математика. Информатика. Процессы управления. 2013. № 1. С. 70-76.
[2] Dudoit S., Fridlyand J., Speed T. P. Comparison of discrimination methods for the classification of tumors using gene expression data // Journal of the American Statistical Association. 2002. Vol. 97 (457). P. 77-87.
[3] Hand D. J., Henley W. E. Statistical Classification Methods in Consumer Credit Scoring: A Review // Journal of the Royal Statistical Society. Series A (Statistics in Society). 1997. Vol. 160(3). P. 523-541.
[4] Мальцева А. В., Шилкина H. E., Махныткина О. В. Data minig в социологии: опыт и перспективы проведения исследования // Социологические исследования. 2016. А5 3. С. 35-44.
[5] Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ / пер. с англ. Енюкова И. С. и Новикова И. Д. / под ред. Башарина Г. П. М.: Мир, 1982. 488 с.
[6] Рао С. Р. — Линейные статистические методы и их применения / науч, ред. Линник Ю. В. / пер. с англ. Калинина В. М. и др. М.: Наука, 1968. 548 с.
[7] Fisher R. A. The use of multiple measurements in taxonomic problems // Annals of Eugenics. 1936. .,V°7. P. 179-188.
[8] Lachenbruch P. A. Some unsolved practical problems in discriminant analysis. Chapel Hill: University of North Carolina, 1975. 10 p.
[9] Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ, 2006. 816 с.
[10] Rencher А. С. Methods of Multivariate Analysis. 2nd Ed. New York: John Wiley & Sons, Inc., 2002. 738 p.
[11] Воронцов К. В. Лекции по статистическим (байесовским) алгоритмам классификации. http://www.machinelearning.ru / wiki/images/е/ed/Voron-ML-Bayes.pdf
[12] Hastie Т., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd Ed. New York: SpringerVerlag, 2009. 745 p.
[13] Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики. 2004. JV 13. С. 536.
[14] Lachenbruch Р. A., Mickey М. R. Estimation of error rates in discriminant analysis // Technometrics. 1968. A5 10(1) P. 1-11.
[15] Molinaro A. M., Simon R., Pfeiffer R. M. Prediction error estimation: a comparison of resampling methods // Bioinformatics. 2005. Vol. 21(15). P. 3301-3307.
...

🖼 Скриншоты

Фрагмент содержания с введением

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Телефон

Дополнительная информация

С условиями приобретения работы согласен

📋 Содержание 📖 Введение ✅ Заключение 📕 Литература 🖼 Скриншоты 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Тип работы *

Объем работы *

Срок выполнения *

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Каталог работ (208121)

Статьи

»» Все статьи

Вход в личный кабинет