Тип работы:
Предмет:
Язык работы:


Дискриминантный анализ базы данных

Работа №125129

Тип работы

Бакалаврская работа

Предмет

базы данных

Объем работы59
Год сдачи2016
Стоимость4700 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
20
Не подходит работа?

Узнай цену на написание


Введение 4
Постановка задачи 5
Обзор литературы 6
1 Обзор математических методов 7
1.1 Дискриминантный анализ 7
1.1.1 Принцип дискриминации 7
1.1.2 Линейная дискриминация 7
1.1.3 Квадратичная дискриминация 10
1.2 Проверка выполнения условий 10
1.2.1 Критерий Шапиро-Уилка 10
1.2.2 Критерий Мардиа 11
1.2.3 Критерий Бартлетта 12
1.2.4 Box’s М test 12
1.3 Отбор признаков 13
1.3.1 Необходимости отбора 13
1.3.2 Лямбда Уилкса и тест на добавочную информацию 14
1.3.3 Пошаговый выбор: forward selection 15
1.4 Оценка величины ошибки 16
1.4.1 Ошибка обученной модели 16
1.4.2 Ошибка на обучении 17
1.4.3 Cross-validation leave-one-out 17
1.4.4 Bootstrap leave-one-out 18
1.4.5 Bootstrap 0.632 19
1.4.6 Bootstrap 0.632+ 20
2 Сведения из медицины 21
2.1 Сочетанная травма груди 21
2.2 Травматический шок 21
2.3 Медицинские шкалы 22
2.3.1 Военно-полевая хирургия (ВПХ) 22
2.3.2 Шкала комы Глазго 23
2.3.3 AIS и ISS 23
2.4 Анализ сердечного ритма 23
2.5 Артериальное давление (АД) 25
2.6 Анализ газов крови 26
2.7 Анализ крови 26
3 Анализ Данных 28
3.1 Описание задачи 28
3.2 Предварительная очистка данных 29
3.3 Пошаговый отбор признаков 30
3.3.1 Этап I 30
3.3.2 Этап II 33
3.3.3 Сравнение с результатами другого исследования 34
3.4 Дополнительный анализ с целью улучшения результата 35
3.5 Сравнение методов оценки величинах ошибки 38
Выводы 41
Заключение 43
Список литературы 44
Приложение 48

Одним из самых актуальных разделов прикладной статистики на се­годняшний день является обучение классификационной модели с учителем. Методы классификации находят широкое применение в различных обла­стях науки: в медицине [1], генетике [2], экономике [3], социологии [4].
Статистика всегда играла большую роль в медико-биологических си­стемах. Благодаря этому, сам статистический анализ активно развивается. Достаточно вспомнить, что одной из ключевых фигур в статистике был и остается биолог Рональд Фишер. Но и сегодня в этой области возникают новые задачи, которые требуют нестандартного подхода к статистической обработке данных. Так, появляется класс задач анализа малого количе­ства данных большой размерности, в биоинформатике получившие назва­ние Microarray Data [2].
Большая часть таких задач посвящена анализу различных смертель­ных болезней. Поэтому исследования формулируются в виде задачи клас­сификации: предсказания летального или благоприятного исхода развития болезни для пациента. Основной проблемой в таких задачах при проведе­нии статистического анализа является тот факт, что количество объектов в обучающей выборке в несколько раз меньше, чем признаков, описыва­ющих каждого объекта. Поэтому возникает необходимость использования специальных методов, благодаря которым становится возможным исполь­зование классических методов классификации.
В данной работе будет анализироваться база данных по пациентам с травматической болезнью — сочетанной травмой груди. Будут рассмат­риваться актуальные методы, позволяющие расширить один из методов классификации, а именно дискриминантный анализ, на случай, когда чис­ло признаков превышает количество наблюдений.

Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В выпускной квалификационной работе проводилось исследование базы данных пострадавших с сочетанной травмой груди. Для непосред­ственной классификации использовался линейный и квадратичный дискриминантный анализ, для отбора признаков — пошаговый дискриминант­ный анализ, для оценки величинах ошибки — классический подход вычисления ошибки на обучении и современные методы cross-validation leave-one- out, bootstrap leave-one-out, bootstrap 0.632 и bootstrap 0.632+. Благодаря такому подходу, удалось добиться довольно высокой точности (81,5-87%) в ситуации, когда число признаков превышает количество наблюдений. Дан­ный результат оказался лучше, по сравнению с прошлогодним исследовани­ем тех же данных. После проведения пошагового анализа были проведены различные эксперименты с целью увеличения точности классификации. В результате, удалось найти более оптимальный набор признаков, на котором достигается еще более высокая точность (91,1-94,9%).


[1] Буре В. М., Щербакова А. А. Применение дискриминантного анализа и метода деревьев принятия решений для диагностики офтальмологи­ческих заболеваний // Вестник Санкт-Петербургского университета. Серия 10: Прикладная математика. Информатика. Процессы управле­ния. 2013. № 1. С. 70-76.
[2] Dudoit S., Fridlyand J., Speed T. P. Comparison of discrimination methods for the classification of tumors using gene expression data // Journal of the American Statistical Association. 2002. Vol. 97 (457). P. 77-87.
[3] Hand D. J., Henley W. E. Statistical Classification Methods in Consumer Credit Scoring: A Review // Journal of the Royal Statistical Society. Series A (Statistics in Society). 1997. Vol. 160(3). P. 523-541.
[4] Мальцева А. В., Шилкина H. E., Махныткина О. В. Data minig в со­циологии: опыт и перспективы проведения исследования // Социоло­гические исследования. 2016. А5 3. С. 35-44.
[5] Афифи А., Эйзен С. Статистический анализ: Подход с использовани­ем ЭВМ / пер. с англ. Енюкова И. С. и Новикова И. Д. / под ред. Башарина Г. П. М.: Мир, 1982. 488 с.
[6] Рао С. Р. — Линейные статистические методы и их применения / науч, ред. Линник Ю. В. / пер. с англ. Калинина В. М. и др. М.: Наука, 1968. 548 с.
[7] Fisher R. A. The use of multiple measurements in taxonomic problems // Annals of Eugenics. 1936. .,V°7. P. 179-188.
[8] Lachenbruch P. A. Some unsolved practical problems in discriminant analysis. Chapel Hill: University of North Carolina, 1975. 10 p.
[9] Кобзарь А. И. Прикладная математическая статистика. Для инжене­ров и научных работников. М.: ФИЗМАТЛИТ, 2006. 816 с.
[10] Rencher А. С. Methods of Multivariate Analysis. 2nd Ed. New York: John Wiley & Sons, Inc., 2002. 738 p.
[11] Воронцов К. В. Лекции по статистическим (байесовским) алгоритмам классификации. http://www.machinelearning.ru / wiki/images/е/ed/Voron-ML-Bayes.pdf
[12] Hastie Т., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd Ed. New York: Springer­Verlag, 2009. 745 p.
[13] Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики. 2004. JV 13. С. 5­36.
[14] Lachenbruch Р. A., Mickey М. R. Estimation of error rates in discriminant analysis // Technometrics. 1968. A5 10(1) P. 1-11.
[15] Molinaro A. M., Simon R., Pfeiffer R. M. Prediction error estimation: a comparison of resampling methods // Bioinformatics. 2005. Vol. 21(15). P. 3301-3307.
...


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ