Введение 4
Постановка задачи 5
Обзор литературы 6
1 Обзор математических методов 7
1.1 Дискриминантный анализ 7
1.1.1 Принцип дискриминации 7
1.1.2 Линейная дискриминация 7
1.1.3 Квадратичная дискриминация 10
1.2 Проверка выполнения условий 10
1.2.1 Критерий Шапиро-Уилка 10
1.2.2 Критерий Мардиа 11
1.2.3 Критерий Бартлетта 12
1.2.4 Box’s М test 12
1.3 Отбор признаков 13
1.3.1 Необходимости отбора 13
1.3.2 Лямбда Уилкса и тест на добавочную информацию 14
1.3.3 Пошаговый выбор: forward selection 15
1.4 Оценка величины ошибки 16
1.4.1 Ошибка обученной модели 16
1.4.2 Ошибка на обучении 17
1.4.3 Cross-validation leave-one-out 17
1.4.4 Bootstrap leave-one-out 18
1.4.5 Bootstrap 0.632 19
1.4.6 Bootstrap 0.632+ 20
2 Сведения из медицины 21
2.1 Сочетанная травма груди 21
2.2 Травматический шок 21
2.3 Медицинские шкалы 22
2.3.1 Военно-полевая хирургия (ВПХ) 22
2.3.2 Шкала комы Глазго 23
2.3.3 AIS и ISS 23
2.4 Анализ сердечного ритма 23
2.5 Артериальное давление (АД) 25
2.6 Анализ газов крови 26
2.7 Анализ крови 26
3 Анализ Данных 28
3.1 Описание задачи 28
3.2 Предварительная очистка данных 29
3.3 Пошаговый отбор признаков 30
3.3.1 Этап I 30
3.3.2 Этап II 33
3.3.3 Сравнение с результатами другого исследования 34
3.4 Дополнительный анализ с целью улучшения результата 35
3.5 Сравнение методов оценки величинах ошибки 38
Выводы 41
Заключение 43
Список литературы 44
Приложение 48
Одним из самых актуальных разделов прикладной статистики на сегодняшний день является обучение классификационной модели с учителем. Методы классификации находят широкое применение в различных областях науки: в медицине [1], генетике [2], экономике [3], социологии [4].
Статистика всегда играла большую роль в медико-биологических системах. Благодаря этому, сам статистический анализ активно развивается. Достаточно вспомнить, что одной из ключевых фигур в статистике был и остается биолог Рональд Фишер. Но и сегодня в этой области возникают новые задачи, которые требуют нестандартного подхода к статистической обработке данных. Так, появляется класс задач анализа малого количества данных большой размерности, в биоинформатике получившие название Microarray Data [2].
Большая часть таких задач посвящена анализу различных смертельных болезней. Поэтому исследования формулируются в виде задачи классификации: предсказания летального или благоприятного исхода развития болезни для пациента. Основной проблемой в таких задачах при проведении статистического анализа является тот факт, что количество объектов в обучающей выборке в несколько раз меньше, чем признаков, описывающих каждого объекта. Поэтому возникает необходимость использования специальных методов, благодаря которым становится возможным использование классических методов классификации.
В данной работе будет анализироваться база данных по пациентам с травматической болезнью — сочетанной травмой груди. Будут рассматриваться актуальные методы, позволяющие расширить один из методов классификации, а именно дискриминантный анализ, на случай, когда число признаков превышает количество наблюдений.
В выпускной квалификационной работе проводилось исследование базы данных пострадавших с сочетанной травмой груди. Для непосредственной классификации использовался линейный и квадратичный дискриминантный анализ, для отбора признаков — пошаговый дискриминантный анализ, для оценки величинах ошибки — классический подход вычисления ошибки на обучении и современные методы cross-validation leave-one- out, bootstrap leave-one-out, bootstrap 0.632 и bootstrap 0.632+. Благодаря такому подходу, удалось добиться довольно высокой точности (81,5-87%) в ситуации, когда число признаков превышает количество наблюдений. Данный результат оказался лучше, по сравнению с прошлогодним исследованием тех же данных. После проведения пошагового анализа были проведены различные эксперименты с целью увеличения точности классификации. В результате, удалось найти более оптимальный набор признаков, на котором достигается еще более высокая точность (91,1-94,9%).
[1] Буре В. М., Щербакова А. А. Применение дискриминантного анализа и метода деревьев принятия решений для диагностики офтальмологических заболеваний // Вестник Санкт-Петербургского университета. Серия 10: Прикладная математика. Информатика. Процессы управления. 2013. № 1. С. 70-76.
[2] Dudoit S., Fridlyand J., Speed T. P. Comparison of discrimination methods for the classification of tumors using gene expression data // Journal of the American Statistical Association. 2002. Vol. 97 (457). P. 77-87.
[3] Hand D. J., Henley W. E. Statistical Classification Methods in Consumer Credit Scoring: A Review // Journal of the Royal Statistical Society. Series A (Statistics in Society). 1997. Vol. 160(3). P. 523-541.
[4] Мальцева А. В., Шилкина H. E., Махныткина О. В. Data minig в социологии: опыт и перспективы проведения исследования // Социологические исследования. 2016. А5 3. С. 35-44.
[5] Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ / пер. с англ. Енюкова И. С. и Новикова И. Д. / под ред. Башарина Г. П. М.: Мир, 1982. 488 с.
[6] Рао С. Р. — Линейные статистические методы и их применения / науч, ред. Линник Ю. В. / пер. с англ. Калинина В. М. и др. М.: Наука, 1968. 548 с.
[7] Fisher R. A. The use of multiple measurements in taxonomic problems // Annals of Eugenics. 1936. .,V°7. P. 179-188.
[8] Lachenbruch P. A. Some unsolved practical problems in discriminant analysis. Chapel Hill: University of North Carolina, 1975. 10 p.
[9] Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ, 2006. 816 с.
[10] Rencher А. С. Methods of Multivariate Analysis. 2nd Ed. New York: John Wiley & Sons, Inc., 2002. 738 p.
[11] Воронцов К. В. Лекции по статистическим (байесовским) алгоритмам классификации. http://www.machinelearning.ru / wiki/images/е/ed/Voron-ML-Bayes.pdf
[12] Hastie Т., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd Ed. New York: SpringerVerlag, 2009. 745 p.
[13] Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики. 2004. JV 13. С. 536.
[14] Lachenbruch Р. A., Mickey М. R. Estimation of error rates in discriminant analysis // Technometrics. 1968. A5 10(1) P. 1-11.
[15] Molinaro A. M., Simon R., Pfeiffer R. M. Prediction error estimation: a comparison of resampling methods // Bioinformatics. 2005. Vol. 21(15). P. 3301-3307.
...