Тип работы:
Предмет:
Язык работы:


Дискриминантный анализ базы данных

Работа №74623

Тип работы

Дипломные работы, ВКР

Предмет

математика

Объем работы59
Год сдачи2016
Стоимость4340 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
92
Не подходит работа?

Узнай цену на написание


Введение 4
Постановка задачи 5
Обзор литературы 6
1 Обзор математических методов 7
1.1 Дискриминантный анализ 7
1.1.1 Принцип дискриминации 7
1.1.2 Линейная дискриминация 7
1.1.3 Квадратичная дискриминация 10
1.2 Проверка выполнения условий 10
1.2.1 Критерий Шапиро-Уилка 10
1.2.2 Критерий Мардиа 11
1.2.3 Критерий Бартлетта 12
1.2.4 Box’s М test 12
1.3 Отбор признаков 13
1.3.1 Необходимость отбора 13
1.3.2 Лямбда Уилкса и тест на добавочную информацию . 14
1.3.3 Пошаговый выбор: forward selection 15
1.4 Оценка величины ошибки 16
1.4.1 Ошибка обученной модели 16
1.4.2 Ошибка на обучении 17
1.4.3 Cross-validation leave-one-out 17
1.4.4 Bootstrap leave-one-out 18
1.4.5 Bootstrap 0.632 19
1.4.6 Bootstrap 0.632+ 20
2 Сведения из медицины 21
2.1 Сочетанная травма груди 21
2.2 Травматический шок 21
2.3 Медицинские шкалы 22
2.3.1 Военно-полевая хирургия (ВПХ) 22
2.3.2 Шкала комы Глазго 23
2.3.3 AIS и ISS 23
2.4 Анализ сердечного ритма 23
2.5 Артериальное давление (АД) 25
2.6 Анализ газов крови 26
2.7 Анализ крови 26
3 Анализ Данных 28
3.1 Описание задачи 28
3.2 Предварительная очистка данных 29
3.3 Пошаговый отбор признаков 30
3.3.1 Этап I 30
3.3.2 Этап II 33
3.3.3 Сравнение с результатами другого исследования ... 34
3.4 Дополнительный анализ с целью улучшения результата ... 35
3.5 Сравнение методов оценки величины
ошибки 38
Выводы 41
Заключение 43
Список литературы 44
Приложение


Одним из самых актуальных разделов прикладной статистики на сегодняшний день является обучение классификационной модели с учителем. Методы классификации находят широкое применение в различных областях науки: в медицине [1], генетике [2], экономике [3], социологии [4].
Статистика всегда играла большую роль в медико-биологических системах. Благодаря этому, сам статистический анализ активно развивается. Достаточно вспомнить, что одной из ключевых фигур в статистике был и остается биолог Рональд Фишер. Но и сегодня в этой области возникают новые задачи, которые требуют нестандартного подхода к статистической обработке данных. Так, появляется класс задач анализа малого количества данных большой размерности, в биоинформатике получившие название Microarray Data [2].
Большая часть таких задач посвящена анализу различных смертельных болезней. Поэтому исследования формулируются в виде задачи классификации: предсказания летального или благоприятного исхода развития болезни для пациента. Основной проблемой в таких задачах при проведении статистического анализа является тот факт, что количество объектов в обучающей выборке в несколько раз меньше, чем признаков, описывающих каждого объекта. Поэтому возникает необходимость использования специальных методов, благодаря которым становится возможным использование классических методов классификации.
В данной работе будет анализироваться база данных по пациентам с травматической болезнью — сочетанной травмой груди. Будут рассматриваться актуальные методы, позволяющие расширить один из методов классификации, а именно дискриминантный анализ, на случай, когда число признаков превышает количество наблюдений.
Постановка задачи
Требуется построить классификатор m : X ^ Y, который будет определять принадлежность х G X к одному из классов. С практической точки зрения, имеется обучающая выборка из п наблюдений: {хД/=1, для каждого из которых известно, к какой популяции он относится. Необходимо построить классификатор, предназначенный для последующего прогнозирования принадлежности к классам наблюдений, которые могут появиться впоследствии. Построение классификатора происходит за счет обучения на имеющихся данных [5].
В выпускной квалификационной работе рассматривается медицинская база данных пострадавших с сочетанной травмой груди, каждый из которых описывается большим количеством различных признаков. Для каждого пациента известно, исход полученной травмы был смертельный или благоприятный. Необходимо построить классификационное правило, позволяющее предсказать исход травмы для будущих пострадавших в ситуации, когда число наблюдений в обучающей выборке меньше числа признаков. С медицинской точки зрения, задача состоит в выявлении признаков, которые являются наиболее важными при оценке критического состояния пациента.
Обзор литературы
Основная часть теории из математической главы была взята преимущественно из книг:
1. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ [5].
2. Рао С. Р. — Линейные статистические методах и их применения [6].
3. Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников [9].
4. Rencher А. С. Methods of Multivariate Analysis [10].
5. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning:
Data Mining, Inference, and Prediction [12].
Большая часть сведений из медицины была взята из книг:
1. Соколов В.А. Множественные и сочетание травмах (практическое руководство для врачей травматологов) [22].
2. Мусалатов X. А. Хирургия катастроф [26].
3. Военно-полевая хирургия [27].
4. Зудбинов Ю. И. Азбука ЭКГ [29].
5. Руководство по кардиологии [30].
6. Хеннеси А. А. М., Джапп А. Д. Анализ газов артериальной крови понятным языком [33].


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


В выпускной квалификационной работе проводилось исследование базы данных пострадавших с сочетанной травмой груди. Для непосредственной классификации использовались линейный и квадратичный дискриминантный анализ, для отбора признаков — пошаговый дискриминантный анализ, для оценки величины ошибки — классический подход вычисления ошибки на обучении и современные методы cross-validation leave-one- out, bootstrap leave-one-out, bootstrap 0.632 и bootstrap 0.632+. Благодаря такому подходу, удалось добиться довольно высокой точности (81,5-87%) в ситуации, когда число признаков превышает количество наблюдений. Данный результат оказался лучше, по сравнению с прошлогодним исследованием тех же данных. После проведения пошагового анализа были проведены различные эксперименты с целью увеличения точности классификации. В результате, удалось найти более оптимальный набор признаков, на котором достигается еще более высокая точность (91,1-94,9%).


[1] Буре В. М., Щербакова А. А. Применение дискриминантного анализа и метода деревьев принятия решений для диагностики офтальмологических заболеваний // Вестник Санкт-Петербургского университета. Серия 10: Прикладная математика. Информатика. Процессах управления. 2013. № 1. С. 70-76.
[2] Dudoit S., Fridlyand J., Speed T. P. Comparison of discrimination methods for the classification of tumors using gene expression data // Journal of the American Statistical Association. 2002. Vol. 97 (457). P. 77-87.
[3] Hand D. J., Henley W. E. Statistical Classification Methods in Consumer Credit Scoring: A Review // Journal of the Royal Statistical Society. Series A (Statistics in Society). 1997. Vol. 160(3). P. 523-541.
[4] Малвцева А. В., Шилкина H. E., Махныткина О. В. Data minig в социологии: опвхт и перспективах проведения исследования // Социологические исследования. 2016. № 3. С. 35-44.
[5] Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ / пер. с англ. Енюкова И. С. и Новикова И. Д. / под ред. Башарина Г. П. М.: Мир, 1982. 488 с.
[6] Рао С. Р. — Линейнвхе статистические методвх и их применения / науч, ред. Линник Ю. В. / пер. с англ. Калинина В. М. и др. М.: Наука, 1968. 548 с.
[7] Fisher R. A. The use of multiple measurements in taxonomic problems // Annals of Eugenics. 1936. №7. P. 179-188.
[8] Lachenbruch P. A. Some unsolved practical problems in discriminant analysis. Chapel Hill: University of North Carolina, 1975. 10 p.
[9] Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ, 2006. 816 с.
[10] Rencher А. С. Methods of Multivariate Analysis. 2nd Ed. New York: John Wiley & Sons, Inc., 2002. 738 p.
[11] Воронцов К. В. Лекции по статистическим (байесовским) алгоритмам классификации.
http://www.machinelearning.ru/ wiki/images/е/ed/Voron-ML-Bayes.pdf
[12] Hastie Т., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd Ed. New York: Springer¬Verlag, 2009. 745 p.
[13] Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики. 2004. JV 13. С. 5¬36.
[14] Lachenbruch Р. A., Mickey М. R. Estimation of error rates in discriminant analysis // Technometrics. 1968. A5 10(1) P. 1-11.
[15] Molinaro A. M., Simon R., Pfeiffer R. M. Prediction error estimation: a comparison of resampling methods // Bioinformatics. 2005. Vol. 21(15). P. 3301-3307.
[16] Braga-Neto U. M., Dougherty E. R. Is cross-validation valid for small¬sample microarray classification? // Bioinformatics. 2004. Vol. 20(3). P. 374-380.
[17] Эфрон Б. Нетрадиционные методы многомерного статистического анализа: Сб. статей / пер. с англ. / предисловие Адлера Ю. П., Кошевника Ю. А. М.: Финансы и статистика, 1988. 263 с.
[18] Efron В. Estimating the error rate of a prediction rule: improvement on Cross-Validation // Journal of the American Statistical Association. 1983. Vol. 78(382). P. 316-331.
[19] Efron В., Tibshirani R. Improvements on Cross-Validation: The .632+ Bootstrap Method // Journal of the American Statistical Association. 1997. Vol. 92 (438). P. 548-560.
[20] Vu T., Sima C., Braga-Neto U. M., Dougherty E. R. Unbiased bootstrap error estimation for linear discriminant analysis // EURASIP Journal on Bioinformatics and Systems Biology. 2014. Vol. 2014(15). P. 1-14.
[21] Нестеров А. В. Состояние вопроса травмы внутри салона автомобиля при ДТП // Избранные вопросы судебно-медицинской экспертизы,
2007. №82. С. 10-22.
[22] Соколов В. А. Множественные и сочетанные травмы (практическое руководство для врачей травматологов). М.: ГЭОТАРМедиа, 2006. С. 512
[23] Altieri R., Citarelli С., Cofano F., Zenga F., Ducati A., Garbossa D. — Concomitant Thoracic and Spinal Injuries in Politraumatized Patient, a Frequent but Few Discussed Entity. A Case Report. // Journal of Universal Surgery, 2015. Vol. 3(5).
[24] Гринцов А. Г., Куницкий Ю. Л., Христуленко А. А. Особенности клиники и диагностики при сочетанной травме груди и живота. // Травма, 2012. Т. 13(4). С. 154-156.
[25] Вагнер Е. А. Хирургия повреждений груди. М.: Медицина, 1981. 288 с.
[26] Мусалатов X. А. Хирургия катастроф. М.: Медицина, 1998. 592 с.
[27] Военно-полевая хирургия / под ред. проф. Гуманенко Е. К. 2-е издание. СПб: Изд-во Фолиант, 2008. 464 с.
[28] Teasdale G. &Jennett В. Assessment of coma and impaired consciousness. A practical scale. // Lancet, 1974. Vol. 2(7872) P. 81-84
[29] Зудбинов Ю. И. Азбука ЭКГ. Изд. 3-е. Ростов-на-Дону: изд-во «Феникс», 2003. 160 с.
[30] Руководство по кардиологии / под ред. Коваленко В. И. Киев: МОРИОН, 2008. 1424 с.
[31] Бокерия Л. А., Бокерия О. Л., Волковская И. В. Вариабельность сердечного ритма: методы измерения, интерпретация, клиническое использование. // Анналы Аритмологии, 2009. V2 4. С. 21-32.
[32] Medweb. http://www.medweb.ru(дата обращения: 25.03.16).
[33] Хеннеси А. А. М., Джапп А. Д. Анализ газов артериальной крови понятным языком / пер. с англ, под ред. Кассиля В. Л. М.: Практическая медицина, 2009. 140 с.
[34] Medportal, http://medportal.ru(дата обращения: 27.03.16).
[35] Семенников Д. Н. Классификация больных с тяжёлой сочетанной травмой грудной клетки // Процессы управления и устойчивость. 2015. Т. 2. № 1. С. 317-321.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ