Тип работы:
Предмет:
Язык работы:


Исследование методов дискриминантного анализа базы данных

Работа №106523

Тип работы

Бакалаврская работа

Предмет

информатика

Объем работы44
Год сдачи2021
Стоимость4265 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
47
Не подходит работа?

Узнай цену на написание


Введение 6
1 Теория дискриминантного анализа и статистика 8
1.1 Постановка задачи 8
1.2 Дискриминантный анализ 9
1.2.1 Основа дискриминантного анализа 9
1.2.2 Линейный дискриминантный анализ 9
1.2.3 Квадратичный дискриминантный анализ 11
1.2.4 Смешанный дискриминантный анализ 13
1.2.5 Гибкий дискриминантный анализ 14
1.2.6 Регуляризированный дискриминантный анализ 14
1.3 Проверка нормальности распределения выполнения условия Критерий
Шапиро-Уилкса 15
1.4 Отбор значащих признаков 16
1.4.1 Важность отбора 16
1.4.2 Лямбда Уилкса 17
1.4.3 Пошаговый выбор 19
1.5 Методы определения величины ошибки 20
1.5.1 Ошибка обученной модели 20
1.5.2 Bootstrap 0.632 21
1.5.3 Bootstrap 0.632+ 22
2 Программная реализация алгоритмов дискриминантного анализа 24
2.1 Обзор исходных данных анализа 24
2.1.1 Ирисы Фишера 24
2.1.2 Набор данных по сердечным заболеваниям 24
2.2 Разработка приложения 27
2.2.1 Выбор технологий 27
2.2.2 Разработка 27
3 Тестирование 36
3.1 Описание ситуации 36
3.2 Анализ входных данных 37
3.3 Полученный результат 38
3.3 Сравнение методов, определения точности модели 39
Заключение 42
Список используемой литературы 43


Дискриминантный анализ - это метод статистического анализа, который направлен на решение проблемы классификации объекта по заранее известным группам. Впервые решение задачи классификации этим методом продемонстрировал Рональд Фишер, который на примере данный по более чем ста ирисам трёх видов построил правила (функции) отнесения нового ириса к одной из известных групп.
Начиная с этого момента и далее дискриминантный анализ стал применяться в разный направлениях, в первую очередь в биологии, медицине, экономике, социологии и не только. Благодаря тому, что в результате анализа можно не только получить значение различий групп, но и определить те признаки, которые вносят больший вклад в определение принадлежности к группе сегодня методы дискриминантного анализа применяются даже в распознавании образов и машинном обучении, а самих методов стало больше, поэтому применение и реализация данного метода статистического анализа представляет научно-практический интерес.
В данной выпускной бакалаврской работе объектом исследования является данные о сердечных заболеваниях. Таким образом, актуальность бакалаврской работы обусловлена анализам раннее не исследованных данных с применением методов дискриминантного анализа.
Предметом исследования являются методы дискриминантного анализа.
Целью выпускной квалификационной работы является решение задачи классификации с применением методов программирования по работе с большими объемами данных.
Для достижения поставленной цели необходимо решить следующие задачи:
- изучить теоретический материал о дискриминантном анализе;
- разработать алгоритм для решения задачи классификации;
- выполнить программную реализацию разработанного в предыдущей задаче алгоритма;
- провести исследование эффективности алгоритма, реализованного в предыдущей задаче.
Выпускная квалификационная работа состоит из введения, трех разделов, заключения, списка используемых источников.
В разделе 1 рассматривается общая постановка задачи классификации методом дискриминантного анализа, и теоретическая информация о работе с большими объемами данных и из анализом. В разделе 2 описываются входные данные для анализа и разрабатывается программное обеспечение для решения задачи. В разделе 3 проводится анализ полученных результатов работы алгоритма. В заключении представлены результаты и выводы о проделанной работе.


Возникли сложности?

Нужна помощь преподавателя?

Помощь студентам в написании работ!


Тема бакалаврской работы была посвящена исследованию методов дискриминантного анализа, а также проблеме классификации при работе с многомерными данными.
В ходе выполнения был изучен теоретический материал, а также изучены несколько методов дискриминантного анализа:
- Линейный дискриминантный анализ;
- Квадратичный дискриминантный анализ;
- Смешанный дискриминантный анализ;
- Гибкий дискриминантный анализ;
- Регуляризированный дискриминантный анализ.
Для проведения исследования потребовалось рассмотреть методы определения ошибки bootstrap, а также метод отбора значащих признаков из общей совокупности признаков.
В ходе дальнейшего выполнения работы было разработано программное обеспечение на базе языка программирования Python с использованием библиотеки по работе с табличными данными, визуализацией полученных результатов и статистики.
В результате был рассмотрен ряд методов дискриминантного анализа, а также провелось исследование базы данных о сердечных заболеваниях с применением двух классификаторов линейного и квадратичного дискриминантного анализа. Предварительно исходные данные подверглись процедуре на выявление значащих признаков по значению лямбды Уилкса, а оценка точности классификации измерялась полученными результатами методами bootstrap 0.632 и bootstrap 0.632+. В итоге, была получена точность классификации (52-55%) для линейного дискриминантного анализа и (80¬90%) для квадратичного дискриминантного анализа.



1. Буре В. М., Щербакова А. А. Применение дискриминантного анализа и метода деревьев принятия решений для диагностики офтальмологических заболеваний // Вестник Санкт-Петербургского университета. Серия 10: Прикладная математика. Информатика. Процессы управления. 2013. № 1. С. 70-76.
2. Дж О. Ким Факторный, дискриминантный и кластерный анализ; Книга по Требованию - Москва, 2012. - 216 с.
3. Драницына М. А., Захарова Т. В. Дискриминантный анализ для классификации и прогнозирования результатов лечения // Системы и средства информатики, 2013. Т. 23. №2. С. 89-95.
4. Ефимов, В. М. Многомерный анализ биологических данных: учеб. пособие / В. М. Ефимов, В. Ю. Ковалева. -- С.П.: Институт систематики и экологии животных СОРАН, 2008. -- 87 с.
5. Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ, 2006. 816 с.
6. Кондрашова, Н. В. Решение задачи медицинской диагностики линейным дискриминантным анализом и МГУА [Текст] / Н. В. Кондрашова, В. А. Павлов, А. В. Павлов // УСиМ. - 2013. - № 2. - С. 79-88.
7. Лутц, Марк. Программирование на Python: - СПб.: Символ-Плюс, 2015
8. Марк, Лутц Программирование на Python. Том 1 / Лутц Марк. - М.: Символ-плюс, 2013. - 822 с.
9. Митрофанов А.А., Кичук И.В., Соловьева Н.В., Кувшинова Я.В., Чаусова С.В., Вильянов В.Б., Русалова М.Н., Олимпиева С.П. Использование дискриминантного анализа электроэнцефалограммы в диагностике шизофрении. Журнал неврологии и психиатрии им. С.С. Корсакова. 2019;119(1):44-50
10. Саммерфилд, Марк. Программирование на Python 3. Подробное руководство. - СПб.: Символ-Плюс, 2017
11. Светлана Амирова, Юрий Мильчесвский. Дискриминантный анализ и структура белка. - М.: LAP Lambert Academic Publishing, 2014. - 104 с.
12. Тюрин, В. В. Дискриминантный анализ в биологии: монография / В. В. Тюрин, С. Н. Щеглов. - Краснодар: Кубанский гос. ун-т, 2015. - 123 с.
13. B.B. Welch, Practical programming in Tcl/Tk, 4th edn. (Prentice Hall/PTR, Upper Saddle River, NJ, 2003)
14. Dudoit S., Fridlyand J., Speed T. P. Comparison of discrimination methods for the classification of tumors using gene expression data // Journal of the American Statistical Association. 2002. Vol. 97 (457). P. 77-87.
15. Fisher R. A. The use of multiple measurements in taxonomic problems //Annals of Eugenics. 1936. №7. P. 179-188.
16. Hand D. J., Henley W. E. Statistical Classification Methods in Consumer Credit Scoring: A Review // Journal of the Royal Statistical Society. Series A (Statistics in Society). 1997. Vol. 160 (3). P. 523-541.
17. Haroon Barakat,El- Sayed Nigm and Osama Khaled. Evaluation of Air Pollutants Using Bootstrapping Extremes Models. - М.: LAP Lambert Academic Publishing, 2014. - 132 с.
18. Hastie T, Tibshirani R, Friedman J. The Elements of Statistical Learning. Data Mining, Inference, and Prediction. 2-nd Edition. Springer. 2009
19. Mark Lutz. Programming Python 4e. - М.: , 2011. - 1632 с.
20. Mohammad Samsul Alam and Syed Shahadat Hossain. Design Sensitivity of Bootstrap Methods in Variance Estimation. - М.: LAP Lambert Academic Publishing, 2013. - 72 с.
21. Rencher A. C. Methods of Multivariate Analysis. 2nd Ed. New York: John Wiley & Sons, Inc., 2002. 738 p.


Работу высылаем на протяжении 30 минут после оплаты.



Подобные работы


©2024 Cервис помощи студентам в выполнении работ