Тема: Исследование методов дискриминантного анализа базы данных
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1 Теория дискриминантного анализа и статистика 8
1.1 Постановка задачи 8
1.2 Дискриминантный анализ 9
1.2.1 Основа дискриминантного анализа 9
1.2.2 Линейный дискриминантный анализ 9
1.2.3 Квадратичный дискриминантный анализ 11
1.2.4 Смешанный дискриминантный анализ 13
1.2.5 Гибкий дискриминантный анализ 14
1.2.6 Регуляризированный дискриминантный анализ 14
1.3 Проверка нормальности распределения выполнения условия Критерий
Шапиро-Уилкса 15
1.4 Отбор значащих признаков 16
1.4.1 Важность отбора 16
1.4.2 Лямбда Уилкса 17
1.4.3 Пошаговый выбор 19
1.5 Методы определения величины ошибки 20
1.5.1 Ошибка обученной модели 20
1.5.2 Bootstrap 0.632 21
1.5.3 Bootstrap 0.632+ 22
2 Программная реализация алгоритмов дискриминантного анализа 24
2.1 Обзор исходных данных анализа 24
2.1.1 Ирисы Фишера 24
2.1.2 Набор данных по сердечным заболеваниям 24
2.2 Разработка приложения 27
2.2.1 Выбор технологий 27
2.2.2 Разработка 27
3 Тестирование 36
3.1 Описание ситуации 36
3.2 Анализ входных данных 37
3.3 Полученный результат 38
3.3 Сравнение методов, определения точности модели 39
Заключение 42
Список используемой литературы 43
📖 Введение
Начиная с этого момента и далее дискриминантный анализ стал применяться в разный направлениях, в первую очередь в биологии, медицине, экономике, социологии и не только. Благодаря тому, что в результате анализа можно не только получить значение различий групп, но и определить те признаки, которые вносят больший вклад в определение принадлежности к группе сегодня методы дискриминантного анализа применяются даже в распознавании образов и машинном обучении, а самих методов стало больше, поэтому применение и реализация данного метода статистического анализа представляет научно-практический интерес.
В данной выпускной бакалаврской работе объектом исследования является данные о сердечных заболеваниях. Таким образом, актуальность бакалаврской работы обусловлена анализам раннее не исследованных данных с применением методов дискриминантного анализа.
Предметом исследования являются методы дискриминантного анализа.
Целью выпускной квалификационной работы является решение задачи классификации с применением методов программирования по работе с большими объемами данных.
Для достижения поставленной цели необходимо решить следующие задачи:
- изучить теоретический материал о дискриминантном анализе;
- разработать алгоритм для решения задачи классификации;
- выполнить программную реализацию разработанного в предыдущей задаче алгоритма;
- провести исследование эффективности алгоритма, реализованного в предыдущей задаче.
Выпускная квалификационная работа состоит из введения, трех разделов, заключения, списка используемых источников.
В разделе 1 рассматривается общая постановка задачи классификации методом дискриминантного анализа, и теоретическая информация о работе с большими объемами данных и из анализом. В разделе 2 описываются входные данные для анализа и разрабатывается программное обеспечение для решения задачи. В разделе 3 проводится анализ полученных результатов работы алгоритма. В заключении представлены результаты и выводы о проделанной работе.
✅ Заключение
В ходе выполнения был изучен теоретический материал, а также изучены несколько методов дискриминантного анализа:
- Линейный дискриминантный анализ;
- Квадратичный дискриминантный анализ;
- Смешанный дискриминантный анализ;
- Гибкий дискриминантный анализ;
- Регуляризированный дискриминантный анализ.
Для проведения исследования потребовалось рассмотреть методы определения ошибки bootstrap, а также метод отбора значащих признаков из общей совокупности признаков.
В ходе дальнейшего выполнения работы было разработано программное обеспечение на базе языка программирования Python с использованием библиотеки по работе с табличными данными, визуализацией полученных результатов и статистики.
В результате был рассмотрен ряд методов дискриминантного анализа, а также провелось исследование базы данных о сердечных заболеваниях с применением двух классификаторов линейного и квадратичного дискриминантного анализа. Предварительно исходные данные подверглись процедуре на выявление значащих признаков по значению лямбды Уилкса, а оценка точности классификации измерялась полученными результатами методами bootstrap 0.632 и bootstrap 0.632+. В итоге, была получена точность классификации (52-55%) для линейного дискриминантного анализа и (80¬90%) для квадратичного дискриминантного анализа.



