Исследование методов дискриминантного анализа базы данных
|
Введение 6
1 Теория дискриминантного анализа и статистика 8
1.1 Постановка задачи 8
1.2 Дискриминантный анализ 9
1.2.1 Основа дискриминантного анализа 9
1.2.2 Линейный дискриминантный анализ 9
1.2.3 Квадратичный дискриминантный анализ 11
1.2.4 Смешанный дискриминантный анализ 13
1.2.5 Гибкий дискриминантный анализ 14
1.2.6 Регуляризированный дискриминантный анализ 14
1.3 Проверка нормальности распределения выполнения условия Критерий
Шапиро-Уилкса 15
1.4 Отбор значащих признаков 16
1.4.1 Важность отбора 16
1.4.2 Лямбда Уилкса 17
1.4.3 Пошаговый выбор 19
1.5 Методы определения величины ошибки 20
1.5.1 Ошибка обученной модели 20
1.5.2 Bootstrap 0.632 21
1.5.3 Bootstrap 0.632+ 22
2 Программная реализация алгоритмов дискриминантного анализа 24
2.1 Обзор исходных данных анализа 24
2.1.1 Ирисы Фишера 24
2.1.2 Набор данных по сердечным заболеваниям 24
2.2 Разработка приложения 27
2.2.1 Выбор технологий 27
2.2.2 Разработка 27
3 Тестирование 36
3.1 Описание ситуации 36
3.2 Анализ входных данных 37
3.3 Полученный результат 38
3.3 Сравнение методов, определения точности модели 39
Заключение 42
Список используемой литературы 43
1 Теория дискриминантного анализа и статистика 8
1.1 Постановка задачи 8
1.2 Дискриминантный анализ 9
1.2.1 Основа дискриминантного анализа 9
1.2.2 Линейный дискриминантный анализ 9
1.2.3 Квадратичный дискриминантный анализ 11
1.2.4 Смешанный дискриминантный анализ 13
1.2.5 Гибкий дискриминантный анализ 14
1.2.6 Регуляризированный дискриминантный анализ 14
1.3 Проверка нормальности распределения выполнения условия Критерий
Шапиро-Уилкса 15
1.4 Отбор значащих признаков 16
1.4.1 Важность отбора 16
1.4.2 Лямбда Уилкса 17
1.4.3 Пошаговый выбор 19
1.5 Методы определения величины ошибки 20
1.5.1 Ошибка обученной модели 20
1.5.2 Bootstrap 0.632 21
1.5.3 Bootstrap 0.632+ 22
2 Программная реализация алгоритмов дискриминантного анализа 24
2.1 Обзор исходных данных анализа 24
2.1.1 Ирисы Фишера 24
2.1.2 Набор данных по сердечным заболеваниям 24
2.2 Разработка приложения 27
2.2.1 Выбор технологий 27
2.2.2 Разработка 27
3 Тестирование 36
3.1 Описание ситуации 36
3.2 Анализ входных данных 37
3.3 Полученный результат 38
3.3 Сравнение методов, определения точности модели 39
Заключение 42
Список используемой литературы 43
Дискриминантный анализ - это метод статистического анализа, который направлен на решение проблемы классификации объекта по заранее известным группам. Впервые решение задачи классификации этим методом продемонстрировал Рональд Фишер, который на примере данный по более чем ста ирисам трёх видов построил правила (функции) отнесения нового ириса к одной из известных групп.
Начиная с этого момента и далее дискриминантный анализ стал применяться в разный направлениях, в первую очередь в биологии, медицине, экономике, социологии и не только. Благодаря тому, что в результате анализа можно не только получить значение различий групп, но и определить те признаки, которые вносят больший вклад в определение принадлежности к группе сегодня методы дискриминантного анализа применяются даже в распознавании образов и машинном обучении, а самих методов стало больше, поэтому применение и реализация данного метода статистического анализа представляет научно-практический интерес.
В данной выпускной бакалаврской работе объектом исследования является данные о сердечных заболеваниях. Таким образом, актуальность бакалаврской работы обусловлена анализам раннее не исследованных данных с применением методов дискриминантного анализа.
Предметом исследования являются методы дискриминантного анализа.
Целью выпускной квалификационной работы является решение задачи классификации с применением методов программирования по работе с большими объемами данных.
Для достижения поставленной цели необходимо решить следующие задачи:
- изучить теоретический материал о дискриминантном анализе;
- разработать алгоритм для решения задачи классификации;
- выполнить программную реализацию разработанного в предыдущей задаче алгоритма;
- провести исследование эффективности алгоритма, реализованного в предыдущей задаче.
Выпускная квалификационная работа состоит из введения, трех разделов, заключения, списка используемых источников.
В разделе 1 рассматривается общая постановка задачи классификации методом дискриминантного анализа, и теоретическая информация о работе с большими объемами данных и из анализом. В разделе 2 описываются входные данные для анализа и разрабатывается программное обеспечение для решения задачи. В разделе 3 проводится анализ полученных результатов работы алгоритма. В заключении представлены результаты и выводы о проделанной работе.
Начиная с этого момента и далее дискриминантный анализ стал применяться в разный направлениях, в первую очередь в биологии, медицине, экономике, социологии и не только. Благодаря тому, что в результате анализа можно не только получить значение различий групп, но и определить те признаки, которые вносят больший вклад в определение принадлежности к группе сегодня методы дискриминантного анализа применяются даже в распознавании образов и машинном обучении, а самих методов стало больше, поэтому применение и реализация данного метода статистического анализа представляет научно-практический интерес.
В данной выпускной бакалаврской работе объектом исследования является данные о сердечных заболеваниях. Таким образом, актуальность бакалаврской работы обусловлена анализам раннее не исследованных данных с применением методов дискриминантного анализа.
Предметом исследования являются методы дискриминантного анализа.
Целью выпускной квалификационной работы является решение задачи классификации с применением методов программирования по работе с большими объемами данных.
Для достижения поставленной цели необходимо решить следующие задачи:
- изучить теоретический материал о дискриминантном анализе;
- разработать алгоритм для решения задачи классификации;
- выполнить программную реализацию разработанного в предыдущей задаче алгоритма;
- провести исследование эффективности алгоритма, реализованного в предыдущей задаче.
Выпускная квалификационная работа состоит из введения, трех разделов, заключения, списка используемых источников.
В разделе 1 рассматривается общая постановка задачи классификации методом дискриминантного анализа, и теоретическая информация о работе с большими объемами данных и из анализом. В разделе 2 описываются входные данные для анализа и разрабатывается программное обеспечение для решения задачи. В разделе 3 проводится анализ полученных результатов работы алгоритма. В заключении представлены результаты и выводы о проделанной работе.
Тема бакалаврской работы была посвящена исследованию методов дискриминантного анализа, а также проблеме классификации при работе с многомерными данными.
В ходе выполнения был изучен теоретический материал, а также изучены несколько методов дискриминантного анализа:
- Линейный дискриминантный анализ;
- Квадратичный дискриминантный анализ;
- Смешанный дискриминантный анализ;
- Гибкий дискриминантный анализ;
- Регуляризированный дискриминантный анализ.
Для проведения исследования потребовалось рассмотреть методы определения ошибки bootstrap, а также метод отбора значащих признаков из общей совокупности признаков.
В ходе дальнейшего выполнения работы было разработано программное обеспечение на базе языка программирования Python с использованием библиотеки по работе с табличными данными, визуализацией полученных результатов и статистики.
В результате был рассмотрен ряд методов дискриминантного анализа, а также провелось исследование базы данных о сердечных заболеваниях с применением двух классификаторов линейного и квадратичного дискриминантного анализа. Предварительно исходные данные подверглись процедуре на выявление значащих признаков по значению лямбды Уилкса, а оценка точности классификации измерялась полученными результатами методами bootstrap 0.632 и bootstrap 0.632+. В итоге, была получена точность классификации (52-55%) для линейного дискриминантного анализа и (80¬90%) для квадратичного дискриминантного анализа.
В ходе выполнения был изучен теоретический материал, а также изучены несколько методов дискриминантного анализа:
- Линейный дискриминантный анализ;
- Квадратичный дискриминантный анализ;
- Смешанный дискриминантный анализ;
- Гибкий дискриминантный анализ;
- Регуляризированный дискриминантный анализ.
Для проведения исследования потребовалось рассмотреть методы определения ошибки bootstrap, а также метод отбора значащих признаков из общей совокупности признаков.
В ходе дальнейшего выполнения работы было разработано программное обеспечение на базе языка программирования Python с использованием библиотеки по работе с табличными данными, визуализацией полученных результатов и статистики.
В результате был рассмотрен ряд методов дискриминантного анализа, а также провелось исследование базы данных о сердечных заболеваниях с применением двух классификаторов линейного и квадратичного дискриминантного анализа. Предварительно исходные данные подверглись процедуре на выявление значащих признаков по значению лямбды Уилкса, а оценка точности классификации измерялась полученными результатами методами bootstrap 0.632 и bootstrap 0.632+. В итоге, была получена точность классификации (52-55%) для линейного дискриминантного анализа и (80¬90%) для квадратичного дискриминантного анализа.
Подобные работы
- Дискриминантный анализ базы данных
Дипломные работы, ВКР, математика. Язык работы: Русский. Цена: 4340 р. Год сдачи: 2016 - Дискриминантный анализ базы данных
Бакалаврская работа, база данных. Язык работы: Русский. Цена: 4700 р. Год сдачи: 2016 - СОВЕРШЕНСТВОВАНИЕ МЕТОДОВ УПРАВЛЕНИЯ ОКАЗАНИЕМ УСЛУГ МЕДИЦИНСКИХ УЧРЕЖДЕНИЙ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ КОМИТЕТНОГО И ДИСКРИМИНАНТНОГО АНАЛИЗА ДЛЯ ДИАГНОСТИКИ ЗАБОЛЕВАНИЙ
Диссертации (РГБ), информационные системы. Язык работы: Русский. Цена: 4310 р. Год сдачи: 2020 - ВЫЯВЛЕНИЕ ПЕРИНАТАЛЬНОГО ПОРАЖЕНИЯ ЦЕНТРАЛЬНОЙ НЕРВНОЙ СИСТЕМЫ НА ОСНОВЕ АНАЛИЗА МЕДИЦИНСКИХ ДАННЫХ
Бакалаврская работа, электротехника. Язык работы: Русский. Цена: 4290 р. Год сдачи: 2017 - МОДЕЛИ, МЕТОДЫ И ПРОГРАММЫ ДЛЯ РАЗВИТИЯ МЕДИЦИНСКОЙ ИНФОРМАЦИОННОЙ СИСТЕМЫ ПРОГНОЗА РЕТИНОПАТИИ
Авторефераты (РГБ), математика. Язык работы: Русский. Цена: 250 р. Год сдачи: 2012 - СТАТИСТИЧЕСКИЕ МНОГОКРИТЕРИАЛЬНЫЕ МЕТОДЫ АНАЛИЗА ДАННЫХ С ПРИЛОЖЕНИЕМ В ФАРМАКОЛОГИИ И ГЕНЕТИКЕ
Дипломные работы, ВКР, математика. Язык работы: Русский. Цена: 4300 р. Год сдачи: 2021 - МЕТОДИКИ АНАЛИЗА КРЕДИТОСПОСОБНОСТИ ФИЗИЧЕСКОГО ЛИЦА
Дипломные работы, ВКР, экономика. Язык работы: Русский. Цена: 4320 р. Год сдачи: 2018 - Прогнозирование несостоятельности (банкротства) компании: сравнительный анализ и возможности адаптации существующих моделей
Магистерская диссертация, экономика. Язык работы: Русский. Цена: 4925 р. Год сдачи: 2016 - Сравнение эффективности методов многомерной визуализации
Бакалаврская работа, математика. Язык работы: Русский. Цена: 4500 р. Год сдачи: 2016



