Построение моделей кредитного скоринга с учетом несбалансированности данных

Работа №	204166
Тип работы	Бакалаврская работа
Предмет	информатика
Объем работы	99
Год сдачи	2022
Стоимость	4330 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено	19

Не подходит работа?

Узнай цену на написание

Содержание

Введение 11
1. Обзор литературы 13
1.1. Понятие кредитного скоринга 13
1.2. Несбалансированные данные 14
1.3. Ансамблевые методы 15
2. Теоретическая часть 17
2.1. Математические модели кредитного скоринга 17
2.1.1. Логистическая регрессия 17
2.1.2. Метод k-ближайших соседей (K-Nearest Neighbors) 18
2.1.3. Метод опорных векторов (Support Vector Machines) 20
2.1.4. Дерево решений (Decision Tree) 20
2.1.5. Случайный лес (Random Forest) 22
2.1.6. Метод градиентного бустинга (Gradient Boosting) 23
2.1.7. Метод адаптивного бустинга (Adaboost) 24
2.2. Математические методы сэмплирования 25
2.3. Показатели эффективности моделей кредитного скоринга 27
2.4. Отбор значимых признаков 28
3. Практическая часть 30
3.1. Разработка алгоритма построения моделей кредитного скоринга 30
3.2. Среда разработки для реализации алгоритма 30
3.3. Подготовка и интерпретация данных 30
3.4. Выбор признаков для построения модели 32
3.5. Разработка моделей кредитного скоринга на несбалансированной
выборке 35
3.6. Разработка моделей кредитного скоринга на сбалансированной
выборке 37
3.7. Оценка качества построенных моделей 37
3.7.1. Несбалансированные данные 38
3.7.2. Сбалансированные данные 43
Вывод по основной части 53
4. Концепция стартап-проекта 54
4.1. Описание продукта как результата НИР 54
4.2. Интеллектуальная собственность 55
4.3. Объем и емкость рынка 56
4.4. Анализ современного состояния и перспектив развития отрасли 59
4.5. Планируемая стоимость продукта 60
4.6. Конкурентные преимущества создаваемого продукта, сравнение
технико-экономических характеристик с отечественными и мировыми аналогами 62
4.7. Целевые сегменты потребителей 64
4.8. Бизнес-модели проекта. Производственный план и план продаж 65
4.9. Стратегия продвижения продукта на рынок 71
5. Социальная ответственность 73
Введение 73
5.1. Правовые и организационные вопросы обеспечения безопасности ... 73
5.1.1. Правовые нормы трудового законодательства 73
5.1.2. Эргономические требования к правильному расположению и
компоновке рабочей зоны 74
5.2. Производственная безопасность 75
5.2.1. Анализ вредных и опасных факторов, которые могут возникнуть
при разработке программы 75
5.2.2. Обоснование мероприятий по защите исследователя от действия
опасных и вредных факторов 76
5.3. Экологическая безопасность 81
5.4. Безопасность в чрезвычайных ситуациях 82
Выводы по разделу 83
Список литературы 84
Приложение А 87
Приложение Б 89
Приложение В 90
Приложение Г

Введение

Основой деятельности для банков и кредитных организаций являются услуги кредитования. Одним из решающих факторов при выдаче кредита является оценка кредитных рисков. Стабильность банка зависит от качества выданных кредитов, поэтому банк, способный наиболее точно «отфильтровать» клиентов с высоким кредитным риском, сможет предложить рынку более привлекательные кредитные продукты с оптимальными кредитными ставками и, следовательно, получить определенные конкурентные преимущества. Для этого нужно выбрать “лучшую” модель прогнозирования дефолта для кредитного скоринга. При этом нужно иметь ввиду, что данных о дефолтах намного меньше чем о тех, кто вернул кредит. Таким образом, при разработке математической модели приходится учитывать особенность исходных данных, а именно их несбалансированность.
Методика кредитного скоринга использует математическую модель, которая позволяет решить задачу бинарной классификации, так как наблюдаемые объекты относятся к одному из двух классов. Существует несколько методов реализации бинарной классификации, такие как: логистическая регрессия, метод ^-ближайших соседей, метод опорных векторов, дерево решений, а также ансамблевые методы на основе вышеприведенных методов: голосование, бэггинг, случайный лес, метод градиентного бустинга, метод адаптивного бустинга и др. Они в свою очередь являются методами машинного обучения. Для решения проблемы дисбаланса существуют методы корректировки выборки (сэмплирование), с помощью которых решается проблема дисбаланса: недосэмплирование (уменьшение большего класса), пересэмплирование (увеличение малого класса) и комбинирование вышеуказанных методов. Также проблему работы с несбалансированными данными можно решить с помощью использования ансамблевых методов (объединение нескольких базовых классификаторов, которые будут компенсировать ошибки базовых моделей). Отметим, что на практике эффективнее оказалось использование гибридных методов, объединяющих преимущества классификаторов и ансамблевого подхода.
Объектом исследования являются математические модели кредитного скоринга.
Цель работы - построение оптимальной модели кредитного скоринга с учетом несбалансированности данных.
Работа включает следующие задачи:
• обзор литературы и описание математической составляющей;
• предварительную обработку данных и отбор наиболее значимых признаков для прогнозирования дефолта заемщика;
• построение моделей и их ансамблей для оценки вероятности дефолта заемщика по несбалансированным и сбалансированным данным;
• количественная оценка адекватности построенных моделей по метрикам качества и их сравнение;
• анализ влияния дисбаланса на точность модели кредитного скоринга;
• выбор оптимальной модели.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!

ДИПЛОМНЫЕ МАГИСТЕРСКИЕ ДИССЕРТАЦИИ

КУРСОВЫЕ СТАТЬИ ВКР

Литература

1. Алешин, В.А. и Рудаева О.О. Кредитный скоринг как инструмент повышения качества банковского риск-менеджмента в современных условиях. Terra Economics, 2012. - 2(3). - с. 27-30.
2. Никаненкова, В.В., 2012. Кредитный скоринг как инструмент оценки кредитоспособности заемщиков. Вестник Адыгейского государственного университета, 5.
3. Дисбаланс классов // Анализ малых данных URL: https://dyakonov.org/2021/05/27/imbalance/ (дата обращения: 13.04.2022).
4. X. Liua, Z. Zhanga, D. Wanga, 2021. Classification of Imbalanced Credit
scoring data sets Based on Ensemble Method with the Weighted-Hybrid-Sampling, arXiv.org, URL: https://arxiv.org/fp/arxiv/papers/2102/2102.04721.pdf (дата обращения: 12.04.2022)
5. Ensemble methods: bagging, boosting and stacking // Towards Data Science
URL: https://towardsdatascience.com/ensemble-methods-bagging-boosting-and-
stacking-c9214a10a205 (дата обращения: 12.04.2022).
6. Модели для предсказания класса объектов // Github URL:
ranalytics.github.io/data-mining/023-Models-for-Class-Prediction.html (дата обращения: 10.04.2022)
7. Прокопьева, А.А., 2018. Применение информационных технологий и математического моделирования в управлении банковскими рисками, PhD thesis, СПбГУ, Санкт-Петербург.
8. Классификация данных методом k-ближайших соседей // Loginom URL: loginom.ru/blog/knn(дата обращения: 11.04.2022)
9. Классификация данных методом опорных векторов // Habr URL: habr.com/ru/post/105220/(дата обращения: 11.04.2022)
10. Деревья решений: общие принципы // Loginom URL:
https://loginom.ru/blog/decision-tree-p1 (дата обращения: 13.04.2022)
11. Композиции: бэггинг, случайный лес // Habr URL:
habr.com/ru/company/ods/blog/324402/(дата обращения: 12.04.2022)
12. Градиентный бустинг // Habr URL:
habr.com/ru/company/ods/blog/327250/(дата обращения: 12.04.2022)
13. AdaBoost from Scratch // Towards Data Science URL:
https://towardsdatascience.com/adaboost-from-scratch-37a936da3d50 (дата
обращения: 12.04.22)
14. Григорян Д. А. Алгоритм обоснования операции на основе анализа данных групп пациентов: выпускная квалификационная работа бакалавра / Д. А. Григорян; Санкт-Петербургский государственный университет, Кафедра технологии программирования; науч. рук. В. Ю. Добрынин - Санкт- Петербург, 2017.
15. Метрики в задачах машинного обучения // Habr URL: habr.com/ru/company/ods/blog/328372/(дата обращения: 13.04.2022)
16. Коэффициент Джини. Из экономики в машинное обучение // URL: habr.com/ru/company/ods/blog/350440/(дата обращения: 13.04.2022)
17. Understanding Random Forest // Towards Data Science URL: https://towardsdatascience.com/understanding-random-forest-58381e0602d2 (дата обращения: 13.04.2022)
18. Дисперсионный анализ // ПОИВС URL:
http://poivs.tsput.ru/ru/Math/ProbabilityAndStatistics/MathStatistics/DispersionAn alysis (дата обращения: 13.04.2022).
19. Ранжирование признаков с помощью Recursive Feature Elimination в Scikit-Learn // Хабр URL: https://habr.com/ru/company/otus/blog/528676/(дата обращения: 13.04.2022).
20. Корреляционный анализ // Statistica URL:
http://statistica.ru/glossary/general/korrelyatsionnyy-analiz/(дата обращения: 13.04.2022).
21. Automatic Hyperparameter Tuning with Sklearn Using Grid and Random Search // Towards Data Science URL: https://towardsdatascience.com/automatic- hyperparameter-tuning-with-sklearn-gridsearchcv-and-randomizedsearchcv- e94f53a518ee(дата обращения: 12.04.2022)
22. Шеров Ш. Модель кредитного скоринга: магистерская диссертация / Ш. Шеров; Национальный исследовательский Томский политехнический университет, Инженерная школа ядерных технологий, Отделение экспериментальной физики, науч. рук. М. Е. Семенов - Томск, 2021.
23. Трудовой кодекс Российской Федерации [Текст]: от 30.12.2001 № 197- ФЗ (ред. от 25.02.2022)
24. ГОСТ 12.2.032-78 Система стандартов безопасности труда (ССБТ). Рабочее место при выполнении работ сидя. Общие эргономические требования.
25. Панин В.Ф., Сечин А.И., Федосова В.Д. Экология для инженера // под ред. проф. В.Ф. Панина. - М: Изд. Дом «Ноосфера». - 2000. - 284 с.
26. ГОСТ 12.0.003-2015 Опасные и вредные производственные факторы. Классификация.
27. СП 52.13330.2016 Естественное и искусственное освещение. Актуализированная редакция СНиП 23-05-95*.
28. СанПиН 2.2.2/2.4.1340-03 Гигиенические требования к персональным электронно-вычислительным машинам и организации работы.
29. СанПиН 1.2.3685-21. Гигиенические нормативы и требования к обеспечению безопасности и (или) безвредности для человека факторов среды обитания.
30. СН 2.2.4/2.1.8.562-96 Шум на рабочих местах, в помещениях жилых, общественных зданий и на территории жилой застройки.
31. СанПиН 2.2.4.3359-16 Санитарно-эпидемиологические требования к физическим факторам на рабочих местах.
32. ГОСТ Р 53734.1-2014 «Электростатические явления»
33. ГОСТ 12.4.011-89 Средства защиты работающих. Общие требования и классификация.
34. ГОСТ 12.1.019-2017 ССБТ. Электробезопасность. Общие требования и номенклатура видов защиты.
35. СНиП 2.01.02-85. Противопожарные нормы.

КУПИТЬ

Работу высылаем на протяжении 30 минут после оплаты.

Вход в личный кабинет

🔍 Поиск работ

Построение моделей кредитного скоринга с учетом несбалансированности данных

Тип работы

Бакалаврская работа

Предмет

информатика

ПУБЛИКУЕТСЯ ВПЕРВЫЕ

Просмотрено

19