Помощь студентам в учебе

✨ Регистрация

📄Работа №204166

Тема: Построение моделей кредитного скоринга с учетом несбалансированности данных

Характеристики работы

◩

Тип работы Бакалаврская работа

Предмет Информатика и вычислительная техника

📄

Объем: 99 листов

📅

Год: 2022

👁️

4330 руб.

🛒 Купить работу

Не подходит эта работа?
Закажите новую по вашим требованиям

Узнать цену на написание

ℹ️ Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.

📋 Содержание 📖 Аннотация 📖 Введение 📕 Литература 🔍 Похожие 🛒 Купить

📋 Содержание

Введение 11
1. Обзор литературы 13
1.1. Понятие кредитного скоринга 13
1.2. Несбалансированные данные 14
1.3. Ансамблевые методы 15
2. Теоретическая часть 17
2.1. Математические модели кредитного скоринга 17
2.1.1. Логистическая регрессия 17
2.1.2. Метод k-ближайших соседей (K-Nearest Neighbors) 18
2.1.3. Метод опорных векторов (Support Vector Machines) 20
2.1.4. Дерево решений (Decision Tree) 20
2.1.5. Случайный лес (Random Forest) 22
2.1.6. Метод градиентного бустинга (Gradient Boosting) 23
2.1.7. Метод адаптивного бустинга (Adaboost) 24
2.2. Математические методы сэмплирования 25
2.3. Показатели эффективности моделей кредитного скоринга 27
2.4. Отбор значимых признаков 28
3. Практическая часть 30
3.1. Разработка алгоритма построения моделей кредитного скоринга 30
3.2. Среда разработки для реализации алгоритма 30
3.3. Подготовка и интерпретация данных 30
3.4. Выбор признаков для построения модели 32
3.5. Разработка моделей кредитного скоринга на несбалансированной
выборке 35
3.6. Разработка моделей кредитного скоринга на сбалансированной
выборке 37
3.7. Оценка качества построенных моделей 37
3.7.1. Несбалансированные данные 38
3.7.2. Сбалансированные данные 43
Вывод по основной части 53
4. Концепция стартап-проекта 54
4.1. Описание продукта как результата НИР 54
4.2. Интеллектуальная собственность 55
4.3. Объем и емкость рынка 56
4.4. Анализ современного состояния и перспектив развития отрасли 59
4.5. Планируемая стоимость продукта 60
4.6. Конкурентные преимущества создаваемого продукта, сравнение
технико-экономических характеристик с отечественными и мировыми аналогами 62
4.7. Целевые сегменты потребителей 64
4.8. Бизнес-модели проекта. Производственный план и план продаж 65
4.9. Стратегия продвижения продукта на рынок 71
5. Социальная ответственность 73
Введение 73
5.1. Правовые и организационные вопросы обеспечения безопасности ... 73
5.1.1. Правовые нормы трудового законодательства 73
5.1.2. Эргономические требования к правильному расположению и
компоновке рабочей зоны 74
5.2. Производственная безопасность 75
5.2.1. Анализ вредных и опасных факторов, которые могут возникнуть
при разработке программы 75
5.2.2. Обоснование мероприятий по защите исследователя от действия
опасных и вредных факторов 76
5.3. Экологическая безопасность 81
5.4. Безопасность в чрезвычайных ситуациях 82
Выводы по разделу 83
Список литературы 84
Приложение А 87
Приложение Б 89
Приложение В 90
Приложение Г

📖 Аннотация

В данной работе исследуются подходы к построению моделей кредитного скоринга, направленных на прогнозирование дефолта заемщиков, с акцентом на преодоление проблемы несбалансированности данных, когда количество примеров «плохих» кредитов существенно меньше «хороших». Актуальность исследования обусловлена критической важностью минимизации кредитных рисков для финансовой устойчивости банков и необходимостью разработки точных прогнозных моделей в условиях реальных, неидеальных данных. В качестве основных результатов, полученных в ходе эмпирического анализа, можно выделить сравнительную оценку эффективности различных алгоритмов машинного обучения, включая логистическую регрессию, метод опорных векторов, случайный лес и градиентный бустинг, в комбинации с методами сэмплирования, такими как SMOTE и undersampling. Выводы работы указывают на то, что ансамблевые методы, в частности градиентный бустинг, в сочетании с техниками балансировки данных демонстрируют наилучшие результаты по метрикам F1-score и AUC-ROC, обеспечивая более надежное распознавание дефолтов. Научная значимость исследования заключается в систематизации подходов к обработке несбалансированных данных в контексте кредитного скоринга, а практическая – в предложении конкретного алгоритма построения модели, который может быть внедрен в процессы риск-менеджмента кредитных организаций для повышения качества отбора заемщиков. Теоретической основой работы послужили исследования таких авторов, как Алешин В.А. и Рудаева О.О., раскрывающие роль скоринга в риск-менеджменте, Никаненкова В.В., рассматривающая скоринг как инструмент оценки кредитоспособности, а также работы, посвященные методам борьбы с дисбалансом классов и ансамблевым алгоритмам, включая исследование Liu X. et al. по взвешенно-гибридному сэмплированию.

📖 Введение

Основой деятельности для банков и кредитных организаций являются услуги кредитования. Одним из решающих факторов при выдаче кредита является оценка кредитных рисков. Стабильность банка зависит от качества выданных кредитов, поэтому банк, способный наиболее точно «отфильтровать» клиентов с высоким кредитным риском, сможет предложить рынку более привлекательные кредитные продукты с оптимальными кредитными ставками и, следовательно, получить определенные конкурентные преимущества. Для этого нужно выбрать “лучшую” модель прогнозирования дефолта для кредитного скоринга. При этом нужно иметь ввиду, что данных о дефолтах намного меньше чем о тех, кто вернул кредит. Таким образом, при разработке математической модели приходится учитывать особенность исходных данных, а именно их несбалансированность.
Методика кредитного скоринга использует математическую модель, которая позволяет решить задачу бинарной классификации, так как наблюдаемые объекты относятся к одному из двух классов. Существует несколько методов реализации бинарной классификации, такие как: логистическая регрессия, метод ^-ближайших соседей, метод опорных векторов, дерево решений, а также ансамблевые методы на основе вышеприведенных методов: голосование, бэггинг, случайный лес, метод градиентного бустинга, метод адаптивного бустинга и др. Они в свою очередь являются методами машинного обучения. Для решения проблемы дисбаланса существуют методы корректировки выборки (сэмплирование), с помощью которых решается проблема дисбаланса: недосэмплирование (уменьшение большего класса), пересэмплирование (увеличение малого класса) и комбинирование вышеуказанных методов. Также проблему работы с несбалансированными данными можно решить с помощью использования ансамблевых методов (объединение нескольких базовых классификаторов, которые будут компенсировать ошибки базовых моделей). Отметим, что на практике эффективнее оказалось использование гибридных методов, объединяющих преимущества классификаторов и ансамблевого подхода.
Объектом исследования являются математические модели кредитного скоринга.
Цель работы - построение оптимальной модели кредитного скоринга с учетом несбалансированности данных.
Работа включает следующие задачи:
• обзор литературы и описание математической составляющей;
• предварительную обработку данных и отбор наиболее значимых признаков для прогнозирования дефолта заемщика;
• построение моделей и их ансамблей для оценки вероятности дефолта заемщика по несбалансированным и сбалансированным данным;
• количественная оценка адекватности построенных моделей по метрикам качества и их сравнение;
• анализ влияния дисбаланса на точность модели кредитного скоринга;
• выбор оптимальной модели.

Нужна своя уникальная работа?

Срочная разработка под ваши требования

Рассчитать стоимость

ИЛИ

Поиск аналога

📕 Список литературы

1. Алешин, В.А. и Рудаева О.О. Кредитный скоринг как инструмент повышения качества банковского риск-менеджмента в современных условиях. Terra Economics, 2012. - 2(3). - с. 27-30.
2. Никаненкова, В.В., 2012. Кредитный скоринг как инструмент оценки кредитоспособности заемщиков. Вестник Адыгейского государственного университета, 5.
3. Дисбаланс классов // Анализ малых данных URL: https://dyakonov.org/2021/05/27/imbalance/ (дата обращения: 13.04.2022).
4. X. Liua, Z. Zhanga, D. Wanga, 2021. Classification of Imbalanced Credit
scoring data sets Based on Ensemble Method with the Weighted-Hybrid-Sampling, arXiv.org, URL: https://arxiv.org/fp/arxiv/papers/2102/2102.04721.pdf (дата обращения: 12.04.2022)
5. Ensemble methods: bagging, boosting and stacking // Towards Data Science
URL: https://towardsdatascience.com/ensemble-methods-bagging-boosting-and-
stacking-c9214a10a205 (дата обращения: 12.04.2022).
6. Модели для предсказания класса объектов // Github URL:
ranalytics.github.io/data-mining/023-Models-for-Class-Prediction.html (дата обращения: 10.04.2022)
7. Прокопьева, А.А., 2018. Применение информационных технологий и математического моделирования в управлении банковскими рисками, PhD thesis, СПбГУ, Санкт-Петербург.
8. Классификация данных методом k-ближайших соседей // Loginom URL: loginom.ru/blog/knn(дата обращения: 11.04.2022)
9. Классификация данных методом опорных векторов // Habr URL: habr.com/ru/post/105220/(дата обращения: 11.04.2022)
10. Деревья решений: общие принципы // Loginom URL:
https://loginom.ru/blog/decision-tree-p1 (дата обращения: 13.04.2022)
11. Композиции: бэггинг, случайный лес // Habr URL:
habr.com/ru/company/ods/blog/324402/(дата обращения: 12.04.2022)
12. Градиентный бустинг // Habr URL:
habr.com/ru/company/ods/blog/327250/(дата обращения: 12.04.2022)
13. AdaBoost from Scratch // Towards Data Science URL:
https://towardsdatascience.com/adaboost-from-scratch-37a936da3d50 (дата
обращения: 12.04.22)
14. Григорян Д. А. Алгоритм обоснования операции на основе анализа данных групп пациентов: выпускная квалификационная работа бакалавра / Д. А. Григорян; Санкт-Петербургский государственный университет, Кафедра технологии программирования; науч. рук. В. Ю. Добрынин - Санкт- Петербург, 2017.
15. Метрики в задачах машинного обучения // Habr URL: habr.com/ru/company/ods/blog/328372/(дата обращения: 13.04.2022)
16. Коэффициент Джини. Из экономики в машинное обучение // URL: habr.com/ru/company/ods/blog/350440/(дата обращения: 13.04.2022)
17. Understanding Random Forest // Towards Data Science URL: https://towardsdatascience.com/understanding-random-forest-58381e0602d2 (дата обращения: 13.04.2022)
18. Дисперсионный анализ // ПОИВС URL:
http://poivs.tsput.ru/ru/Math/ProbabilityAndStatistics/MathStatistics/DispersionAn alysis (дата обращения: 13.04.2022).
19. Ранжирование признаков с помощью Recursive Feature Elimination в Scikit-Learn // Хабр URL: https://habr.com/ru/company/otus/blog/528676/(дата обращения: 13.04.2022).
20. Корреляционный анализ // Statistica URL:
http://statistica.ru/glossary/general/korrelyatsionnyy-analiz/(дата обращения: 13.04.2022).
21. Automatic Hyperparameter Tuning with Sklearn Using Grid and Random Search // Towards Data Science URL: https://towardsdatascience.com/automatic- hyperparameter-tuning-with-sklearn-gridsearchcv-and-randomizedsearchcv- e94f53a518ee(дата обращения: 12.04.2022)
22. Шеров Ш. Модель кредитного скоринга: магистерская диссертация / Ш. Шеров; Национальный исследовательский Томский политехнический университет, Инженерная школа ядерных технологий, Отделение экспериментальной физики, науч. рук. М. Е. Семенов - Томск, 2021.
23. Трудовой кодекс Российской Федерации [Текст]: от 30.12.2001 № 197- ФЗ (ред. от 25.02.2022)
24. ГОСТ 12.2.032-78 Система стандартов безопасности труда (ССБТ). Рабочее место при выполнении работ сидя. Общие эргономические требования.
25. Панин В.Ф., Сечин А.И., Федосова В.Д. Экология для инженера // под ред. проф. В.Ф. Панина. - М: Изд. Дом «Ноосфера». - 2000. - 284 с.
26. ГОСТ 12.0.003-2015 Опасные и вредные производственные факторы. Классификация.
27. СП 52.13330.2016 Естественное и искусственное освещение. Актуализированная редакция СНиП 23-05-95*.
28. СанПиН 2.2.2/2.4.1340-03 Гигиенические требования к персональным электронно-вычислительным машинам и организации работы.
29. СанПиН 1.2.3685-21. Гигиенические нормативы и требования к обеспечению безопасности и (или) безвредности для человека факторов среды обитания.
30. СН 2.2.4/2.1.8.562-96 Шум на рабочих местах, в помещениях жилых, общественных зданий и на территории жилой застройки.
31. СанПиН 2.2.4.3359-16 Санитарно-эпидемиологические требования к физическим факторам на рабочих местах.
32. ГОСТ Р 53734.1-2014 «Электростатические явления»
33. ГОСТ 12.4.011-89 Средства защиты работающих. Общие требования и классификация.
34. ГОСТ 12.1.019-2017 ССБТ. Электробезопасность. Общие требования и номенклатура видов защиты.
35. СНиП 2.01.02-85. Противопожарные нормы.

🛒 Оформить заказ

⚡ Работу высылаем в течении 5 минут после оплаты.

Имя

E-mail

Дополнительная информация

Предоставляемые услуги, в том числе данные, файлы и прочие материалы, подготовленные в результате оказания услуги, помогают разобраться в теме и собрать нужную информацию, но не заменяют готовое решение.

Всегда отправляем файлы и чек на почту

Ник или номер телефона

Укажите ник или номер. После оформления заказа откройте бота @workspayservice_bot для подтверждения. Это нужно для отправки вам уведомлений.

С условиями приобретения работы согласен

📋 Содержание 📖 Введение 📕 Литература 🔍 Похожие 🛒 Купить ⬆️

Оценка стоимости

Предмет *

Гуманитарные дисциплины

Педагогика и образование

Правовые дисциплины

Экономические дисциплины

Технические дисциплины

Биология и медицина

Другое

Естественные науки и экология

Иностранные языки

Математические дисциплины

Программирование и IT

Физика и астрофизика

Химия

Пожалуйста, выберите предмет работы.

Тип работы *

Написание учебных работ

Написание научных работ

Тесты, задачи и экзаменационные материалы

Отчеты по практике

Научные публикации

Эссе и творческие работы

Презентации и защита

Чертежи и графика

Переводы

Программирование и IT

Бизнес и маркетинг

Копирайтинг и работа с текстом

Анализ и исследования

Рецензии и отзывы

Оформление и доработка

Подготовка документов

Методические разработки

Консультации и онлайн-помощь

Прочее

Написание работ

Пожалуйста, выберите тип работы.

Объем работы * Пожалуйста, укажите объем работы.

Срок выполнения * Пожалуйста, укажите срок выполнения.

Это краткая форма заказа. После ее заполнения вы перейдете на полную форму заказа работы

Articles

»» All articles

Вход в личный кабинет