Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
ℹ️Настоящий учебно-методический информационный материал размещён в ознакомительных и исследовательских целях и представляет собой пример учебного исследования. Не является готовым научным трудом и требует самостоятельной переработки.
Введение 11
1. Обзор литературы 13
1.1. Понятие кредитного скоринга 13
1.2. Несбалансированные данные 14
1.3. Ансамблевые методы 15
2. Теоретическая часть 17
2.1. Математические модели кредитного скоринга 17
2.1.1. Логистическая регрессия 17
2.1.2. Метод k-ближайших соседей (K-Nearest Neighbors) 18
2.1.3. Метод опорных векторов (Support Vector Machines) 20
2.1.4. Дерево решений (Decision Tree) 20
2.1.5. Случайный лес (Random Forest) 22
2.1.6. Метод градиентного бустинга (Gradient Boosting) 23
2.1.7. Метод адаптивного бустинга (Adaboost) 24
2.2. Математические методы сэмплирования 25
2.3. Показатели эффективности моделей кредитного скоринга 27
2.4. Отбор значимых признаков 28
3. Практическая часть 30
3.1. Разработка алгоритма построения моделей кредитного скоринга 30
3.2. Среда разработки для реализации алгоритма 30
3.3. Подготовка и интерпретация данных 30
3.4. Выбор признаков для построения модели 32
3.5. Разработка моделей кредитного скоринга на несбалансированной
выборке 35
3.6. Разработка моделей кредитного скоринга на сбалансированной
выборке 37
3.7. Оценка качества построенных моделей 37
3.7.1. Несбалансированные данные 38
3.7.2. Сбалансированные данные 43
Вывод по основной части 53
4. Концепция стартап-проекта 54
4.1. Описание продукта как результата НИР 54
4.2. Интеллектуальная собственность 55
4.3. Объем и емкость рынка 56
4.4. Анализ современного состояния и перспектив развития отрасли 59
4.5. Планируемая стоимость продукта 60
4.6. Конкурентные преимущества создаваемого продукта, сравнение
технико-экономических характеристик с отечественными и мировыми аналогами 62
4.7. Целевые сегменты потребителей 64
4.8. Бизнес-модели проекта. Производственный план и план продаж 65
4.9. Стратегия продвижения продукта на рынок 71
5. Социальная ответственность 73
Введение 73
5.1. Правовые и организационные вопросы обеспечения безопасности ... 73
5.1.1. Правовые нормы трудового законодательства 73
5.1.2. Эргономические требования к правильному расположению и
компоновке рабочей зоны 74
5.2. Производственная безопасность 75
5.2.1. Анализ вредных и опасных факторов, которые могут возникнуть
при разработке программы 75
5.2.2. Обоснование мероприятий по защите исследователя от действия
опасных и вредных факторов 76
5.3. Экологическая безопасность 81
5.4. Безопасность в чрезвычайных ситуациях 82
Выводы по разделу 83
Список литературы 84
Приложение А 87
Приложение Б 89
Приложение В 90
Приложение Г
📖 Аннотация
В данной работе исследуются подходы к построению моделей кредитного скоринга, направленных на прогнозирование дефолта заемщиков, с акцентом на преодоление проблемы несбалансированности данных, когда количество примеров «плохих» кредитов существенно меньше «хороших». Актуальность исследования обусловлена критической важностью минимизации кредитных рисков для финансовой устойчивости банков и необходимостью разработки точных прогнозных моделей в условиях реальных, неидеальных данных. В качестве основных результатов, полученных в ходе эмпирического анализа, можно выделить сравнительную оценку эффективности различных алгоритмов машинного обучения, включая логистическую регрессию, метод опорных векторов, случайный лес и градиентный бустинг, в комбинации с методами сэмплирования, такими как SMOTE и undersampling. Выводы работы указывают на то, что ансамблевые методы, в частности градиентный бустинг, в сочетании с техниками балансировки данных демонстрируют наилучшие результаты по метрикам F1-score и AUC-ROC, обеспечивая более надежное распознавание дефолтов. Научная значимость исследования заключается в систематизации подходов к обработке несбалансированных данных в контексте кредитного скоринга, а практическая – в предложении конкретного алгоритма построения модели, который может быть внедрен в процессы риск-менеджмента кредитных организаций для повышения качества отбора заемщиков. Теоретической основой работы послужили исследования таких авторов, как Алешин В.А. и Рудаева О.О., раскрывающие роль скоринга в риск-менеджменте, Никаненкова В.В., рассматривающая скоринг как инструмент оценки кредитоспособности, а также работы, посвященные методам борьбы с дисбалансом классов и ансамблевым алгоритмам, включая исследование Liu X. et al. по взвешенно-гибридному сэмплированию.
📖 Введение
Основой деятельности для банков и кредитных организаций являются услуги кредитования. Одним из решающих факторов при выдаче кредита является оценка кредитных рисков. Стабильность банка зависит от качества выданных кредитов, поэтому банк, способный наиболее точно «отфильтровать» клиентов с высоким кредитным риском, сможет предложить рынку более привлекательные кредитные продукты с оптимальными кредитными ставками и, следовательно, получить определенные конкурентные преимущества. Для этого нужно выбрать “лучшую” модель прогнозирования дефолта для кредитного скоринга. При этом нужно иметь ввиду, что данных о дефолтах намного меньше чем о тех, кто вернул кредит. Таким образом, при разработке математической модели приходится учитывать особенность исходных данных, а именно их несбалансированность.
Методика кредитного скоринга использует математическую модель, которая позволяет решить задачу бинарной классификации, так как наблюдаемые объекты относятся к одному из двух классов. Существует несколько методов реализации бинарной классификации, такие как: логистическая регрессия, метод ^-ближайших соседей, метод опорных векторов, дерево решений, а также ансамблевые методы на основе вышеприведенных методов: голосование, бэггинг, случайный лес, метод градиентного бустинга, метод адаптивного бустинга и др. Они в свою очередь являются методами машинного обучения. Для решения проблемы дисбаланса существуют методы корректировки выборки (сэмплирование), с помощью которых решается проблема дисбаланса: недосэмплирование (уменьшение большего класса), пересэмплирование (увеличение малого класса) и комбинирование вышеуказанных методов. Также проблему работы с несбалансированными данными можно решить с помощью использования ансамблевых методов (объединение нескольких базовых классификаторов, которые будут компенсировать ошибки базовых моделей). Отметим, что на практике эффективнее оказалось использование гибридных методов, объединяющих преимущества классификаторов и ансамблевого подхода.
Объектом исследования являются математические модели кредитного скоринга.
Цель работы - построение оптимальной модели кредитного скоринга с учетом несбалансированности данных.
Работа включает следующие задачи:
• обзор литературы и описание математической составляющей;
• предварительную обработку данных и отбор наиболее значимых признаков для прогнозирования дефолта заемщика;
• построение моделей и их ансамблей для оценки вероятности дефолта заемщика по несбалансированным и сбалансированным данным;
• количественная оценка адекватности построенных моделей по метрикам качества и их сравнение;
• анализ влияния дисбаланса на точность модели кредитного скоринга;
• выбор оптимальной модели.