Тема: Построение моделей кредитного скоринга с учетом несбалансированности данных
Закажите новую по вашим требованиям
Представленный материал является образцом учебного исследования, примером структуры и содержания учебного исследования по заявленной теме. Размещён исключительно в информационных и ознакомительных целях.
Workspay.ru оказывает информационные услуги по сбору, обработке и структурированию материалов в соответствии с требованиями заказчика.
Размещение материала не означает публикацию произведения впервые и не предполагает передачу исключительных авторских прав третьим лицам.
Материал не предназначен для дословной сдачи в образовательные организации и требует самостоятельной переработки с соблюдением законодательства Российской Федерации об авторском праве и принципов академической добросовестности.
Авторские права на исходные материалы принадлежат их законным правообладателям. В случае возникновения вопросов, связанных с размещённым материалом, просим направить обращение через форму обратной связи.
📋 Содержание
1. Обзор литературы 13
1.1. Понятие кредитного скоринга 13
1.2. Несбалансированные данные 14
1.3. Ансамблевые методы 15
2. Теоретическая часть 17
2.1. Математические модели кредитного скоринга 17
2.1.1. Логистическая регрессия 17
2.1.2. Метод k-ближайших соседей (K-Nearest Neighbors) 18
2.1.3. Метод опорных векторов (Support Vector Machines) 20
2.1.4. Дерево решений (Decision Tree) 20
2.1.5. Случайный лес (Random Forest) 22
2.1.6. Метод градиентного бустинга (Gradient Boosting) 23
2.1.7. Метод адаптивного бустинга (Adaboost) 24
2.2. Математические методы сэмплирования 25
2.3. Показатели эффективности моделей кредитного скоринга 27
2.4. Отбор значимых признаков 28
3. Практическая часть 30
3.1. Разработка алгоритма построения моделей кредитного скоринга 30
3.2. Среда разработки для реализации алгоритма 30
3.3. Подготовка и интерпретация данных 30
3.4. Выбор признаков для построения модели 32
3.5. Разработка моделей кредитного скоринга на несбалансированной
выборке 35
3.6. Разработка моделей кредитного скоринга на сбалансированной
выборке 37
3.7. Оценка качества построенных моделей 37
3.7.1. Несбалансированные данные 38
3.7.2. Сбалансированные данные 43
Вывод по основной части 53
4. Концепция стартап-проекта 54
4.1. Описание продукта как результата НИР 54
4.2. Интеллектуальная собственность 55
4.3. Объем и емкость рынка 56
4.4. Анализ современного состояния и перспектив развития отрасли 59
4.5. Планируемая стоимость продукта 60
4.6. Конкурентные преимущества создаваемого продукта, сравнение
технико-экономических характеристик с отечественными и мировыми аналогами 62
4.7. Целевые сегменты потребителей 64
4.8. Бизнес-модели проекта. Производственный план и план продаж 65
4.9. Стратегия продвижения продукта на рынок 71
5. Социальная ответственность 73
Введение 73
5.1. Правовые и организационные вопросы обеспечения безопасности ... 73
5.1.1. Правовые нормы трудового законодательства 73
5.1.2. Эргономические требования к правильному расположению и
компоновке рабочей зоны 74
5.2. Производственная безопасность 75
5.2.1. Анализ вредных и опасных факторов, которые могут возникнуть
при разработке программы 75
5.2.2. Обоснование мероприятий по защите исследователя от действия
опасных и вредных факторов 76
5.3. Экологическая безопасность 81
5.4. Безопасность в чрезвычайных ситуациях 82
Выводы по разделу 83
Список литературы 84
Приложение А 87
Приложение Б 89
Приложение В 90
Приложение Г
📖 Введение
Методика кредитного скоринга использует математическую модель, которая позволяет решить задачу бинарной классификации, так как наблюдаемые объекты относятся к одному из двух классов. Существует несколько методов реализации бинарной классификации, такие как: логистическая регрессия, метод ^-ближайших соседей, метод опорных векторов, дерево решений, а также ансамблевые методы на основе вышеприведенных методов: голосование, бэггинг, случайный лес, метод градиентного бустинга, метод адаптивного бустинга и др. Они в свою очередь являются методами машинного обучения. Для решения проблемы дисбаланса существуют методы корректировки выборки (сэмплирование), с помощью которых решается проблема дисбаланса: недосэмплирование (уменьшение большего класса), пересэмплирование (увеличение малого класса) и комбинирование вышеуказанных методов. Также проблему работы с несбалансированными данными можно решить с помощью использования ансамблевых методов (объединение нескольких базовых классификаторов, которые будут компенсировать ошибки базовых моделей). Отметим, что на практике эффективнее оказалось использование гибридных методов, объединяющих преимущества классификаторов и ансамблевого подхода.
Объектом исследования являются математические модели кредитного скоринга.
Цель работы - построение оптимальной модели кредитного скоринга с учетом несбалансированности данных.
Работа включает следующие задачи:
• обзор литературы и описание математической составляющей;
• предварительную обработку данных и отбор наиболее значимых признаков для прогнозирования дефолта заемщика;
• построение моделей и их ансамблей для оценки вероятности дефолта заемщика по несбалансированным и сбалансированным данным;
• количественная оценка адекватности построенных моделей по метрикам качества и их сравнение;
• анализ влияния дисбаланса на точность модели кредитного скоринга;
• выбор оптимальной модели.



