Введение 11
1. Обзор литературы 13
1.1. Понятие кредитного скоринга 13
1.2. Несбалансированные данные 14
1.3. Ансамблевые методы 15
2. Теоретическая часть 17
2.1. Математические модели кредитного скоринга 17
2.1.1. Логистическая регрессия 17
2.1.2. Метод k-ближайших соседей (K-Nearest Neighbors) 18
2.1.3. Метод опорных векторов (Support Vector Machines) 20
2.1.4. Дерево решений (Decision Tree) 20
2.1.5. Случайный лес (Random Forest) 22
2.1.6. Метод градиентного бустинга (Gradient Boosting) 23
2.1.7. Метод адаптивного бустинга (Adaboost) 24
2.2. Математические методы сэмплирования 25
2.3. Показатели эффективности моделей кредитного скоринга 27
2.4. Отбор значимых признаков 28
3. Практическая часть 30
3.1. Разработка алгоритма построения моделей кредитного скоринга 30
3.2. Среда разработки для реализации алгоритма 30
3.3. Подготовка и интерпретация данных 30
3.4. Выбор признаков для построения модели 32
3.5. Разработка моделей кредитного скоринга на несбалансированной
выборке 35
3.6. Разработка моделей кредитного скоринга на сбалансированной
выборке 37
3.7. Оценка качества построенных моделей 37
3.7.1. Несбалансированные данные 38
3.7.2. Сбалансированные данные 43
Вывод по основной части 53
4. Концепция стартап-проекта 54
4.1. Описание продукта как результата НИР 54
4.2. Интеллектуальная собственность 55
4.3. Объем и емкость рынка 56
4.4. Анализ современного состояния и перспектив развития отрасли 59
4.5. Планируемая стоимость продукта 60
4.6. Конкурентные преимущества создаваемого продукта, сравнение
технико-экономических характеристик с отечественными и мировыми аналогами 62
4.7. Целевые сегменты потребителей 64
4.8. Бизнес-модели проекта. Производственный план и план продаж 65
4.9. Стратегия продвижения продукта на рынок 71
5. Социальная ответственность 73
Введение 73
5.1. Правовые и организационные вопросы обеспечения безопасности ... 73
5.1.1. Правовые нормы трудового законодательства 73
5.1.2. Эргономические требования к правильному расположению и
компоновке рабочей зоны 74
5.2. Производственная безопасность 75
5.2.1. Анализ вредных и опасных факторов, которые могут возникнуть
при разработке программы 75
5.2.2. Обоснование мероприятий по защите исследователя от действия
опасных и вредных факторов 76
5.3. Экологическая безопасность 81
5.4. Безопасность в чрезвычайных ситуациях 82
Выводы по разделу 83
Список литературы 84
Приложение А 87
Приложение Б 89
Приложение В 90
Приложение Г
Основой деятельности для банков и кредитных организаций являются услуги кредитования. Одним из решающих факторов при выдаче кредита является оценка кредитных рисков. Стабильность банка зависит от качества выданных кредитов, поэтому банк, способный наиболее точно «отфильтровать» клиентов с высоким кредитным риском, сможет предложить рынку более привлекательные кредитные продукты с оптимальными кредитными ставками и, следовательно, получить определенные конкурентные преимущества. Для этого нужно выбрать “лучшую” модель прогнозирования дефолта для кредитного скоринга. При этом нужно иметь ввиду, что данных о дефолтах намного меньше чем о тех, кто вернул кредит. Таким образом, при разработке математической модели приходится учитывать особенность исходных данных, а именно их несбалансированность.
Методика кредитного скоринга использует математическую модель, которая позволяет решить задачу бинарной классификации, так как наблюдаемые объекты относятся к одному из двух классов. Существует несколько методов реализации бинарной классификации, такие как: логистическая регрессия, метод ^-ближайших соседей, метод опорных векторов, дерево решений, а также ансамблевые методы на основе вышеприведенных методов: голосование, бэггинг, случайный лес, метод градиентного бустинга, метод адаптивного бустинга и др. Они в свою очередь являются методами машинного обучения. Для решения проблемы дисбаланса существуют методы корректировки выборки (сэмплирование), с помощью которых решается проблема дисбаланса: недосэмплирование (уменьшение большего класса), пересэмплирование (увеличение малого класса) и комбинирование вышеуказанных методов. Также проблему работы с несбалансированными данными можно решить с помощью использования ансамблевых методов (объединение нескольких базовых классификаторов, которые будут компенсировать ошибки базовых моделей). Отметим, что на практике эффективнее оказалось использование гибридных методов, объединяющих преимущества классификаторов и ансамблевого подхода.
Объектом исследования являются математические модели кредитного скоринга.
Цель работы - построение оптимальной модели кредитного скоринга с учетом несбалансированности данных.
Работа включает следующие задачи:
• обзор литературы и описание математической составляющей;
• предварительную обработку данных и отбор наиболее значимых признаков для прогнозирования дефолта заемщика;
• построение моделей и их ансамблей для оценки вероятности дефолта заемщика по несбалансированным и сбалансированным данным;
• количественная оценка адекватности построенных моделей по метрикам качества и их сравнение;
• анализ влияния дисбаланса на точность модели кредитного скоринга;
• выбор оптимальной модели.