Разработка математических моделей для решения задачи классификации потенциальных кредитополучателей в целях уменьшения рисков для банка
|
ВВЕДЕНИЕ 9
1 ГЛАВА 1 МЕТОДИЧЕСКИЕ АСПЕКТЫ ПРОГНОЗИРОВАНИЯ
КРЕДИТНОГО РИСКА 13
1.1 Понятие кредитного риска 13
1.2 Организация процесса кредитования в банках 38
1.3 Управление кредитными рисками 40
1.4 Подходы к анализу и оценке кредитоспособности клиента 43
1.5 Скоринговые модели как средство управления кредитными рисками в
банках 44
1.6 Анализ работ, посвященных прогнозированию вероятности возврата
кредита 44
1.7 Постановка задачи
2 ГЛАВА 2 МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ 27
2.1 Логистическая регрессия 38
2.2 Деревья решений 40
2.2.1 Построение дерева решений 43
2.3 Ансабли 44
2.3.1 Стекинг 44
2.3.2 Бэггинг 44
2.3.3 Бустинг 45
2.4 Ансабли деревьев решений 46
2.4.1 Random Forest 46
2.4.2 Градиентный бустинг деревьев 49
2.4.3 Extra Trees 50
2.5 Extreme Gradient Boosting 51
2.6 Гиперпараметры 52
2.6.1 Настраиваемые гиперпараметры 53
3 ГЛАВА 3 ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ
МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ДЛЯ ПРОГНОЗИРОВАНИЯ
ВЕРОЯТНОСТИ ВОЗВРАТА КРЕДИТА НА ПРИМЕРЕ ДАННЫХ БАНКА HOME CREDIT 57
3.1 Понимание проблемы и ознакомление с данными 58
3.2 Exploratory Data Analysis (первичное исследование данных) 60
3.3 Тренировка модели 81
3.3.1 Логистическая регрессия 82
3.3.2 Random Forest 83
3.3.3 Градиентный бустинг 83
3.3.4 Кросс-валидация 88
4 ГЛАВА 4 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 89
4.1 Участники процесса коммерциализации 90
4.2 Выбор способа коммерциализации 93
4.3 Описание продукта 98
4.4 Решаемая проблема 98
4.5 Объем рынка 99
4.6 Дорожная карта коммерциализации проекта 99
4.7 Бизнес-Модель 101
4.8 Команда проекта 102
4.9 Ценообразование 103
ЗАКЛЮЧЕНИЕ 106
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ЛИТЕРАТУРЫ 107
1 ГЛАВА 1 МЕТОДИЧЕСКИЕ АСПЕКТЫ ПРОГНОЗИРОВАНИЯ
КРЕДИТНОГО РИСКА 13
1.1 Понятие кредитного риска 13
1.2 Организация процесса кредитования в банках 38
1.3 Управление кредитными рисками 40
1.4 Подходы к анализу и оценке кредитоспособности клиента 43
1.5 Скоринговые модели как средство управления кредитными рисками в
банках 44
1.6 Анализ работ, посвященных прогнозированию вероятности возврата
кредита 44
1.7 Постановка задачи
2 ГЛАВА 2 МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ 27
2.1 Логистическая регрессия 38
2.2 Деревья решений 40
2.2.1 Построение дерева решений 43
2.3 Ансабли 44
2.3.1 Стекинг 44
2.3.2 Бэггинг 44
2.3.3 Бустинг 45
2.4 Ансабли деревьев решений 46
2.4.1 Random Forest 46
2.4.2 Градиентный бустинг деревьев 49
2.4.3 Extra Trees 50
2.5 Extreme Gradient Boosting 51
2.6 Гиперпараметры 52
2.6.1 Настраиваемые гиперпараметры 53
3 ГЛАВА 3 ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ
МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ДЛЯ ПРОГНОЗИРОВАНИЯ
ВЕРОЯТНОСТИ ВОЗВРАТА КРЕДИТА НА ПРИМЕРЕ ДАННЫХ БАНКА HOME CREDIT 57
3.1 Понимание проблемы и ознакомление с данными 58
3.2 Exploratory Data Analysis (первичное исследование данных) 60
3.3 Тренировка модели 81
3.3.1 Логистическая регрессия 82
3.3.2 Random Forest 83
3.3.3 Градиентный бустинг 83
3.3.4 Кросс-валидация 88
4 ГЛАВА 4 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 89
4.1 Участники процесса коммерциализации 90
4.2 Выбор способа коммерциализации 93
4.3 Описание продукта 98
4.4 Решаемая проблема 98
4.5 Объем рынка 99
4.6 Дорожная карта коммерциализации проекта 99
4.7 Бизнес-Модель 101
4.8 Команда проекта 102
4.9 Ценообразование 103
ЗАКЛЮЧЕНИЕ 106
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ЛИТЕРАТУРЫ 107
В настоящее время существует много рисков, связанных с банковскими кредитами, особенно для банков, связанных с потерей капитала. В связи с этим анализ рисков и оценка дефолта становится критически важными. Банки хранят огромные объемы данных о поведении клиентов, из которых они не могут прийти к суждению, может ли заявитель быть неплательщиком или нет, будут ли проблемы с возвратом кредита или нет.
Для банковской сферы применение методов машинного обучения показало высокую эффективность. В частности, применительно к данной работе, анализ больших массивов данных и разработка модели прогнозирования существенно снижают нагрузку на персонал банка, уменьшает время обработки информации и вынесения решения, в целом - уменьшает издержки и практически исключает фактор человеческой ошибки.
В общем - значительно упрощает и автоматизирует процесс анализа и вынесения решения, что в текущей мировой конъюнктуре, в которой популярность банковской сферы, и в целом клиентооборот банков, значительно увеличились, может сыграть серьезную роль в плане повышения конкурентоспособности банка и повышения экономической стабильности через уменьшение потенциальных рисков.
Оценка кредитного риска является критически важной проблемой, с которой сталкиваются банки в настоящее время, и которая помогает им оценить, может ли соискатель кредита быть неплательщиком на более позднем этапе, чтобы они могли принять решение - предоставить кредит или нет. Это помогает банкам минимизировать возможные убытки и может увеличить объем кредитов. Результатом этой оценки кредитного риска будет прогноз категории заявителя - 0 или 1. Следовательно, становится важным создать модель, которая будет учитывать различные аспекты заявителя. Это поможет банку решить, могут ли они предложить кредит заявителю или нет.
В таком сценарии анализируемые данные огромны и сложны, и использование методов интеллектуального анализа данных для получения результата является наиболее подходящим вариантом при условии его эффективной аналитической методологии, которая находит полезные знания.
Целью данной работы является предложение модели анализа данных с использованием методов машинного обучения для прогнозирования категорий для новых заявителей на получение кредита в банке.
Данные, используемые для анализа, содержат много несоответствий, таких как отсутствующие значения, выбросы и несоответствия, и их необходимо обработать перед использованием для построения модели. Лишь немногие из параметров клиента действительно способствуют прогнозированию неплательщика. Таким образом, эти параметры или функции должны быть определены до применения модели.
В ходе выполнения работы, будут опробованы разные методики машинного обучения. В результате - будет определена лучшая.
Теоретической и методологической основой магистерской диссертации являются труды зарубежных и отечественных ученых в области машинного обучения. Так, например в российской литературе известны такие авторы как: Вьюгин В.В.[1], Николенко С.И.[2], Барскир А.Б.[3], Матвеев А.С.[4], Ручкин В.Н.[5], В.А. Фулин[5], Аксенов С.В.[6], Новосельцев В.Б.[6], Воронцов К.В.[7], Лепский А.Е.[8], Броневич А.Г.[8]
В зарубежной литературе: Я.Гудфеллоу[9], И.Бенджио[9], А.Курвилль [9], А. Джули[10], Суджит Пол[10], Мохамед Али,[11] Арно Мейсман[11], Дэви Силен[11], Андреас Мюллер[12], Сара Гвидо[12], Себастьян Рашка[13].Джоэл Грас[13], Дж. Вандер Плас[14],
Рассмотрев различные точки зрения в отечественной и зарубежной литературе, можно прийти к выводу, что существуют различные методы прогнозирования, каждый из которых имеет свои преимущества и недостатки.
Объект исследования - процесс предкредитной оценки и анализа потенциальных кредитополучателей банка.
Предмет исследования - методы прогнозирования вероятности возврата кредита клиентами банка.
Цель исследования - совершенствование методов предкредитной оценки кредитополучателя на основе анализа данных о предшествующих кредитах других клиентов банка, для минимизации рисков и уменьшения объема не возвращенных денежных средств.
Для достижения цели были поставлены следующие задачи:
1) описание понятия предкредитного анализа.
2) провести исследование и анализ современных подходов к проведению предкредитного анализа.
3) анализ имеющихся прогнозных методов машинного обучения.
4) формулировка требований к прогнозной модели.
5) построение прогнозной модели.
6) сравнительный анализ результатов прогнозирования методами машинного обучения.
7) разработка плана коммерциализации.
Новизна работы заключается в том, что на основе комплексного анализа:
1) рассмотрены и проанализированы методы прогнозирования.
2) проведен сравнительный анализ методов.
3) разработана модель для решения задачи классификации потенциальных кредитополучателей в целях уменьшения рисков для банка.
Практическая значимость работы обусловлена применением результатов исследования на практике, для решения задачи классификации потенциальных кредитополучателей в целях уменьшения рисков для банка.
Для банковской сферы применение методов машинного обучения показало высокую эффективность. В частности, применительно к данной работе, анализ больших массивов данных и разработка модели прогнозирования существенно снижают нагрузку на персонал банка, уменьшает время обработки информации и вынесения решения, в целом - уменьшает издержки и практически исключает фактор человеческой ошибки.
В общем - значительно упрощает и автоматизирует процесс анализа и вынесения решения, что в текущей мировой конъюнктуре, в которой популярность банковской сферы, и в целом клиентооборот банков, значительно увеличились, может сыграть серьезную роль в плане повышения конкурентоспособности банка и повышения экономической стабильности через уменьшение потенциальных рисков.
Оценка кредитного риска является критически важной проблемой, с которой сталкиваются банки в настоящее время, и которая помогает им оценить, может ли соискатель кредита быть неплательщиком на более позднем этапе, чтобы они могли принять решение - предоставить кредит или нет. Это помогает банкам минимизировать возможные убытки и может увеличить объем кредитов. Результатом этой оценки кредитного риска будет прогноз категории заявителя - 0 или 1. Следовательно, становится важным создать модель, которая будет учитывать различные аспекты заявителя. Это поможет банку решить, могут ли они предложить кредит заявителю или нет.
В таком сценарии анализируемые данные огромны и сложны, и использование методов интеллектуального анализа данных для получения результата является наиболее подходящим вариантом при условии его эффективной аналитической методологии, которая находит полезные знания.
Целью данной работы является предложение модели анализа данных с использованием методов машинного обучения для прогнозирования категорий для новых заявителей на получение кредита в банке.
Данные, используемые для анализа, содержат много несоответствий, таких как отсутствующие значения, выбросы и несоответствия, и их необходимо обработать перед использованием для построения модели. Лишь немногие из параметров клиента действительно способствуют прогнозированию неплательщика. Таким образом, эти параметры или функции должны быть определены до применения модели.
В ходе выполнения работы, будут опробованы разные методики машинного обучения. В результате - будет определена лучшая.
Теоретической и методологической основой магистерской диссертации являются труды зарубежных и отечественных ученых в области машинного обучения. Так, например в российской литературе известны такие авторы как: Вьюгин В.В.[1], Николенко С.И.[2], Барскир А.Б.[3], Матвеев А.С.[4], Ручкин В.Н.[5], В.А. Фулин[5], Аксенов С.В.[6], Новосельцев В.Б.[6], Воронцов К.В.[7], Лепский А.Е.[8], Броневич А.Г.[8]
В зарубежной литературе: Я.Гудфеллоу[9], И.Бенджио[9], А.Курвилль [9], А. Джули[10], Суджит Пол[10], Мохамед Али,[11] Арно Мейсман[11], Дэви Силен[11], Андреас Мюллер[12], Сара Гвидо[12], Себастьян Рашка[13].Джоэл Грас[13], Дж. Вандер Плас[14],
Рассмотрев различные точки зрения в отечественной и зарубежной литературе, можно прийти к выводу, что существуют различные методы прогнозирования, каждый из которых имеет свои преимущества и недостатки.
Объект исследования - процесс предкредитной оценки и анализа потенциальных кредитополучателей банка.
Предмет исследования - методы прогнозирования вероятности возврата кредита клиентами банка.
Цель исследования - совершенствование методов предкредитной оценки кредитополучателя на основе анализа данных о предшествующих кредитах других клиентов банка, для минимизации рисков и уменьшения объема не возвращенных денежных средств.
Для достижения цели были поставлены следующие задачи:
1) описание понятия предкредитного анализа.
2) провести исследование и анализ современных подходов к проведению предкредитного анализа.
3) анализ имеющихся прогнозных методов машинного обучения.
4) формулировка требований к прогнозной модели.
5) построение прогнозной модели.
6) сравнительный анализ результатов прогнозирования методами машинного обучения.
7) разработка плана коммерциализации.
Новизна работы заключается в том, что на основе комплексного анализа:
1) рассмотрены и проанализированы методы прогнозирования.
2) проведен сравнительный анализ методов.
3) разработана модель для решения задачи классификации потенциальных кредитополучателей в целях уменьшения рисков для банка.
Практическая значимость работы обусловлена применением результатов исследования на практике, для решения задачи классификации потенциальных кредитополучателей в целях уменьшения рисков для банка.
В данной работе был проведен полноценный анализ исходных данных, были построены графики, таблицы и т.д.
В главе 1 было рассмотрено понятие кредитного риска, были проанализированы текущие практики, также приведен анализ работ, посвященных данной тематике.
В главе 2 было рассмотрено понятие машинного обучения, были разобраны методы, которые могут быть применены к текущей задаче.
В главе 3 были проанализированы исходные данные, выполнен первичный анализ данных, проведена работа с недостающими данными, построены модели с использованием различных методов.
В главе 4 был описан потенциальный план коммерциализации, были приведены дорожная карта, таблицы затрат, план по персоналу и т.д.
Лучший результат - Full AUC score 0.754 - был получен с применением методики разделения на фолды и использования методики кросс-валидации.
В главе 1 было рассмотрено понятие кредитного риска, были проанализированы текущие практики, также приведен анализ работ, посвященных данной тематике.
В главе 2 было рассмотрено понятие машинного обучения, были разобраны методы, которые могут быть применены к текущей задаче.
В главе 3 были проанализированы исходные данные, выполнен первичный анализ данных, проведена работа с недостающими данными, построены модели с использованием различных методов.
В главе 4 был описан потенциальный план коммерциализации, были приведены дорожная карта, таблицы затрат, план по персоналу и т.д.
Лучший результат - Full AUC score 0.754 - был получен с применением методики разделения на фолды и использования методики кросс-валидации.



