Разработка математической модели и сервиса кредитного скоринга для анализа платежеспособности клиентов банка
|
АННОТАЦИЯ 2
ВВЕДЕНИЕ 8
1 ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ КРЕДИТОВАНИЯ КОРПОРАТИВНЫХ
КЛИЕНТОВ 11
1.1 Сущность и функции кредита 11
1.2 Повышение эффективности процесса кредитования 15
1.3 Обзор работ 18
1.4 Постановка задачи 18
Выводы по главе 1 19
2 МЕТОДЫ РЕШЕНИЯ ЗАДАЧИ КРЕДИТНОГО СКОРИНГА 20
2.1 Основные методы машинного обучения в кредитном скоринге .... 20
2.1.1 Линейная регрессия 20
2.1.2 Байесовские сети 21
2.1.3 Нейронные сети 22
2.1.4 Комбинированные методы 23
2.2 Алгоритмы машинного обучения 28
2.2.1 k Nearest Neighbor 29
2.2.2 Случайный лес (Random forest) 29
2.2.3 XGBoost 31
Выводы по главе 2 32
3 ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ МАТЕМАТИЧЕСКИХ
МОДЕЛЕЙ РЕШЕНИЯ ЗАДАЧИ КРЕДИТНОГО СКОРИНГА НА ПРИМЕРЕ
БАНКА HOME CREDIT 34
3.1 Описание набора данных 34
3.2 Предварительная обработка данных 36
3.3 Метрика качества (ROC-AUC) 44
3.4 Обсуждение полученных результатов 45
Выводы по главе 3 47
4 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 48
4.1 Дорожная карта коммерциализации проекта 51
4.1.1 Планирование стратегии: основные цели и источники доходов проекта 52
4.1.2 Оценка потенциальных возможностей Интернета для бизнеса . 53
4.2 Создание сайта 54
4.3 Медиапланирование и ценовая политика сайта 65
Выводы по главе 4 67
ЗАКЛЮЧЕНИЕ 68
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 70
ВВЕДЕНИЕ 8
1 ТЕОРЕТИЧЕСКИЕ АСПЕКТЫ КРЕДИТОВАНИЯ КОРПОРАТИВНЫХ
КЛИЕНТОВ 11
1.1 Сущность и функции кредита 11
1.2 Повышение эффективности процесса кредитования 15
1.3 Обзор работ 18
1.4 Постановка задачи 18
Выводы по главе 1 19
2 МЕТОДЫ РЕШЕНИЯ ЗАДАЧИ КРЕДИТНОГО СКОРИНГА 20
2.1 Основные методы машинного обучения в кредитном скоринге .... 20
2.1.1 Линейная регрессия 20
2.1.2 Байесовские сети 21
2.1.3 Нейронные сети 22
2.1.4 Комбинированные методы 23
2.2 Алгоритмы машинного обучения 28
2.2.1 k Nearest Neighbor 29
2.2.2 Случайный лес (Random forest) 29
2.2.3 XGBoost 31
Выводы по главе 2 32
3 ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ МАТЕМАТИЧЕСКИХ
МОДЕЛЕЙ РЕШЕНИЯ ЗАДАЧИ КРЕДИТНОГО СКОРИНГА НА ПРИМЕРЕ
БАНКА HOME CREDIT 34
3.1 Описание набора данных 34
3.2 Предварительная обработка данных 36
3.3 Метрика качества (ROC-AUC) 44
3.4 Обсуждение полученных результатов 45
Выводы по главе 3 47
4 КОММЕРЦИАЛИЗАЦИЯ ПРОЕКТА 48
4.1 Дорожная карта коммерциализации проекта 51
4.1.1 Планирование стратегии: основные цели и источники доходов проекта 52
4.1.2 Оценка потенциальных возможностей Интернета для бизнеса . 53
4.2 Создание сайта 54
4.3 Медиапланирование и ценовая политика сайта 65
Выводы по главе 4 67
ЗАКЛЮЧЕНИЕ 68
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 70
Кредитные отношения - один из наиболее важных аспектов современной экономической деятельности. Эффективность кредитной системы обуславливает успешное развитие производства и социально-экономического прогресса.
При помощи кредита сокращается время на удовлетворение хозяйственных потребностей. Предприятие - заемщик за счет дополнительных средств имеет возможность увеличить свои ресурсы, расширить хозяйство, ускорить достижение производственных целей. Таким образом, кредит выступает опорой современной экономики и неотъемлемой частью экономического развития. Его используют как крупные предприятия и объединения, так и малые производственные, сельскохозяйственные и торговые структуры.
Доходы от кредитных операций являются основным источником прибыли. Однако невозврат кредитов может привести к банкротству. Именно поэтому так важно подобрать для каждого клиента правильный кредитный продукт, а так же заранее распознать проблемного заемщика.
В настоящее время доход банка непосредственно зависит от качества оценки кредитного риска. В зависимости от принадлежности клиента к определенной группе риска, банк принимает решение о его кредитовании или не кредитовании. В современных банках используют два подхода для оценки риска кредитования:
- на основе мнения экспертов;
- с помощью системы кредитного скоринга.
Для оценки кредитоспособности физических лиц главным образом используют подход кредитного скоринга. Кредитный скоринг представляет собой систему, основанную на математических и статистических методах, которая, используя кредитную историю банка, прогнозирует вероятность того, что потенциальный заемщик вовремя вернет кредит. Скоринг оценивает не только вероятность возврата кредита, но и обязательность и надежность клиента.
Актуальность темы обусловлена необходимостью прогнозирования данной- вероятности и надежности клиента с точки зрения его платежеспособности. Исследования и прогнозирование платежеспособности будут произведены на примере данных банка Home Credit. Благодаря предоставленным данным, может быть построена более разумная система кредитного скоринга. Все это позволит снизить риски банков и их деятельности, а также увеличить прибыль.
Основной целью работы является - снижение расходов и увеличение прибыли банков и коммерческих организаций, которые занимаются выдачей кредитов населению.
Чтобы достичь поставленную цель, необходимо решить следующие задачи:
- проанализировать процесс кредитования клиентов;
- проанализировать методы классификации прогнозирования платежеспособности потенциальных заемщиков;
- объяснить выбор использованных метрик качества;
- проанализировать предоставленный набор данных;
- провести предварительную обработку данных;
- исследовать эффективность прогнозирования платежеспособности;
- разработать коммерциализацию проекта.
Научной новизной является использование метода градиентного бустинга для прогнозирования сбоев технологических линий.
Практическая значимость - использование данного подхода позволяет снизить расходы и увеличить прибыль банков и коммерческих организаций, занимающихся выдачей кредитов населению.
Апробации работы:
1. Лайко С.А. WEB-ресурс как способ продвижения предприятия / С.А. Лай- ко, А.А. Тютёва // Научные исследования: теория, методика и практика: материалы III Междунар. науч.-практ. конф. (Чебоксары, 19 нояб. 2017 г.). В 2 т. Т. 2 / редкол.: О.Н. Широков [и др.] - Чебоксары: ЦНС «Интерактив плюс», 2017. - С. 258-260. - ISBN 978-5-6040208-7-6.
2. Тютёва А.А. Оболочка для создания компьютерных тестов как способ оценки уровня знаний / А.А. Тютёва, С.А. Лайко // Образование и наука в современных реалиях: материалы IV Междунар. науч.-практ. конф. (Чебоксары, 26 февр. 2018 г.) / редкол.: О.Н. Широков [и др.] - Чебоксары: ЦНС «Интерактив плюс», 2018. - С. 209-210. - ISBN 978-5-6040732-7-8.
3. Тютёва А.А. Электронные сервисы в школе: социально-техническая эффективность / А.А. Тютёва, А.А. Лесняк // Роль технических наук в развитии общества: сборник материалов Международной научно-практической конференции (Кемерово, 26-27 ноября 2015г.) / редкол.: А.Г. Пимонов [и др.] - С. 43-51. - ISBN 978-5-906805-29-4.
При помощи кредита сокращается время на удовлетворение хозяйственных потребностей. Предприятие - заемщик за счет дополнительных средств имеет возможность увеличить свои ресурсы, расширить хозяйство, ускорить достижение производственных целей. Таким образом, кредит выступает опорой современной экономики и неотъемлемой частью экономического развития. Его используют как крупные предприятия и объединения, так и малые производственные, сельскохозяйственные и торговые структуры.
Доходы от кредитных операций являются основным источником прибыли. Однако невозврат кредитов может привести к банкротству. Именно поэтому так важно подобрать для каждого клиента правильный кредитный продукт, а так же заранее распознать проблемного заемщика.
В настоящее время доход банка непосредственно зависит от качества оценки кредитного риска. В зависимости от принадлежности клиента к определенной группе риска, банк принимает решение о его кредитовании или не кредитовании. В современных банках используют два подхода для оценки риска кредитования:
- на основе мнения экспертов;
- с помощью системы кредитного скоринга.
Для оценки кредитоспособности физических лиц главным образом используют подход кредитного скоринга. Кредитный скоринг представляет собой систему, основанную на математических и статистических методах, которая, используя кредитную историю банка, прогнозирует вероятность того, что потенциальный заемщик вовремя вернет кредит. Скоринг оценивает не только вероятность возврата кредита, но и обязательность и надежность клиента.
Актуальность темы обусловлена необходимостью прогнозирования данной- вероятности и надежности клиента с точки зрения его платежеспособности. Исследования и прогнозирование платежеспособности будут произведены на примере данных банка Home Credit. Благодаря предоставленным данным, может быть построена более разумная система кредитного скоринга. Все это позволит снизить риски банков и их деятельности, а также увеличить прибыль.
Основной целью работы является - снижение расходов и увеличение прибыли банков и коммерческих организаций, которые занимаются выдачей кредитов населению.
Чтобы достичь поставленную цель, необходимо решить следующие задачи:
- проанализировать процесс кредитования клиентов;
- проанализировать методы классификации прогнозирования платежеспособности потенциальных заемщиков;
- объяснить выбор использованных метрик качества;
- проанализировать предоставленный набор данных;
- провести предварительную обработку данных;
- исследовать эффективность прогнозирования платежеспособности;
- разработать коммерциализацию проекта.
Научной новизной является использование метода градиентного бустинга для прогнозирования сбоев технологических линий.
Практическая значимость - использование данного подхода позволяет снизить расходы и увеличить прибыль банков и коммерческих организаций, занимающихся выдачей кредитов населению.
Апробации работы:
1. Лайко С.А. WEB-ресурс как способ продвижения предприятия / С.А. Лай- ко, А.А. Тютёва // Научные исследования: теория, методика и практика: материалы III Междунар. науч.-практ. конф. (Чебоксары, 19 нояб. 2017 г.). В 2 т. Т. 2 / редкол.: О.Н. Широков [и др.] - Чебоксары: ЦНС «Интерактив плюс», 2017. - С. 258-260. - ISBN 978-5-6040208-7-6.
2. Тютёва А.А. Оболочка для создания компьютерных тестов как способ оценки уровня знаний / А.А. Тютёва, С.А. Лайко // Образование и наука в современных реалиях: материалы IV Междунар. науч.-практ. конф. (Чебоксары, 26 февр. 2018 г.) / редкол.: О.Н. Широков [и др.] - Чебоксары: ЦНС «Интерактив плюс», 2018. - С. 209-210. - ISBN 978-5-6040732-7-8.
3. Тютёва А.А. Электронные сервисы в школе: социально-техническая эффективность / А.А. Тютёва, А.А. Лесняк // Роль технических наук в развитии общества: сборник материалов Международной научно-практической конференции (Кемерово, 26-27 ноября 2015г.) / редкол.: А.Г. Пимонов [и др.] - С. 43-51. - ISBN 978-5-906805-29-4.
1. В ходе исследования предметной области был изучен механизм взаимодействия банка с потенциальными клиентами на примере банка Хоум Кредит, механизм кредитного скоринга и методов его достижения.
2. В дипломной работе были изучены методы машинного обучения, а в частности контролируемое обучение и обучение без учителя. Рассмотрены популярные алгоритмы, которые используются в машинном обучении для решения данных проблем, такие как k Nearest Neighbor или k Ближайших Соседей, Random forest (случайный лес) и GBoost. Но для того чтобы понять в пользу какого алгоритма сделать выбор, который будет наилучшим для решения данной задачи, стоило разобраться в предоставленных данных и задачах, которые нужно решить, что и было продемонстрировано в 3-ей главе.
3. Была раскрыта тема проекта и ее цель, которая подразумевает прогнозирование платежеспособности клиентов банка. Показано описание набора данных предоставленных банком Хоум Кредит, продемонстрированных в виде табличных данных. Произведена оценка качества и показателей. В связи с большим объемом данных и иногда неполной картиной относительно какого-либо клиента банка (некоторая информация отсутствовала в предоставленных данных) необходимо было первостепенно произвести отчистку (предварительную обработку) данных. Все данные по итогу были разбиты на категориальные, числовые и особенности даты. Исходя из описания методов во второй главе и набора данных из третьей главы был сделан выбор в пользу метода Gradient Boosting с описанием преимуществ в сравнении с другими методами. Разработана коммерциализация проекта по этапам. Изначально была разработана дорожная карта коммерциализации данного проекта, которая подразумевает наглядное представление пошагового сценария развития, в которую входит - планирование стратегии, исходя из задач, для решения поставленной цели, описаны источники доходов по видам предоставляемых услуг и их стоимость в рублях. Проведена оценка потенциальных возмож
ностей Интернета для бизнеса, в которой были рассмотрены: целевая аудитория, конкурентная среда и потенциальные партнеры. Также продемонстрирована таблица SWOT-анализа.
4. По потенциальным возможностям Интернета было выбрано создать сайт по предоставлению услуги прогнозирования сбоев технологических линий другим компаниям. Для решения данной задачи первостепенным было принято решение выбора доменного имени для сайта, а также был выбран тип и информационное наполнение сайта. Следующим шагом был выбор инструментов для работы с аудиторией сайта. В табличном виде представлен мониторинг сайта. Описано продвижение и ценовая политика сайта. Разработан медиаплан, также продемонстрированный в табличном виде.
2. В дипломной работе были изучены методы машинного обучения, а в частности контролируемое обучение и обучение без учителя. Рассмотрены популярные алгоритмы, которые используются в машинном обучении для решения данных проблем, такие как k Nearest Neighbor или k Ближайших Соседей, Random forest (случайный лес) и GBoost. Но для того чтобы понять в пользу какого алгоритма сделать выбор, который будет наилучшим для решения данной задачи, стоило разобраться в предоставленных данных и задачах, которые нужно решить, что и было продемонстрировано в 3-ей главе.
3. Была раскрыта тема проекта и ее цель, которая подразумевает прогнозирование платежеспособности клиентов банка. Показано описание набора данных предоставленных банком Хоум Кредит, продемонстрированных в виде табличных данных. Произведена оценка качества и показателей. В связи с большим объемом данных и иногда неполной картиной относительно какого-либо клиента банка (некоторая информация отсутствовала в предоставленных данных) необходимо было первостепенно произвести отчистку (предварительную обработку) данных. Все данные по итогу были разбиты на категориальные, числовые и особенности даты. Исходя из описания методов во второй главе и набора данных из третьей главы был сделан выбор в пользу метода Gradient Boosting с описанием преимуществ в сравнении с другими методами. Разработана коммерциализация проекта по этапам. Изначально была разработана дорожная карта коммерциализации данного проекта, которая подразумевает наглядное представление пошагового сценария развития, в которую входит - планирование стратегии, исходя из задач, для решения поставленной цели, описаны источники доходов по видам предоставляемых услуг и их стоимость в рублях. Проведена оценка потенциальных возмож
ностей Интернета для бизнеса, в которой были рассмотрены: целевая аудитория, конкурентная среда и потенциальные партнеры. Также продемонстрирована таблица SWOT-анализа.
4. По потенциальным возможностям Интернета было выбрано создать сайт по предоставлению услуги прогнозирования сбоев технологических линий другим компаниям. Для решения данной задачи первостепенным было принято решение выбора доменного имени для сайта, а также был выбран тип и информационное наполнение сайта. Следующим шагом был выбор инструментов для работы с аудиторией сайта. В табличном виде представлен мониторинг сайта. Описано продвижение и ценовая политика сайта. Разработан медиаплан, также продемонстрированный в табличном виде.





