Разработка математической модели для оценки кредитоспособности клиентов банка методом машинного обучения
|
Аннотация
ВВЕДЕНИЕ 4
ГЛАВА 1 ОБЗОР НАУЧНОЙ ЛИТЕРАТУРЫ В СФЕРЕ МАШИННОГО
ОБУЧЕНИЯ 7
1.1 Математическая модель 7
1.2 Описание машинного обучения 9
1.3 Модели машинного обучения 17
Выводы по главе 1 22
ГЛАВА 2 РАЗРАБОТКА МАТЕМАТИЧЕСКОЙ МОДЕЛИ 23
2.1 Преобразование данных 28
2.2 Применение алгоритмов машинного обучения 37
Выводы по главе 2 41
ГЛАВА 3 ВОЗМОЖНОСТИ КОММЕРЦИАЛИЗАЦИИ 43
3.1 Общее представление о коммерциализации научной деятельности 43
3.2 Платформы для проведения соревнований по машинному обучению 46
Выводы по главе 3 52
ЗАКЛЮЧЕНИЕ 53
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 57
ВВЕДЕНИЕ 4
ГЛАВА 1 ОБЗОР НАУЧНОЙ ЛИТЕРАТУРЫ В СФЕРЕ МАШИННОГО
ОБУЧЕНИЯ 7
1.1 Математическая модель 7
1.2 Описание машинного обучения 9
1.3 Модели машинного обучения 17
Выводы по главе 1 22
ГЛАВА 2 РАЗРАБОТКА МАТЕМАТИЧЕСКОЙ МОДЕЛИ 23
2.1 Преобразование данных 28
2.2 Применение алгоритмов машинного обучения 37
Выводы по главе 2 41
ГЛАВА 3 ВОЗМОЖНОСТИ КОММЕРЦИАЛИЗАЦИИ 43
3.1 Общее представление о коммерциализации научной деятельности 43
3.2 Платформы для проведения соревнований по машинному обучению 46
Выводы по главе 3 52
ЗАКЛЮЧЕНИЕ 53
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 57
Для полноценного и устойчивого положения банка на рынке банковских услуг одним из основных инструментов, предлагаемых клиентам (физическими и юридическими лицами) является кредит. Ключевым риском для банка является возможный невозврат кредита, как в процессе первичного кредитования, так и при перекредитовании. Характеристика клиента банка о возврате называется «кредитоспособность» такого клиента.
Для проведения оценки столь важной характеристики клиента (заемщика) используется достаточно большее количество факторов, так, если речь идёт об организации, то производится количественный и качественный анализ бизнеса, всей схемы деятельности компании.
Оценка кредитоспособности основывается не столько на финансовом результате предприятия-заемщика за тот или иной отчетный период, сколько на прогнозируемых показателях деятельности на весь период кредитования и в целом, процесс такой оценки в достаточной степени трудоемкий и времязатратный.
Так, при оценке зачастую используют такие финансовые показатели как обслуживание долга, финансовый леверидж, прибыльность, оборачиваемость активов и ликвидность. Но для каждого кредитного предприятия финансовые показатели разные, алгоритм проверки также разница.
Сегодня кредитные организации разрабатывают и используют свои наработки и методики оценки кредитоспособности заемщиков.
Оценка такого финансового показателя, как кредитоспособности заемщика ведется в том числе в кредитном отделе банка на базе информации о возможности заемщика получать доход, необходимый для своевременного погашения кредита, о наличии у заемщика имущества, которое при надобности сможет служить обеспечением полученного кредита.
В банке кредитоспособность физических и юридических лиц различаются. Однако имеются с применением современных методом машинного обучения имеется возможность для обобщения данных физических и юридических лиц с вычислением вероятности невозврата кредита по договору.
Цель данной работы является построение математической модели оценки кредитоспособности клиентов банка методом машинного обучения.
Достижение цели предполагает выполнить научно-аналитическую работу, включающую в себя:
• обзор подходов к понятию «математическая модель»;
• описание машинного обучения;
• анализ методов машинного обучения;
• анализ показателей оценки методов машинного обучения
• построение математической модели для оценки кредитоспособности клиентов банка;
• анализ результатов;
• описание коммерциализации проекта.
Объектом исследования являются статистические данные клиентов банка.
Модель оценки невозврата кредита будет способствовать в определении вероятности неблагоприятного для банка события (риска).
Технически такую вероятность можно представить как виде булевого значения (возврат / невозврат), так и в процентном выражении вероятности невозврата, что позволит более точно сделать вывод об исходе кредитного договора. Также стоит обратить внимание на то, что модель оценки является универсальной в том числе для новых данных о клиентах банка, что обосновывает актуальность и практическую ценность работы.
В настоящее время банками и кредитными организациями зачастую используется строгие математические модели / алгоритмы оценки, составленные работниками таких организаций, что означает более предвзятое отношение к оценке и, что самое ключевое, не исключает человеческий фактор. Использование же методов машинного обучения исключает человеческий фактор, т.к. алгоритм выстраивается самой программой, основываясь на больших данных и итогах исполнения кредитного договора. Ввиду последнего можно сказать, что данная работа обладает научной новизной и универсальностью.
Для проведения оценки столь важной характеристики клиента (заемщика) используется достаточно большее количество факторов, так, если речь идёт об организации, то производится количественный и качественный анализ бизнеса, всей схемы деятельности компании.
Оценка кредитоспособности основывается не столько на финансовом результате предприятия-заемщика за тот или иной отчетный период, сколько на прогнозируемых показателях деятельности на весь период кредитования и в целом, процесс такой оценки в достаточной степени трудоемкий и времязатратный.
Так, при оценке зачастую используют такие финансовые показатели как обслуживание долга, финансовый леверидж, прибыльность, оборачиваемость активов и ликвидность. Но для каждого кредитного предприятия финансовые показатели разные, алгоритм проверки также разница.
Сегодня кредитные организации разрабатывают и используют свои наработки и методики оценки кредитоспособности заемщиков.
Оценка такого финансового показателя, как кредитоспособности заемщика ведется в том числе в кредитном отделе банка на базе информации о возможности заемщика получать доход, необходимый для своевременного погашения кредита, о наличии у заемщика имущества, которое при надобности сможет служить обеспечением полученного кредита.
В банке кредитоспособность физических и юридических лиц различаются. Однако имеются с применением современных методом машинного обучения имеется возможность для обобщения данных физических и юридических лиц с вычислением вероятности невозврата кредита по договору.
Цель данной работы является построение математической модели оценки кредитоспособности клиентов банка методом машинного обучения.
Достижение цели предполагает выполнить научно-аналитическую работу, включающую в себя:
• обзор подходов к понятию «математическая модель»;
• описание машинного обучения;
• анализ методов машинного обучения;
• анализ показателей оценки методов машинного обучения
• построение математической модели для оценки кредитоспособности клиентов банка;
• анализ результатов;
• описание коммерциализации проекта.
Объектом исследования являются статистические данные клиентов банка.
Модель оценки невозврата кредита будет способствовать в определении вероятности неблагоприятного для банка события (риска).
Технически такую вероятность можно представить как виде булевого значения (возврат / невозврат), так и в процентном выражении вероятности невозврата, что позволит более точно сделать вывод об исходе кредитного договора. Также стоит обратить внимание на то, что модель оценки является универсальной в том числе для новых данных о клиентах банка, что обосновывает актуальность и практическую ценность работы.
В настоящее время банками и кредитными организациями зачастую используется строгие математические модели / алгоритмы оценки, составленные работниками таких организаций, что означает более предвзятое отношение к оценке и, что самое ключевое, не исключает человеческий фактор. Использование же методов машинного обучения исключает человеческий фактор, т.к. алгоритм выстраивается самой программой, основываясь на больших данных и итогах исполнения кредитного договора. Ввиду последнего можно сказать, что данная работа обладает научной новизной и универсальностью.
Настоящая работа рассматривает задачу по оценки кредитоспособности клиентов банки в рамках прогнозирование невозврата кредита по договор займа. Используется анализ и построение математической модели с использованием различных методов машинного обучения.
Целью работы было в том числе составить математическую модель оценки кредитоспособности клиентов банков и иных кредитных учреждений.
Цель и задачи в рамках анализа научной литературы рассмотрены в главе 1
Рассмотрены вопросы определения термина «математическая модель» и как применимая к задаче настоящей работы имитационная модель. Ввиду того, что классический подход анализа кредитоспособности клиентов банка предлагает непосредственную работу экономического и методологических подразделений банка в целях минимизации кредитных рисков такого банка, возникает две ключевые задачи, во-первых, каким образом разработать наиболее эффективный план проверки кредитоспособности клиентов, во-вторых, имеются существенные трудозатраты самих работников банка по оценке. Как решение обеих задач предлагается использовать математическую модель с использованием машинного обучения.
Приведен анализ самого подхода использованием машинного обучения. Проведена классификация основных задач, решаемых с использованием машинного обучения. В соответствии с задачей настоящей работы определена соответствующая ей задача машинного обучения - бинарная классификация. Определен общий алгоритм работы с машинным обучением, требуемый для решения задачи настоящей работы и в целом задач, для которых подходим машинное обучение.
Во второй главе представлены результаты использования простых алгоритмов машинного обучения:
• метод «Наивный байесовский классификатор»;
• метод «К-средних»;
Так и более сложных (компонентных) методов:
• метод «Случайный лес»;
• метод «градиентный бустинг»;
В соответствии с задачей оценки полученных с использованием данных алгоритмов машинного обучения был предложена наиболее релевантная мера оценки бинарной классификации - AUC ROC.
Проведен весь процесс исследования, предполагающий использование машинного обучения, а именно
• предварительный анализ;
• очистка данных;
• подготовка дынных для использования методов машинного обучения (в рамках использования библиотеки scikit-learn), в том числе обоснованы выбора признаков и формирование новых признаков для более сильной предсказательной возможности алгоритмов машинного обучения;
• применен метод главных компонент для сжатия данных без потери качества предсказания;
• произведен анализ по всем представленным ранее алгоритмам машинного обучения с использованием обозначенной метрики качества;
• выбран лучший алгоритм машинного обучения и предложены возможности для улучшения предсказательной силы такого алгоритма;
Из анализируемых методов машинного обучение лучший результат представил градиентный бустинг, согласно метрике AUC ROC предоставивший точность в 69%.
Использование более простых методов машинного обучения дает более худщий результат, однако это не означает, что услужение алогизмов приведет к более точной предсказательной силе математической модели. Ключевой момент при работе с алгоритмами машинного обучения заключается в работе с обучающими данными, правильная их очистка, заполнение пропусков и, что более важное, формирование новых признаков создает более сильную предсказательную возможность для математической модели.
В этой связи данные представляли собой набор о кредитной истории из трех кредитных бюро. Такие данные несут в себе ряд противоречий или пропусков. Ввиду этого необходимо объединить данные в один датасет и представить данные в таком датасете в читаемый для алгоритмов машинного обучения вид.
В результате оценки итогов работы алгоритмов машинного обучения были представлены рекомендации, а именно: в случае, если банк выберет в качестве продакшн-модели модель с использованием «Случайного леса», то предстательная сила будет меньше, чем у модели с использованием градиентного бустинга, но в рамках используемой в настоящей работе библиотеки scikit-learn можно получить план проверки по признакам из исходных данных в человекочитаемом виде.
В третьей главе описаны методы коммерциализации научных исследованием с использованием методов машинного обучения. Ввиду особенности настоящей работы, а именно, данные для обучения использовались из конкурса по машинному обучению, коммерциализация для исследователя возможна в случае победы в конкурсе. Со стороны же банка коммерциализация рассматривается как возможность использования платформ для проведения соревнований по машинному обучению. В этой связи для заказчика (банка) выгодно применение методов машинного обучения, т.к. исключается человеческий фактор и не требуется ресурсов сотрудников заказчика по оценке кредитоспособности клиентов банка.
Рассмотрены платформы для проведения соревнований по алгоритмам машинного обучения. Более подробнее рассмотрена платформа kaggle как наиболее соответствующая задаче заказчика (банка). При этом дана рекомендация - в случае использования онлайн-обучения необходимо использовать как сайты для проведения соревнований по машинному обучению (Kaggle), так и собственные интернет-ресурсы для последовательно предоставления данных, что в итоге приводит к более точному и практически применимому алгоритму решения задачи заказчика.
В связи с вышеописанным в настоящей работе поставленные цели и задачи выполнены.
Целью работы было в том числе составить математическую модель оценки кредитоспособности клиентов банков и иных кредитных учреждений.
Цель и задачи в рамках анализа научной литературы рассмотрены в главе 1
Рассмотрены вопросы определения термина «математическая модель» и как применимая к задаче настоящей работы имитационная модель. Ввиду того, что классический подход анализа кредитоспособности клиентов банка предлагает непосредственную работу экономического и методологических подразделений банка в целях минимизации кредитных рисков такого банка, возникает две ключевые задачи, во-первых, каким образом разработать наиболее эффективный план проверки кредитоспособности клиентов, во-вторых, имеются существенные трудозатраты самих работников банка по оценке. Как решение обеих задач предлагается использовать математическую модель с использованием машинного обучения.
Приведен анализ самого подхода использованием машинного обучения. Проведена классификация основных задач, решаемых с использованием машинного обучения. В соответствии с задачей настоящей работы определена соответствующая ей задача машинного обучения - бинарная классификация. Определен общий алгоритм работы с машинным обучением, требуемый для решения задачи настоящей работы и в целом задач, для которых подходим машинное обучение.
Во второй главе представлены результаты использования простых алгоритмов машинного обучения:
• метод «Наивный байесовский классификатор»;
• метод «К-средних»;
Так и более сложных (компонентных) методов:
• метод «Случайный лес»;
• метод «градиентный бустинг»;
В соответствии с задачей оценки полученных с использованием данных алгоритмов машинного обучения был предложена наиболее релевантная мера оценки бинарной классификации - AUC ROC.
Проведен весь процесс исследования, предполагающий использование машинного обучения, а именно
• предварительный анализ;
• очистка данных;
• подготовка дынных для использования методов машинного обучения (в рамках использования библиотеки scikit-learn), в том числе обоснованы выбора признаков и формирование новых признаков для более сильной предсказательной возможности алгоритмов машинного обучения;
• применен метод главных компонент для сжатия данных без потери качества предсказания;
• произведен анализ по всем представленным ранее алгоритмам машинного обучения с использованием обозначенной метрики качества;
• выбран лучший алгоритм машинного обучения и предложены возможности для улучшения предсказательной силы такого алгоритма;
Из анализируемых методов машинного обучение лучший результат представил градиентный бустинг, согласно метрике AUC ROC предоставивший точность в 69%.
Использование более простых методов машинного обучения дает более худщий результат, однако это не означает, что услужение алогизмов приведет к более точной предсказательной силе математической модели. Ключевой момент при работе с алгоритмами машинного обучения заключается в работе с обучающими данными, правильная их очистка, заполнение пропусков и, что более важное, формирование новых признаков создает более сильную предсказательную возможность для математической модели.
В этой связи данные представляли собой набор о кредитной истории из трех кредитных бюро. Такие данные несут в себе ряд противоречий или пропусков. Ввиду этого необходимо объединить данные в один датасет и представить данные в таком датасете в читаемый для алгоритмов машинного обучения вид.
В результате оценки итогов работы алгоритмов машинного обучения были представлены рекомендации, а именно: в случае, если банк выберет в качестве продакшн-модели модель с использованием «Случайного леса», то предстательная сила будет меньше, чем у модели с использованием градиентного бустинга, но в рамках используемой в настоящей работе библиотеки scikit-learn можно получить план проверки по признакам из исходных данных в человекочитаемом виде.
В третьей главе описаны методы коммерциализации научных исследованием с использованием методов машинного обучения. Ввиду особенности настоящей работы, а именно, данные для обучения использовались из конкурса по машинному обучению, коммерциализация для исследователя возможна в случае победы в конкурсе. Со стороны же банка коммерциализация рассматривается как возможность использования платформ для проведения соревнований по машинному обучению. В этой связи для заказчика (банка) выгодно применение методов машинного обучения, т.к. исключается человеческий фактор и не требуется ресурсов сотрудников заказчика по оценке кредитоспособности клиентов банка.
Рассмотрены платформы для проведения соревнований по алгоритмам машинного обучения. Более подробнее рассмотрена платформа kaggle как наиболее соответствующая задаче заказчика (банка). При этом дана рекомендация - в случае использования онлайн-обучения необходимо использовать как сайты для проведения соревнований по машинному обучению (Kaggle), так и собственные интернет-ресурсы для последовательно предоставления данных, что в итоге приводит к более точному и практически применимому алгоритму решения задачи заказчика.
В связи с вышеописанным в настоящей работе поставленные цели и задачи выполнены.





