🔍 Поиск готовых работ

🔍 Поиск работ

Разработка математической модели для оценки кредитоспособности клиентов банка методом машинного обучения

Работа №203279

Тип работы

Дипломные работы, ВКР

Предмет

информационные системы

Объем работы71
Год сдачи2019
Стоимость4100 руб.
ПУБЛИКУЕТСЯ ВПЕРВЫЕ
Просмотрено
2
Не подходит работа?

Узнай цену на написание


Аннотация
ВВЕДЕНИЕ 4
ГЛАВА 1 ОБЗОР НАУЧНОЙ ЛИТЕРАТУРЫ В СФЕРЕ МАШИННОГО
ОБУЧЕНИЯ 7
1.1 Математическая модель 7
1.2 Описание машинного обучения 9
1.3 Модели машинного обучения 17
Выводы по главе 1 22
ГЛАВА 2 РАЗРАБОТКА МАТЕМАТИЧЕСКОЙ МОДЕЛИ 23
2.1 Преобразование данных 28
2.2 Применение алгоритмов машинного обучения 37
Выводы по главе 2 41
ГЛАВА 3 ВОЗМОЖНОСТИ КОММЕРЦИАЛИЗАЦИИ 43
3.1 Общее представление о коммерциализации научной деятельности 43
3.2 Платформы для проведения соревнований по машинному обучению 46
Выводы по главе 3 52
ЗАКЛЮЧЕНИЕ 53
БИБЛИОГРАФИЧЕСКИЙ СПИСОК 57

Для полноценного и устойчивого положения банка на рынке банковских услуг одним из основных инструментов, предлагаемых клиентам (физическими и юридическими лицами) является кредит. Ключевым риском для банка является возможный невозврат кредита, как в процессе первичного кредитования, так и при перекредитовании. Характеристика клиента банка о возврате называется «кредитоспособность» такого клиента.
Для проведения оценки столь важной характеристики клиента (заемщика) используется достаточно большее количество факторов, так, если речь идёт об организации, то производится количественный и качественный анализ бизнеса, всей схемы деятельности компании.
Оценка кредитоспособности основывается не столько на финансовом результате предприятия-заемщика за тот или иной отчетный период, сколько на прогнозируемых показателях деятельности на весь период кредитования и в целом, процесс такой оценки в достаточной степени трудоемкий и времязатратный.
Так, при оценке зачастую используют такие финансовые показатели как обслуживание долга, финансовый леверидж, прибыльность, оборачиваемость активов и ликвидность. Но для каждого кредитного предприятия финансовые показатели разные, алгоритм проверки также разница.
Сегодня кредитные организации разрабатывают и используют свои наработки и методики оценки кредитоспособности заемщиков.
Оценка такого финансового показателя, как кредитоспособности заемщика ведется в том числе в кредитном отделе банка на базе информации о возможности заемщика получать доход, необходимый для своевременного погашения кредита, о наличии у заемщика имущества, которое при надобности сможет служить обеспечением полученного кредита.
В банке кредитоспособность физических и юридических лиц различаются. Однако имеются с применением современных методом машинного обучения имеется возможность для обобщения данных физических и юридических лиц с вычислением вероятности невозврата кредита по договору.
Цель данной работы является построение математической модели оценки кредитоспособности клиентов банка методом машинного обучения.
Достижение цели предполагает выполнить научно-аналитическую работу, включающую в себя:
• обзор подходов к понятию «математическая модель»;
• описание машинного обучения;
• анализ методов машинного обучения;
• анализ показателей оценки методов машинного обучения
• построение математической модели для оценки кредитоспособности клиентов банка;
• анализ результатов;
• описание коммерциализации проекта.
Объектом исследования являются статистические данные клиентов банка.
Модель оценки невозврата кредита будет способствовать в определении вероятности неблагоприятного для банка события (риска).
Технически такую вероятность можно представить как виде булевого значения (возврат / невозврат), так и в процентном выражении вероятности невозврата, что позволит более точно сделать вывод об исходе кредитного договора. Также стоит обратить внимание на то, что модель оценки является универсальной в том числе для новых данных о клиентах банка, что обосновывает актуальность и практическую ценность работы.
В настоящее время банками и кредитными организациями зачастую используется строгие математические модели / алгоритмы оценки, составленные работниками таких организаций, что означает более предвзятое отношение к оценке и, что самое ключевое, не исключает человеческий фактор. Использование же методов машинного обучения исключает человеческий фактор, т.к. алгоритм выстраивается самой программой, основываясь на больших данных и итогах исполнения кредитного договора. Ввиду последнего можно сказать, что данная работа обладает научной новизной и универсальностью.

Возникли сложности?

Нужна помощь преподавателя?

Помощь в написании работ!


Настоящая работа рассматривает задачу по оценки кредитоспособности клиентов банки в рамках прогнозирование невозврата кредита по договор займа. Используется анализ и построение математической модели с использованием различных методов машинного обучения.
Целью работы было в том числе составить математическую модель оценки кредитоспособности клиентов банков и иных кредитных учреждений.
Цель и задачи в рамках анализа научной литературы рассмотрены в главе 1
Рассмотрены вопросы определения термина «математическая модель» и как применимая к задаче настоящей работы имитационная модель. Ввиду того, что классический подход анализа кредитоспособности клиентов банка предлагает непосредственную работу экономического и методологических подразделений банка в целях минимизации кредитных рисков такого банка, возникает две ключевые задачи, во-первых, каким образом разработать наиболее эффективный план проверки кредитоспособности клиентов, во-вторых, имеются существенные трудозатраты самих работников банка по оценке. Как решение обеих задач предлагается использовать математическую модель с использованием машинного обучения.
Приведен анализ самого подхода использованием машинного обучения. Проведена классификация основных задач, решаемых с использованием машинного обучения. В соответствии с задачей настоящей работы определена соответствующая ей задача машинного обучения - бинарная классификация. Определен общий алгоритм работы с машинным обучением, требуемый для решения задачи настоящей работы и в целом задач, для которых подходим машинное обучение.
Во второй главе представлены результаты использования простых алгоритмов машинного обучения:
• метод «Наивный байесовский классификатор»;
• метод «К-средних»;
Так и более сложных (компонентных) методов:
• метод «Случайный лес»;
• метод «градиентный бустинг»;
В соответствии с задачей оценки полученных с использованием данных алгоритмов машинного обучения был предложена наиболее релевантная мера оценки бинарной классификации - AUC ROC.
Проведен весь процесс исследования, предполагающий использование машинного обучения, а именно
• предварительный анализ;
• очистка данных;
• подготовка дынных для использования методов машинного обучения (в рамках использования библиотеки scikit-learn), в том числе обоснованы выбора признаков и формирование новых признаков для более сильной предсказательной возможности алгоритмов машинного обучения;
• применен метод главных компонент для сжатия данных без потери качества предсказания;
• произведен анализ по всем представленным ранее алгоритмам машинного обучения с использованием обозначенной метрики качества;
• выбран лучший алгоритм машинного обучения и предложены возможности для улучшения предсказательной силы такого алгоритма;
Из анализируемых методов машинного обучение лучший результат представил градиентный бустинг, согласно метрике AUC ROC предоставивший точность в 69%.
Использование более простых методов машинного обучения дает более худщий результат, однако это не означает, что услужение алогизмов приведет к более точной предсказательной силе математической модели. Ключевой момент при работе с алгоритмами машинного обучения заключается в работе с обучающими данными, правильная их очистка, заполнение пропусков и, что более важное, формирование новых признаков создает более сильную предсказательную возможность для математической модели.
В этой связи данные представляли собой набор о кредитной истории из трех кредитных бюро. Такие данные несут в себе ряд противоречий или пропусков. Ввиду этого необходимо объединить данные в один датасет и представить данные в таком датасете в читаемый для алгоритмов машинного обучения вид.
В результате оценки итогов работы алгоритмов машинного обучения были представлены рекомендации, а именно: в случае, если банк выберет в качестве продакшн-модели модель с использованием «Случайного леса», то предстательная сила будет меньше, чем у модели с использованием градиентного бустинга, но в рамках используемой в настоящей работе библиотеки scikit-learn можно получить план проверки по признакам из исходных данных в человекочитаемом виде.
В третьей главе описаны методы коммерциализации научных исследованием с использованием методов машинного обучения. Ввиду особенности настоящей работы, а именно, данные для обучения использовались из конкурса по машинному обучению, коммерциализация для исследователя возможна в случае победы в конкурсе. Со стороны же банка коммерциализация рассматривается как возможность использования платформ для проведения соревнований по машинному обучению. В этой связи для заказчика (банка) выгодно применение методов машинного обучения, т.к. исключается человеческий фактор и не требуется ресурсов сотрудников заказчика по оценке кредитоспособности клиентов банка.
Рассмотрены платформы для проведения соревнований по алгоритмам машинного обучения. Более подробнее рассмотрена платформа kaggle как наиболее соответствующая задаче заказчика (банка). При этом дана рекомендация - в случае использования онлайн-обучения необходимо использовать как сайты для проведения соревнований по машинному обучению (Kaggle), так и собственные интернет-ресурсы для последовательно предоставления данных, что в итоге приводит к более точному и практически применимому алгоритму решения задачи заказчика.
В связи с вышеописанным в настоящей работе поставленные цели и задачи выполнены.


1. Андрейчиков А.В. Интеллектуальные информационные системы: учебник . Финансы и статистика, 2004. - 424 с.
2. Браже Р. А., Гришина А. А. Моделирование в научном познании. - Ульяновск изд. УлГТУ, 2007. - 26 с.
3. Вагин В.Н. Достоверный и правдоподобный вывод в интеллектуальных системах. Физматлит, 2004. - 712 с.
4. Воронцов К. В. Вероятностное тематическое моделирование. - Москва: Профеесия, 2013. - 686 с.
5. Дорогов А.Ю., Алексеев А.А., Буторин Д.А. Нейронные сети со структурой быстрого алгоритма. - Красноярск: Сборник докладов Всероссийского семинара "Нейроинформатика", 1998. - 53 с.
6. Дубина И.Н. Основы математического моделирования социально­экономических процессов: учебник и практикум для бакалавриата и
магистратуры. Юрайт,, 2016. - 349 с.
7. Дьяконов А. Г. Теория систем эквивалентностей для описания алгебраических замыканий обобщенной модели вычисления оценок. Журнал вычислительной математики и математической физики, 2010. - 464 с.
8. Коржов В. Многоуровневые системы клиент-сервер. - Москва: Открытые системы, 2010. - 232 с.
9. Матвеев М.Г. Модели и методы искусственного интеллекта. Применение в экономике. Финансы и статистика, 2008. - 448 с.
10. Пятецкий-Шапиро Григорий Data Mining и перегрузка информацией. - 3 изд. - СПб.: Сборник докладов Всероссийского семинара "Нейроинформатика", 2009. - 512 с..
11. Рассел С. Искусственный интеллект: современный подход. Вильямс, 2006. - 1408 с.
12. Тельнов Ю.Ф. Интеллектуальные информационные системы в экономике: учебное пособие . СИНТЕГ, 2002. - 82 с.
13. Томас Х., Чарльз И., Рональд Л. Алгоритмы: построение и анализ. - Москва: Вильямс, 2005. - 1328 с.
14. Частиков А.П. Разработка экспертных систем. Среда CLIPS . - СПб.: БХВ-Петербург, 2003. - 396 с.
15. Anshul Bhargav, Munish Bhargav Pattern Discovery and Users Classification Through Web Usage Mining. International Conference on Control, Instrumentation, Communication and Computational Technologies (ICCICCT), 2014. - 286 с.
16. Cooper W. W. Data Envelopment Analysis: A Comprehensive Text with
Models, Applications, References, and DEA-Solver Software . - Boston: Kluwer
Academic Publishers, 2000. - 528 с.
17. Komarek Paul Logistic Regression for Data Mining and High-Dimensional Classification. Robotics Institute, School of Computer Science., 2004. - 138 с.
18. Pierre Geurts, Damien Ernst, Louis Wehenkel Extremely randomized trees. Machine Learning. Machine Learning, 2006. - 42 с.
19. Shearer C. The CRISP-DM model: the new blueprint for data mining.. J Data Warehousing., 2000. - 22 с.
20. Steffen Rendle Factorization machines with libfm. ACM TIST, 2012. - 57 с.


Работу высылаем на протяжении 30 минут после оплаты.




©2025 Cервис помощи студентам в выполнении работ