ВВЕДЕНИЕ 2
1. ТЕОРЕТИЧЕСКИЕ И КОНЦЕПТУАЛЬНЫЕ ОСНОВЫ МЕТОДА 6
1.1. Теоремы и определения линейной отделимости 6
1.2. Универсальное измерение толщины сепаратора или псевдосепаратора 9
1.3. Сведение проекционной задачи к задаче квадратичного
программирования 12
2. ПОСТРОЕНИЕ ЭФФЕКТИВНОЙ СИСТЕМЫ СКОРИНГА НА
ОСНОВЕ ТЕОРИИ ЛИНЕЙНОЙ ОТДЕЛИМОСТИ 19
2.1. Сведение к задаче классификации клиентов банка 19
2.2. Алгоритм для нахождения расстояния между двумя множествами данных
клиентов банка 25
2.3. Описание разработанного программного обеспечения 28
3. ЧИСЛЕННЫЕ ЭКСПЕРИМЕНТЫ 34
3.1. Проведение численных экспериментов для задачи размерности n = 2 35
3.2. Проведение численных экспериментов для задачи размерности n = 3 40
3.3. Проведение численных экспериментов для реальных банковских данных 46
ЗАКЛЮЧЕНИЕ 53
СПИСОК ЛИТЕРАТУРЫ 54
ПРИЛОЖЕНИЕ 1 127
ПРИЛОЖЕНИЕ 2
В рамках своей цели банковский бизнес предоставляет кредиты клиентам. Во время этого процесса и для принятия решения о том, одобрять или отклонять кредит, банк заинтересован в проверке кредитоспособности клиента. В прошлом это решение принималось на основании индивидуального решения экспертов банка, качественно оценивающего риск после изучения финансовой отчетности компании, бизнес-плана и собеседований с клиентом. За это время стало ясно, что такая система неэффективна в более сложных условиях и растущей конкуренции. Достижение конкурентной дифференциации на кредитном рынке требует от банков использовать новые подходы при принятии решений о кредитовании для конкретных сегментов клиентов. Поэтому целесообразно разрабатывать автоматизированные процессы по кредитной оценке, которые решают задачу интеллектуального анализа данных. Эти технологии становятся все более популярными благодаря развитию информационных технологий. Существует множество определений кредитной оценки, будем следовать тому, что указывает на то, что кредитная оценка - это система, помогающая лицу, принимающему решения, например, менеджеру по кредитам определять, предоставлять ли кредиты клиентам, на основе набора предопределенных признаков.
В общем виде задачу, определения кредитоспособности клиента, можно сформулировать следующим образом: объект, который определяется набор своих критериев необходимо отнести к одному из двух выпуклых многогранников(классов-образов).
Банки, которые будут использовать автоматизированные и оптимизированные процессы по принятию решения, будут иметь два очевидных преимущества:
• Сокращение затрат на обработку кредита путем маршрутизации заявок на кредит
• Увеличение потенциального дохода путем принятия более быстрых кредитных решений, особенно для заемщиков с хорошим кредитом. Быстрые решения по кредитованию являются первоочередной задачей для многих клиентов; банки, которые могут их предоставить, увеличивают вероятность завершения транзакции.
Системы кредитного скоринга(от англ. слова score, то есть «счета- система оценки кредитоспособности (кредитных рисков) лица) используются для моделирования потенциального риска применения займов, которые имеют то преимущество, что могут быстро обрабатывать большой объем кредитных приложений с минимальной рабочей силой, что снижает эксплуатационные расходы, и они могут стать эффективной заменой использованию суждения между неопытными кредитными менеджерами, что помогает контролировать убытки от безнадежных долгов. В данной работе исследуется эффективность моделей кредитного скоринга с использованием подходов построения сепаратора максимальной толщины для отделения выпуклых многогранников.
Проблема проектирования начала евклидова пространства на выпуклый многогранник играет неоценимую роль в дифференцируемой и не дифференцируемой выпуклой оптимизации, теории линейного расслоения выпуклых многогранников, классификации и идентификации данных. Класс проекционных техник успешно используется для решения целого ряда теоретических и прикладных математических задач. Методы, применяющие концепцию проектирования, обычно называются проекционными методами.
В данной работе рассматривается метод, который прогнозирует кредитоспособность новых клиентов на основе информации о существующих клиентов в базе данных, по которым уже известна информация, о том является ли плательщик благонадежным или нет.
Цель работы - разработка алгоритма с использованием теорем отделимости двух множеств, который по анализу параметров кандидата на получение кредита осуществляет прогнозирование о кредитном риске. Кредитный риск - это риск того, что заемщик не сможет погасить долг перед банком. В данной работе рассмотрен метод проекции точки на разность Минковского. Данный метод описан в статье Габидуллиной З.Р. "The Problem of Projecting the Origin of Euclidean Space onto the Convex Polyhedron ", [1] и будет рассмотрен в главе 1.4. данной работы.
Для достижения данной цели потребовалось решить следующие задачи:
1. Изучить:
• современные подходы в теории отделимости множеств;
• историю использования теории отделимости в банковской сфере;
• алгоритмы оптимизации в пакете MatLab.
2. Подготовить параметры исследуемой базы данных для решения задачи классификации.
3. Выявить ключевые параметры оценки системы принятия решения.
4. Построить эффективную систему скоринга на основе сепарирования
До сих пор в литературе были представлены многочисленные методы оценки кредитного риска. Большинство из них основаны на традиционных статистических методах, таких как логистическая регрессия [24], k-ближайший сосед [21], деревья классификации [19] или модели нейронных сетей [20, 16, 26], а также кластерный анализ (см. [18,22,23]). Выполнение различных классификационных алгоритмов, а также нейронных сетей, а также точность извлеченных моделей были широко рассмотрены в [15] и [17].
Некоторые авторы объединили разные модели, чтобы получить сильные общие правила. В [25] авторы построили систему принятия решений, поддерживающую оценку приложений бизнес - кредитов, применяя интеграцию основанных на знаниях аргументов и правил принятия решений. Этот гибридный подход позволяет строить правила для разных групп заемщиков отдельно. На первом этапе клиенты банка сегментируются в кластеры, которые характеризуются сходными функциями, а затем, на втором этапе, для каждой группы деревья решений построены для получения правил, которые могут указывать на то, что клиенты не ожидали погашения кредита.
Работа организована следующим образом. Во-первых, представлена теоретическая база метода и архитектура системы. Затем описывается процесс извлечения и подготовки данных. В третьем разделе представлены эксперименты с реальными наборами кредитных данных, и результаты, полученные после каждого этапа анализируются. В заключительном разделе представлены итоговые замечания.
Основываясь на данных банка "АК БАРС" и методе линейной отделимости выпуклых многогранников с помощью построения сепаратора максимальной ширины был построен бинарный классификатор для определения кредитоспособности кандидатов на получение кредитов. Для построения модели были определены наиболее существенные параметры, которые позволяют эффективно анализировать кандидата. После некоторых пробных вычислений четыре атрибута были выбраны как более оптимальные, однако они могут быть различным для разных наборов данных.
Для проведения численных экспериментов в программе разработана возможность провести анализ метода на небольшом количестве точек и пространстве. На основании разработанного алгоритма создано и протестировано программное обеспечение, которое классифицирует клиента с точностью 83,25%
Экспериментальные результаты показывают, что предложенный метод может эффективно классифицировать клиентов банка, и может стать инструментом помогающим сотрудникам банка быстро классифицировать благонадежного клиента, тем самым повышать доходы организации. Кроме того разработанная программа может легко подстраиваться под любое финансовое учреждение, так как все параметры для построения модели можно изменять под особенности конкретного банка.
1. Габидуллина З.Р. The problem of progecting the origin of Euclidean Space onto the Convex Polyhedron,2016 - 19c.
2. Габидуллина З.Р..: A Linear separability criterion for sets of Euclidean space. Journal of optimization theory and applications. 158(1), 145-171(2013)
3. Габидуллина З.Р.: A Theorem on strict separability of convex polyhedra and its applications in optimization. Journal of optimization theory and applications. 148(3), 550-570 (2011)
4. Wolfe, P.: Finding the nearest point in a polytope. Mathematical Programming.
11, 128-149 (1976)
5. Stetsyuk, P. I. and Nurminski, E. A.: Nonsmooth Penalty and Subgradient Algorithms to Solve the Problem of Projection onto a Polytope. Cybernetics and Systems Analysis. 46(1) (2010)
6. Габидуллина З.Р.: A Theorem on Separability of a Convex Polyhedron from Zero point Of the Space and Its Applications in Optimization. Izvestiya VUZ. M 50(12), 18-23(2006))
7. Censor, Y., Cegielski, A.: Projection Methods: An Annotated Bibliography of Books and Reviews. Optimization: A Journal of Mathematical Programming and Operations Research. 64(11), 2343- 2358 (2015)
8. Bauschke, H.H., Borwein, J.M.: On projection algorithms for solving convex feasibility problems. SIAM Review. 38(3), 367-426 (1996)
9. Г абидуллина З.Р. Necessary and sufficient conditions for emptiness of the cones of generalized maxport vectors. Optimization Letters. 9(4), 693-729 (2015)
10.Shor, N.Z.: Minimization methods for non-differentiable functions. Springer- Verlag (1985)
11. Dem’yanov, V.F. and Malozemov, V.N.: Introduction to Minimax. Dover Publications, New York (1990)
12. Габидуллина З.Р. Zabotin Ya.I.: The Relaxation Method for Pseudoconvex Programming Problems of a Certain Type. Izvestiya VUZ. Matematika, 12, 44-56 (1993) (Engl.trasl. Russian Mathematics (Iz.VUZ), 37(12), 44-51(1993))
13. Gilbert, E.G., Johnson, D.W., Keerthi, S.S.: A fast procedure for computing the distance between complex objects in three-dimensional space. IEEE Journal of Robotics and Automation. 4(2), 193- 203 (1988)
14. Censor, Y., Jiang, M., Louis, A.K.: Mathematical methods in biomedical imaging and intensitymodulated radiation therapy (IMRT). Birkhauser-Verlag, Pisa (2008)
15. B. Baesens, T. Van Gestel, S. Viaene, M. Stepanova, J. Suykens, J. Vanthienen. Benchmarking Stateof-the-Art Classification Algorithms for Credit Scoring. Journal of the Operational Research Society, 54, 2003, 627-635.
16. B. Baesens, R. Setieno, Ch. Mues, J. Vanthienen. Using Neural Network Rule Extraction and Decision Tables for Credit-Risk Evaluation. Management Science, 49(3), 2003, 312-329.
17. M. Bensic, N. Sarlija, M. Zekic-Susac. Modelling Small-Business Credit Scoring by Using Logistic Regression. Neural Networks and Decision Trees. Intelligent Systems in Accounting, Finance and Management, 13, 2005, 133-150. [18] G.
Chi, J. Hao, Ch. Xiu, Z. Zhu. Cluster Analysis for Weight of Credit Risk Evaluation Index. Systems Engineering-Theory Methodology, Applications,10(1), 2001, 64-67.
18. R.H. Davis, D.B. Edelman, A.J. Gammerman. Machine learning algorithms for credit-card application. IMA Journal of Management Mathematics, 4, 1992, 43
51.
19. V.S. Desai, J.N. Crook, G.A. Overstreet Jr. On comparison of neural networks and linear scoring models in the credit union environment. European Journal of Operational Research, 95(1), 1996, 24-37.
20. W.E. Henley, D.E. Hand. Construction of a k-nearest neighbor credit-scoring system. IMA Journal of Management Mathematics, 8, 1997, 305-321.
21. M. Lundy. Cluster Analysis in Credit Scoring. Credit Scoring and Credit Control. New York: Oxford University Press, 1993.
22. Y.-Z. Luo, S.-L. Pang, S.-S. Qiu. Fuzzy Cluster in Credit Scoring. Proceedings of the Second International Conference on Machine Learning and Cybernetics, Xi’an, 2-5 November 2003, 2731-2736.
A. Steenackers, M.J. Goovaerts. A credit scoring model for personal loans.
Insurance Mathematics & Economics, 8, 1989, 31-34.
23. J. Stefanowski, S. Wilk. Evaluating Business Credit Risk by Means of Approach - Integrating Decision Rules and Case-Based Learning. International Journal of Intelligent Systems in Accounting, Finance & Management, 10, 2001, 97-114.
24. D. West. Neural network credit scoring models. Computers & Operations Research, 27, 2000, 1131-1152
25. Karmanov, V.G.: Mathematical Programming. Nauka, Moscow (1986)