Только Word
Введение 3
Глава I. Логит-модель 7
Глава II. Статистическая обработка полученных результатов в логит-модели 16
Глава III. ROC-анализ 21
Глава IV. Численные результаты 27
Заключение. 46
Список литературы 47
В настоящее время скоринг становится все более популярным при различных видах кредита, а также и в других областях.
В банковской системе кредитный скоринг можно опередить как метод начисления потенциальным заемщикам определенного количества баллов на основе информации о его социально-демографическом положении, кредитной истории, параметрах запрашиваемого кредита, и принятие решения о выдаче или об отказе в кредите на основе набранного суммарного количества баллов.
Если обратиться к истории, то скоринг, по существу, является методом классификации всей интересующей нас популяции на различные группы, когда нам неизвестна характеристика, которая разделяет эти группы (вернет клиент кредит или нет), но зато известны другие характеристики, связанные с интересующей нас. В статистике идеи классификации популяции на группы были разработаны Фишером в 1936 г. на примере растений. В 1941 г. Дэвид Дюран впервые применил данную методику к классификации кредитов на «плохие» и «хорошие». По времени это совпало со Второй мировой войной, когда почти все кредитные аналитики были призваны на фронт, и банки столкнулись с необходимостью срочной замены этих специалистов. Банки заставили своих аналитиков перед уходом написать свод правил, которыми следовало руководствоваться при принятии решения о выдаче кредита, чтобы анализ мог проводиться неспециалистами. Это и был как бы прообраз будущих экспертных систем.
В начале 50-х гг. в Сан-Франциско образовалась первая консалтинговая фирма в области скоринга – Fair Issac, которая до сих пор является лидером среди разработчиков скоринговых систем.
Одна из проблем заключается в том, что люди с течением времени меняются, меняются и социально-экономические условия, влияющие на поведение людей. Поэтому скоринговые модели необходимо разрабатывать на выборке из наиболее «свежих» клиентов, периодически проверять качество работы системы и, когда качество ухудшается, разрабатывать новую модель. На Западе новая модель разрабатывается в среднем раз в полтора года, период между заменой модели может варьироваться в зависимости от того, насколько стабильной была экономика в это время.
Для России, вероятно, максимальным периодом будет полгода, да и то при условии, что в этот период не произойдет никаких кардинальных потрясений.
В настоящее время ведутся исследования того, как вводить социально-экономические характеристики в модель с тем, чтобы она служила дольше.
Широкое применение скоринга началось с распространением кредитных карточек. При том количестве людей, которые ежедневно обращались за кредитными карточками, банкам ничего другого не оставалось, как автоматизировать процесс принятия решений по выдаче кредита. Однако очень скоро они оценили не только быстроту обработки заявлений на выдачу кредита, но и качество оценки риска. По данным некоторых исследований, после внедрения скоринг-систем уровень безнадежного долга сокращался до 50% [10, 14]. .
В 1974 г. в США был принят Закон о предоставлении равных возможностей на получение кредита, который запрещал отказывать в выдаче кредита на основании следующих характеристик: раса, цвет кожи, национальное происхождение, возраст, пол, семейное положение, религия, получение социальных пособий, отстаивание прав потребителей.
В Великобритании законодательство допускает использование информации о возрасте и семейном положении, но зато запрещает принимать во внимание какие-либо физические увечья и недостатки (инвалидность).
Для кредитных организаций использование скоринговых систем стало доказательством исполнения этих антидискриминационных законов – у компьютера нет предубеждений.
Помимо установления принципов равноправия в области кредитования, кредитное законодательство США, как и Закон о потребительском кредите, принятый в Великобритании в том же 1974 г., имели важное значение для формирования службы кредитных бюро. В таких бюро записывается кредитная история всех людей, когда-либо обращавшихся за ссудой в любую кредитную организацию страны.
В кредитных бюро содержатся следующие виды данных:
• социально-демографические характеристики;
• судебные решения (в случае передачи дел о востребовании задолженности по кредиту в суд);
• информация о банкротствах;
• данные об индивидуальных заемщиках, получаемые от кредитных организаций по принципу «ты - мне, я - тебе», т. е. банк может получать информацию о клиентах других банков, только если сам поставляет аналогичную информацию.
Объем и характер информации, хранящейся в бюро, строго регулируется законодательством каждой страны. В «Банковских технологиях» уже была публикация о кредитных бюро в сентябре 1999 г. – «Вопросы учреждения кредитного бюро в России».....
В нынешних условиях, когда количество обращений за кредитом растет, банкам не обойтись без частичной автоматизации процесса принятия решения о выдаче. Информационные технологии расширяют возможности статистического анализа, позволяют собирать данные, анализировать их, автоматизировать и оптимизировать различные процессы.
Логистическая регрессия является хорошим способом аналитики данных о заемщиках, позволяет на основе характеристик потенциального должника автоматически определять его благонадежность.
В данной работе была построена оптимальная логит-модель, которая определяла вероятность выдачи кредита на основе обучающей выборки.
Эта сложная задача решалась в 3 этапа. Первой простейшей задачей являлась задача с одним предиктором. Она наглядно показала суть задачи. Однако она далека от жизненной ситуации, когда можно принимать решение только на основании величины заработной платы.
Поэтому далее перешли ко второй задаче с 6 предикторами.
Благодаря проверке гипотез о значимости коэффициентов, было получено оптимальное число параметров и решена третья задача с этим числом параметров.
Для решения этих задач
• использовался метод максимального правдоподобия,
• написана программа для ЭВМ на языке (C#) для поиска максимума функции правдоподобия, зависящей от параметра (а именно 2, 7, 5),
• оптимизация проводилась на основе применения случайного поиска в сочетании с градиентным методом,
• на основе проверки гипотез о значимости параметров логит-модели выделены значимые предикторы, их оказалось 4 вместо 6,
• для оптимального числа параметров рассчитаны доверительные интервалы для каждого коэффициенты логистической регрессии,
• для оценки качества логистической модели применялся ROC-анализ:
1) cтроились кривые чувствительности и специфичности модели, которые показывают зависимость верно классифицированных положительных и отрицательных примеров от порога отсечения,
2) выявили оптимальный порог отсечения.
Компьютерные расчеты, анализ, построение диаграмм и графиков были проведены с помощью написанных ЭВМ (C#) и Excel.
Обучающая выборка составлялась с учетом данных [15].
1. Буре, В. М. Методы прикладной статистики в R и Excel: учебник для вузов/ Парилина, Е. М., Седаков, А.А. – Санкт-Петербург: Лань, 2016.
2. Ван дер Варден Б. Л. Математическая статистика. – М.: ИЛ, 1960.
3. Владимирова Л.В., Овсянников Д.А., Рубцова И.Д. Методы Монте-Карло в прикладных задачах. СПб.: Изд-во ВВМ, 2015. 167 с.
4. Гмурман В.Е. Теория вероятностей и математическая статистика. М. “Высшая школа”, 1998, 479 с.
5. Ермаков С.М. Методы Монте-Карло+ и смежные вопросы. Изд-во “Наука”, М. 1975, 472 с.
6. Ермаков С.М. Математическая теория планирования эксперимента. М.: Наука, 1983. – 392 с.
7. Карманов В.Г. Математическое программирование. М. ”Наука”, 1986, 288 с.
8. Паклин Н.Б. Логистическая регрессия и ROC-анализ – математический аппарат // Официальный сайт компании BaseGroup Labs URL: https://basegroup.ru/community/articles/logistic.
9. Сорокин А.С. Построение скоринговых карт с использованием модели логистической регрессии / А.С. Сорокин // Интернет-журнал «НАУКОВЕДЕНИЕ». – 2014. -№2.
10. Churchill G. A., Nevin J. R., Watson R. R.//The role of credit scoring in the loan decision. Credit World. March/1977
11. Greene W.H. Econometric Analysis, 5th edition, New Jearsey: Pearson Education, 2003.
12. Hand D. J., Henley W.E. Statistical classification methods in consumer credit // Journal of the Royal Statistical Society, 1997. P. 532 – 541.
13. Hosmer D., Lemeshow S. Applied logistic regression. N. Y.: Wiley, 2000. 375 p.
14. Myers J. H., Forgy E. W. The development of numerical credit evaluation systems//Journal of American Statistical Association. September/1963
15. Используемые интернет ресурсы:
https://archive.ics.uci.edu/ml/machine-learning-databases/adult