Введение 3
1 Предварительные сведения 6
1.1 Байесовские сети 6
1.2 Методы построения БС 10
1.3 Задачи обучения по прецедентам 17
1.4 Задача кредитного скоринга 20
2 Общая задача классификации 22
2.1 Вероятностная постановка задачи классификации 22
2.2 Вероятностная постановка задачи кредитного скоринга 23
3 Решение задачи кредитного скоринга 24
3.1 Построение минимизирующего алгоритма 26
3.2 Принцип максимума апостериорной вероятности 27
3.3 Наивный байесовский классификатор 28
3.4 Нахождение эмпирических оценок 29
3.4.1 Непараметрическая оценка 29
3.4.2 Метод Парзеновского окна 31
3.4.3 Параметрическая оценка 32
3.5 Логистическая регрессия 35
3.6 Построение байесовской сети для задачи кредитного скоринга ... 37
3.7 Решение скоринговой задачи методом Байеса 38
4 Комплекс программ 42
Заключение 52
Список сокращений 53
Список использованных источников 54
Приложение A-Б 57-63
Вероятностный подход к представлению знаний состоит в том, что область знаний представляется совокупностью переменных и совместным распределением их вероятностей или его приближением. Это позволяет вычислить или оценить условное распределение вероятностей части переменных (гипотезы), когда некоторые из остальных (наблюдение) приняли определенное значение.
На основании сведений о распределении вероятностей можно:
- определить ожидаемые значения ненаблюдаемых переменных и их совокупностей;
- подтвердить или отвергнуть гипотезы о событиях (о том, что переменные приняли совокупность значений);
- верифицировать (обнаружить противоречия или убедиться в их отсутствии) значения переменных, составивших наблюдение.
Вероятностный подход также носит практическую ценность, поскольку позволяет использовать графическое представление для решения теоретических задач. Вероятностные сети широко применены в прикладных отраслях жизнедеятельности, в особенности в экономике и статистике. Одной из областей применения вероятностного подхода является скоринговые задачи, поскольку они основываются на условном распределении вероятностей. В работе рассматривается вероятностный подход к описанию скоринговых задач с помощью дискретных байесовских сетей.
Выбор темы данной магистерской диссертации связан с тем, что одной из важнейших задач остается разработка методов определения, изучения и применения вероятностных сетей в таких сферах как экономика, статистики и наука в целом.
Объектом исследования в представленной диссертации выступает теория вероятностных сетей. Предмет исследования: применение дискретных байесовских сетей к решению скоринговых задач.
Основной целью работы является описание и изучение методов решения задач скоринга с помощью аппарата дискретных байесовских сетей.
Данная цель достигается путем решения следующих задач:
1. Провести обзор и анализ литературы по вероятностным сетям.
2. Изучить определение и характеристики дискретных байесовских сетей и методы их построения.
3. Рассмотреть определение скоринга и его характеристики. Изучить постановку задачи скоринга. Получить алгоритмы её решения с помощью дискретных байесовских сетей.
4. Разработать комплекс программ, реализующий решение задачи кредитного скоринга по имеющейся выборке.
Методы исследования основаны на использовании теории вероятностей, теории вероятностных сетей, теории машинного обучения и задач обучения по прецедентам.
В основе байесовского подхода к решению скоринговых задач лежит аппарат дискретных байесовких сетей, подробное описание которого можно найти в работах [14, 27, 20]. Для построения и обучения дискретных байесовских сетей удобно использовать методы машинного обучения, описанные в работах [4, 13]. Методы построения эмпирических оценок плотностей вероятностей для компонентов дискретных байесовских сетей, а также нахождение алгоритмов решения для задач классификации рассмотрены в курсе лекций [9]. Понятие кредитного скоринга, а также оценки рисков для решения задач кредитного скоринга были рассмотрены в работе [26].
Теоретическая значимость работы заключается в применении аппарата дискретных байесовских сетей в решении общих задач классификации.
Результаты, полученные в работе, могут быть применены для анализа и решения скоринговых задач. Разработан комплекс программ, позволяющий решать задачи классификации по эмпирически полученным данным.
Основные результаты диссертации докладывались и обсуждались на международной конференции студентов, аспирантов и молодых ученых «Проспект Свободный-2016». По теме магистерской диссертации опубликована статья в трудах конференции в трудах указанной конференции.
Постановка изложенных в диссертации задач была сделана научным руководителем магистранта, кандидатом физико-математических наук, доцентом Семеновой Д.В. Формализация и обоснование полученных в диссертации результатов, математические выкладки, численные расчеты выполнены лично автором.
Представленная работа состоит из четырех глав.
В первой главе большое внимание уделено теории вероятностных сетей, задачам обучения по прецендентам и теории скоринга. Здесь приведены основные определения необходимые для дальнейшего исследования, в частности, определения дискретных байесовских сетей и скоринга.
Во второй главе сформулированы общие вероятностные постановки задачи классификации и задачи кредитного скоринга.
В третьей главе описана постановка задачи кредитного скоринга по имеющейся выборке и алгоритмы её решения с помощью дискретных байесовских сетей.
Четвертая глава содержит описание комплекса программ и вычислительных алгоритмов решения задачи, описанной в главе 3.
Резюме. Во введении кратко описан объект исследования, сформулирована цель магистерской диссертационной работы, а также выделены её задачи. Перечислены основные публикации по теме работы и дана общая характеристика магистерской диссертации.
В данной работе на базе кредитных историй имеющихся клиентов банка решается задача нахождения вероятности того, что произвольный клиент погасит просроченную задолженность. В ходе работы были решены следующие задачи.
- Проведен обзор англоязычной и русскоязычной литературы по теории вероятностных сетей, изучены свойства байесовских сетей и методы их обучения, а также, рассмотрена задача классификации и методы её решения.
- Разработан алгоритм решения скоринговых задач с помощью дискретных байесовских сетей.
- С помощью метода ОМД найдена оптимальная структура для поставленной скоринговой задачи.
- Разработан комплекс программ, реализующий решение задачи кредитного скоринга по данным известной выборки
- Решена задача скоринга по данным известной выборки.
Таким образом, в работе было исследовано применение аппарата дискретных байесовских сетей к задачам обучения по прецендентам, в частности, к задаче классификации клиентов банка по имеющейся кредитной истории.
Данная работа докладывалась на международной конференции студентов, аспирантов и молодых ученых «Проспект Свободный-2016» и была принята к публикации в сборнике по материалам конференции.
1. Айзерман, М. А. Метод потенциальных функций в теории обучения машин. / М. А. Айзерман, Браверман Э. М., Розоноэр Л. И. - М.: Наука, 1970. - 320 с.
2. Андреева, Г.В. Скоринг как метод оценки кредитного риска. М. - 2013. - 109.
3. Бахвалов, Н.С. Численные методы / М.: Наука, 1975
4. Бидюк, П.И. Построение и методы обучения Байесовских сетей / П.И. Бидюк, А.Н. Терентьев // Национальный технический университет Украины «Киевский политехнический институт».
5. Вапник, В. Н. Восстановление зависимостей по эмпирическим данным. - М.: Наука, 1979.
6. Вапник, В. Н. О равномерной сходимости частот появления событий к их вероятностям: учебник / В. Н. Вапник, А. Я Червоненкис. - Т. 181, № 4. - ДАН СССР. 1968. - 781-784 с.
7. Вапник, В. Н. О равномерной сходимости частот появления событий к их вероятностям: учебник / В. Н. Вапник, А. Я Червоненкис. - Т. 16, № 2. 1971. - 264-280 с.
8. Вапник, В. Н. Теория распознавания образов. / В.Н. Вапник, А. Я Червоненкис. - М.: Наука, 1974.
9. Воронцов, К.В. Математические методы обучения по прецедентам (теория обучения машин) [Электронный ресурс] / К. В. Воронцов //Курс лекций - 2016. - Режим доступа:http: //www. machineleaming.ru
10. Епанечников, В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятностей и её применения. -.,Т. 14, № 1, 1969. - 156-161 с.
11. Колмогоров, А. Н. О представлении непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одного пе¬ременного // Т. 114, № 5. - Докл.АН СССР.- 1958. - 953-956 с.
12. Прохоров, Ю.В. Вероятность и математическая статистика: Энциклопедия. М. Больш. Рос. Энцикл., 1999. - 910 с.
13. Терентьев, А.Н. Эврестический метод построения байесовских сетей / А.Н. Терентьев, П.И. Бидюк// Математичш машини i системи - №3. - . 2006. - 12-23.
14. Тулупьев, А.Л. Байесовские сети: логико-вероятностный подход / А.Л. Тулупьев, С.И. Николенко, А.В. Сироткин А.В. // СПб.: Наука, 2006
15. Уиллиамс, У. Т. Методы иерархической классификации / У. Т. Уиллиамс, Ланс Д. Н. // Статистические методы для ЭВМ: под ред. М. Б. Малютов. - М.: Наука, 1986. - 269-301 с.
16. Феллер, В. Введение в теорию вероятностей и её приложения. Том 1. / В. Феллер. - М.: Мир, 1964. - 511 с.
17. Хабаров, С.П. Интеллектуальные информационные системы // Санкт-Петербургская лесотехническая академия. - Лекция 6.
18. Хардле, В. Прикладная непараметрическая регрессия.- М.: Мир, 1993.
19. Шумский, С.А. Байесова регуляризация обучения: лекции по нейроинформатике Ч. 2.. - М.: МИФИ, 2002. - 172 с.
20. Anders L. Madsen, Probabilistic Networks — An Introduction to Bayes¬ian Networks and Influence Diagrams / Anders L. Madsen // Uffe B. Kjarulff De¬partment of Computer Science Aalborg University, 2005.
21. Chow C.K., Liu C.N. Approximating discrete probability distributions with dependence trees // IEE Transactions on information theory. -1968. - Vol. IT- 14, № 3. - 6 p.
22. Cooper G.F.,Herskovits E., A bayesian method for the induction of probabilistic networks from data. Knowledge Systems Laboratory//Report KSL-91- 02, November 1993. - 43 p.
23. David H., A Tutorial on Learning With Bayesian Networks // Microsoft Research, 1995.
24. Grunwald P. A Tutorial Introduction to the Minimum Description Length Principle. // Advances in Minimum Description Length: Theory and Applica¬tions MIT Press. - Cambridge. - 2005. - 80 p.
25. Lauritzen S.L., Spiegelhalter D.J. «Local computetions with probabilities on graphical structures and their application to expert systems» in Journal Royal Statistics Society B., 1988.
26. Neil M, Fenton N, Tailor M, «Using Bayesian Networks to model Ex¬pected and Unexpected Operational Losses», Risk Analysis: An International Journal, 2005.
27. Rolf Haenni, Probabilistic Logics and Probabilistic Networks/ Rolf Haenni , Jan-Willem Romeijn, Gregory Wheeler, Jon Williamson.
28. Vapnik V. The nature of statistical learning theory. Springer, 1995, 188 p.