ВВЕДЕНИЕ 6
1. АНАЛИЗ ПРЕДМЕТНОЙ ОБЛАСТИ 8
1.1. Кредитный скоринг 8
1.2. Способы оценивания кредитоспособности 9
1.3. Типология задач классификации 11
1.4. Обзор существующих методов классификации 12
1.4.1. Нейронные сети 12
1.4.2. Логистическая регрессия 13
1.4.3. Метод опорных векторов 14
1.4.4. Градиентный бустинг 15
1.4.5. Деревья решений 16
1.5. Метрики качества модели 17
1.6. Анализ существующих решений 20
1.6.1. ZestFinance 20
1.6.2. Lenddo 21
1.6.3. Mail.ru 21
2. МЕТОДОЛОГИЯ ИССЛЕДОВАНИЯ 22
2.1. Сбор данных 22
2.2. Очистка данных 22
2.3. Сравнение методов 23
3. ПРОЕКТИРОВАНИЕ И РЕАЛИЗАЦИЯ СИСТЕМЫ 26
3.1. Архитектура системы 26
3.2. Анализ предиктивной способности признаков 28
3.3. Выбор модели 30
3.4. Подбор гиперпараметров 31
3.5. Подбор пороговых значений 32
4. ПРОВЕДЕНИЕ ЭКСПЕРИМЕНТОВ 35
4.1. Регистрирование модели 35
4.2. Тестирование 38
ЗАКЛЮЧЕНИЕ 41
ЛИТЕРАТУРА 42
Кредитный скоринг - это статистический анализ, осуществляемый кредиторами и финансовыми учреждениями для определения кредитоспособности человека. Чаще всего используется в потребительском кредитовании на небольшие суммы. Также возможно его использование в бизнесе сотовых операторов, страховых компаний и т.д. Сам скоринг осуществляется с помощью «скоринговой модели» - специальные веса, которые «взвешивают» математически выраженные характеристики заемщика, влияющие на его способность получить кредит.
Существует несколько видов скоринга [1], но в данном случае нас будет интересовать только один - application scoring - оценка кредитоспособности заемщиков при выдачи кредита. Основывается на обработке первичных данных заемщика .
Существуют несколько готовых решений программного обеспечения, но они подходят исключительно для банков. При этом стоит понимать, что не все клиенты кредитного агрегатора имеют возможности и/или средства для такого программного обеспечения. Поэтому при помощи собственного кредитного скоринга мы можем решить следующие задачи.
• Повысить качество клиентов для банков, отсекая явных дефолтников.
• Применять страховки для рискованных клиентов.
• Уменьшать размер выдаваемого кредита ненадежным клиентам.
Отсюда следует, что автоматизация классификации заемщиков для кредитного агрегатора является актуальной задачей.
Для достижения цели работы необходимо было решить следующие задачи.
• Произвести анализ предметной области, изучить существующие подходы кредитного скоринга.
• Произвести анализ требований к реализуемой системе .
• Спроектировать систему классификации в соответствии с требованиями.
• Реализовать спроектированную систему.
• Выполнить тестирование реализованной системы.
Структура и объем работы
Работа состоит из введения, четырех глав, заключения и списка используемой литературы. Объем работы составляет 44 страницы, объем библиографии 20 наименований.
Содержание работы
Первая глава, «Анализ предметной области» содержит описание кредитного скоринга, а также существующих методов классификации.
Вторая глава, «Методология исследования», описывает подход к работе над данными.
Третья глава, «Проектирование и реализация системы», описывает проект новой системы и ее реализацию.
Четвертая глава, «Тестирование», содержит описание и результаты написанных и проведенных тестов новой системы.
Заключение резюмирует результаты, полученные в рамках проведенной работы.
В ходе проделанной работы были решены следующие задачи.
1) Проведен анализ предметной области и обзор существующих решений.
2) Выбрано несколько подходов к решению проблемы.
3) Проведен сбор и очистка данных.
4) Проведены эксперименты по обучению различных моделей машинного обучения.
5) Реализована система классификации заемщиков кредитным агрегатором.
Целью данной работы было создание системы, позволяющей классифицировать заемщиков банков на основе методов машинного обучения. Для достижения этой цели был проведен анализ исходного процесса, собраны и очищены данные, выбран алгоритм обучения, обучены модели и развернуты как веб-сервисы.
По итогу выполнения работ была реализована система, позволяющая классифицировать заемщиков банков на основе методов машинного обучения. Проведенные эксперименты показали, что набор моделей градиентного бустинга дает наилучшую точность классификации, поэтому его применение более эффективно .