Цифровой резерв:

В Digital Reserve мы стремимся к прозрачности и вовлечению сообщества. В результате мы создаем серию блогов о методах кредитного скоринга в сфере микрофинансирования, чтобы наше сообщество понимало наши амбиции, а также возможные недостатки в кредитном скоринге. Digital Reserve надеется включить систему кредитного рейтинга машинного обучения в нашу микрофинансовую платформу, чтобы улучшить доступ к кредитам и обеспечить оптимальное состояние нашей кредитной сети. В процессе создания этой системы машинного обучения мы тщательно изучали, как принимаются решения о кредитовании. В этом блоге мы хотели бы поделиться некоторыми аспектами этого процесса принятия решения. Во-первых, мы объясним, чем заемщики в развитом мире, где кредитный скоринг хорошо зарекомендовал себя, отличаются от заемщиков в развивающемся мире, где отрасль все еще изучает системы кредитного скоринга. Во-вторых, мы опишем общие метрики, которые можно и нужно использовать в системе кредитного скоринга. В-третьих, мы объясним использование различных вариантов использования баллов в зависимости от того, на каком этапе кредитного цикла находится заемщик. В-четвертых, мы обсудим наиболее распространенные модели, которые используются в литературе об одобрении кредитного рейтинга в микрофинансировании. Наконец, мы обсудим результаты моделей и сравним их предсказательную силу. Это упражнение призвано признать потенциал и выявить ограничения статистических оценок кредитоспособности и машинного обучения для прогнозирования риска дефолта. В следующих блогах мы будем посвящать целые сообщения различным статистическим моделям и моделям машинного обучения с кодом и, надеюсь, наладим диалог сообщества вокруг этих моделей.

Кредитный рейтинг в развитых и развивающихся странах: в чем разница?

Кредитный скоринг оказался полезной технологией в развитом мире, позволяя потребителям с низким и средним доходом иметь доступ к образу жизни, который ранее был недоступен для этих конкретных социально-экономических классов. Эта технология частично позволила создать индустрию кредитных карт, которая дает компаниям возможность мгновенно одобрять клиентов с низким уровнем риска и увеличивать прибыль компаний. Микрофинансирование также оказалось полезной технологией, которая привела к финансовой интеграции миллионов семей в развивающихся странах по всему миру.

Большинство микрозаймов выдается посредством субъективной оценки, проводимой опытными кредиторами в данной области. В результате количество доступных кредитов ограничено способностью кредитора точно оценить кредитный риск и предоставить ссуду. В некоторых наиболее эффективных МФО в Латинской Америке количество кредитных заявок в год, которые может обработать индивидуальный кредитор, составляет примерно 600 в год. Возникает естественный вопрос: как нам увеличить это число, чтобы и заемщики, и кредиторы могли максимизировать выгоды от микрозаймов? Непосредственным ответом может стать кредитный рейтинг! Существует множество преимуществ, таких как повышение эффективности, которое МФО может получить за счет использования статистических оценок кредитоспособности или машинного обучения; однако есть много проблем с усыновлением.

В развитых странах к заемщикам-физическим лицам относятся:

  1. Заработные доходы
  2. Кредитные истории, зарегистрированные в кредитных бюро

В развивающихся странах индивидуальные заемщики обычно имеют следующий профиль:

  1. Частный предприниматель
  2. Отсутствие правильной идентификации
  3. Работа в неформальной экономике
  4. Отсутствие прав собственности, позволяющих начать кредитную историю для залоговых ссуд. (Отсутствие собственности характерно не только для развивающихся стран - молодые заемщики в развитых странах сталкиваются с аналогичными проблемами)

Уверенность в доходах от заработной платы и достоверные данные о заемщиках дает возможность автоматизировать процесс кредитного скоринга с помощью статистических методов или методов машинного обучения. В результате могут быть созданы очень точные кредитные рейтинги с гораздо меньшими параметрами, скажем, с 15–20 переменными. То же самое не относится к развивающимся странам, где профиль заемщика требует значительно больших параметров для построения очень точной модели кредитного скоринга.

Параметры кредитного скоринга в МФО:

В этом разделе не представлен полный список необходимых параметров, но он дает хорошее начало. Большинство этих показателей повторяются в литературе по данной теме. Вместо того, чтобы представлять каждый параметр по отдельности, я представлю общие категории, к которым относятся эти параметры, и приведу пример каждой из них. Эти категории включают следующее:

  1. Индивидуальная демография
  2. Контактная информация
  3. Демография домохозяйства
  4. Домашнее имущество
  5. Демография бизнеса
  6. Финансовые потоки
  7. % Владение предприятием
  8. Отчет о погашении
  9. Прокси для личного персонажа
  10. Характеристики ссуды

На рисунке 1 ниже показан пример категорий, параметров и значений, хотя и не так много категорий.

Каждая из 10 широких категорий, представленных выше, имеет несколько параметров. В то время как модели кредитного скоринга в развитом мире могут требовать только 15–20 переменных, МФО может иметь от 50 до 100 переменных, необходимых для построения точной системы кредитного скоринга. Некоторые из этих переменных могут использоваться более чем для одной цели в кредитном цикле, от предоставления кредита до удержания. В следующем разделе мы обсудим различные виды скоринга, используемые на протяжении всего цикла кредитования.

Разные оценки для разных этапов кредитного цикла:

Когда люди думают о кредитных рейтингах, они обычно думают в терминах оценок, которые подтверждают или отклоняют заявку на ссуду. Хотя этот блог будет в основном ограничиваться этим видом оценки, важно отметить, что есть и другие оценки, примерно три, которые используются на протяжении всего процесса кредитования. Существуют три типа оценок:

  1. Оценка одобрения - оценка, необходимая для определения того, предоставлять ли кредит новому клиенту или нет.
  2. Оценка погашения. Оценка показывает компании вероятность того, что просроченный клиент погасит свои ссуды.
  3. Оценка ухода (лояльность клиентов) - оценка дает учреждению вероятность того, что предыдущий заемщик снова займёт у компании.

На рисунке 2 ниже показан типичный цикл процесса кредитования. Этот цикл кредитования является широким, чтобы быть примерно последовательным, независимо от того, использует ли компания кредитный скоринг: экспертный, статистический или машинное обучение.

Хотя для цикла кредитования используется несколько оценок, на протяжении всей статьи мы сосредоточимся только на оценке одобрения. Мы обращаемся к оценке сбора и дезертирства, потому что они будут важны в следующих статьях блога о стимулах для хорошей выплаты и удержания. Опять же, поскольку Digital Reserve стремится улучшить процесс кредитования текущих МФО за счет включения автоматизированных систем кредитного скоринга, мы хотели бы быть прозрачными в отношении их текущих ограничений, а также продвигать их потенциал.

Различные модели оценки одобрения:

Чтобы этот пост в блоге оставался читаемым для всех людей, я представлю здесь модели в терминах непрофессионала и предоставлю ссылки на математические и вычислительные детали для инициированных членов лиги теней. В будущем эти модели будут воспроизведены и улучшены в будущих блогах и github, и в свое время будут связаны ссылки.

Безусловно, наиболее распространенными моделями кредитного рейтинга одобрения являются линейный дискриминантный анализ (LDA), квадратичный дискриминантный анализ (QDA) и логистическая регрессия (LR). Мы более подробно рассмотрим LDA и LR и дополнительно обсудим нейронные сети (NN), в частности NN многослойного восприятия (MLP), и их производительность с данными микрокредитования. На Рисунке 3 ниже представлен более полный список моделей, используемых для микрофинансирования.

Что такое дискриминантный анализ и логистическая регрессия?

Дискриминантный анализ - это модель классификации, которая позволяет нам максимизировать разделение между двумя отдельными группами. Для модели кредитного скоринга две разные группы - хорошие и плохие заемщики. В дискриминантном анализе мы оцениваем вероятность того, что совокупность входных данных S = (25 лет / старый, женщина, доход = 15 000, образование = 14, курильщик = да) относится к классу хороших или плохих. Модель использует априорную информацию для определения вероятности (теорема Байеса). Для двоичных данных логистическая регрессия и LDA не сильно отличаются с точки зрения попыток создания линейной границы между двумя отдельными группами. Однако они различаются в своих предположениях о плотности вероятности, размере групп и т. Д. Дискриминантный анализ делает больше предположений о базовых данных, чем LR, и по этой причине они используются в разных сценариях. Для подробного сравнения прочтите эту статью здесь.

Что такое нейронные сети?

Нейронные сети - это попытка компьютерных ученых смоделировать процесс принятия решений человеком в вычислительном мире. По сути, алгоритм учится на примерах и принимает решения на основе этого обучения. В нашем примере с кредитным рейтингом при определении того, является ли кто-то потенциально плохим или хорошим заемщиком, мы обращаемся к предыдущим примерам. Следуйте рисунку 4 ниже вместе с примером графической схемы модели нейронной сети. Давайте начнем наш пример с некоторых исходных данных и скажем, что набор S = (18-летний мужчина, доход 4000 долларов, курильщик = 1, ест фаст-фуд каждый день = 1) является плохим заемщиком. Предыдущая информация - это входы, обозначенные (x). Со временем, наблюдая похожую картину, нейронная сеть учится отличать плохих заемщиков от хороших. Теперь предположим, что со временем курильщик = 1 обнаруживается в 60% случаев в наборе данных плохого заемщика и 40% в наборе данных хорошего заемщика, в то время как ест в фаст-фуде каждый день = 1 обнаруживается в 95% случаев в наборе плохого заемщика, в то время как только 5 % времени в наборе хорошего заемщика. Этим исходным данным присваиваются разные веса во входном наборе, чтобы определить категорию, к которой принадлежит заемщик. Веса обозначены (w). После присвоения весов этим входным данным они объединяются в число. Если это число превышает определенный порог, скажем 10, мы можем определить, является ли заемщик хорошим или плохим. Это нейронная сеть. Чтобы получить хорошее представление о нейронных сетях, прочтите здесь.

Нам удалось пройти эти модели без использования математики! Ура! Теперь, когда вы познакомились с моделями, которые обычно использовались для моделей кредитного скоринга в микрофинансировании, мы сравним их результаты в следующем разделе.

Результаты моделей кредитного скоринга:

Обсуждаемые здесь результаты взяты из двух статей, в одной из которых использовались данные о микрофинансовой индустрии Перу, а в другой - данные из Туниса. Эти документы были выбраны потому, что они специально сравнивали модели LDA, LR и NN друг с другом. При сравнении моделей классификации стандартным использованием является сравнение количества правильных и неправильных классификаций для нас, хороших или плохих заемщиков, и стоимости ошибочной классификации.

В статье о Перу исследователи использовали метод площади под кривой (AUC) для сравнения моделей. В области под кривой в основном учитывается количество истинных положительных результатов (кто-то на самом деле был хорошим заемщиком) и ложных положительных результатов (кто-то на самом деле был плохим заемщиком, но классифицировался как хороший) и вычисляется вероятность того, что новый заемщик, который считается хорошим заемщиком, на самом деле хороший заемщик. Допустим, у нас есть 10 действительно хороших заемщиков и 5 плохих заемщиков, но с хорошим рейтингом. (Пожалуйста, следуйте рисунку 5 для следующего объяснения.) Тогда вероятность того, что заемщик, получивший хороший рейтинг, действительно является хорошим, составляет 10/15, в то время как вероятность того, что он на самом деле плохой, но оценивается как хороший, составляет 5/15. Если мы возьмем точку (0,33, 0,66) и начертим ее в 2-мерном евклидовом пространстве, разделенном диагональной линией 45 градусов (равной 50/50 шансам быть хорошим или плохим), эта точка будет расположена над этой точкой. Линия означает, что наша модель работает лучше, чем случайность (50/50).

Используя метод AUC, из 14 моделей нейронных сетей некоторые показали себя значительно лучше, чем LR и LDA. Однако каждая модель имела ошибки типа I (ложноположительные) и II (ложноотрицательные) в виде двузначных цифр. Это говорит о том, что эти модели будут точными менее 90% времени. Это потенциально проблематично, учитывая 90 +% успеха систем оценки экспертных оценок в микрофинансировании.

В тунисском микрофинансовом документе для сравнения моделей использовалась правильная классификационная ставка. Дополнительно использовали чувствительность и специфичность. Расчеты следующие:

CCR = (Количество правильно классифицированных заемщиков / общее количество заемщиков) * 100

Чувствительность = (правильные / хорошие заемщики)

Специфика = (правильные / плохие кандидаты)

Выбор лучшей модели во многом зависит от того, будут ли ошибки типа I или II дороже стоить для кредитных организаций - то есть теряет ли организация больше, отказавшись от хороших заемщиков или ссудив плохим. В любом случае эти модели все еще далеки от совершенства, и хотя это всего две статьи, многие другие модели в литературе показывают аналогичные результаты.

Подведение итогов:

Так что все это значит? Короче говоря, есть потенциал для статистических методов и методов машинного обучения в кредитном скоринге, но они еще не готовы полностью заменить экспертные методы кредитования, основанные на суждениях. Недостатками создания автоматизированной системы кредитного скоринга мирового класса для микрофинансирования являются ограниченность данных, разрозненность информации, формальные и неформальные рынки, управление кредитными рисками и обучение этим новым технологиям старых организаций.

Цифровой резерв планирует решить некоторые из этих проблем в течение следующих нескольких лет или десятилетия, чтобы создать процветающие финансовые рынки в развивающихся странах. В дальнейшем мы будем изучать эти и другие модели в интерактивном режиме с сообществом через блоги и github. Кроме того, мы обсудим более крупные макро-проблемы, вопросы политики и бизнес-модели, которые могут помочь улучшить создание лучших моделей кредитного скоринга для индустрии микрофинансирования.

Использованная литература:

Д-р Аида Каммун и др., Модели кредитного рейтинга для тунисского микрофинансового учреждения: сравнение искусственной нейронной сети и логистической регрессии, 04.07.15, http://www.bapress.ca/ref/ref-article/1923- 7529-2016-01-61-18.pdf

Антонио Бланко и др., Модели кредитного скоринга для микрофинансовой индустрии с использованием нейронных сетей: данные из Перу, январь 2013 г., «https://www.researchgate.net/publication/257404569_Credit_scoring_models_for_the_microfinance_industry_using_neural_networks_Evidence_from_P

Дин Кайр, РУКОВОДСТВО ПО РАЗРАБОТКЕ СИСТЕМ ОЦЕНКИ КРЕДИТОВ В КОНТЕКСТЕ МИКРОФИНАНСОВ, дата обращения 17.07.18, https://pdfs.semanticscholar.org/16c8/1b44d4b4b842e12c3e800b0d6113c6d5f471.pdf