Моделирование: от старта бизнеса до накопления статистики

В этой статье разберемся в целесообразности применении скоринговых моделей, построенных на малом количестве данных на стартовом этапе до вызревания репрезентативной статистики.

Дженериковая модель


                    Моделирование: от старта бизнеса до накопления статистики           0

Многие кредитные организации при открытии своего бизнеса или при запуске нового продукта, принципиально отличающегося от продуктов уже действующих, совершенно оправданно используют дженериковые модели на старте. Такие модели содержат усредненные данные о платежеспособном заемщике, что может являться лишь отправной точкой в построении скоринга.
Это может быть или своя дженериковая модель, построенная экспертно, или модель от внешних контрагентов — поставщиков данных. Однако очевидно, что такие – вынужденная мера, по результату почти всегда значительно уступающая модели, построенной на собственной репрезентативной статистике.

Сроки накопления репрезентативной статистики для построения стабильной и качественной модели могут сильно варьироваться в зависимости от продукта и объёма выдач, но в любом случае это процесс небыстрый, приводящий к немалым финансовым потерям. Зачастую всё это время рисковые активности ограничиваются активностями портфельными, IT-настройками и настройками строгих правил отказа.


                    Моделирование: от старта бизнеса до накопления статистики           1

Впрочем, есть компромиссный выход: построение моделей на малом наборе данных до момента вызревания репрезентативной статистики.
Как показывает практика, во многих случаях такие мини-модели дают значительно лучший результат, чем дженериковые модели. Для примера возьмём микрофинансовую организацию, которая только начинает свой бизнес. Предположим, что для накопления достаточной статистики ей потребуется 6 месяцев, за которые смогут «созреть» около 5000 выдач и около 1500 дефолтов. Однако уже через 2 месяца в распоряжении компании будет около 1000 «созревших» выдач и около 300 дефолтов. На этой статистике можно построить мини-модель из 3-4 переменных, которая вполне может оказаться сильнее дженериковой модели даже с учётом возможного небольшого переобучения (overfitting) из-за нехватки статистики.
На практике в подобных ситуациях удавалось построить мини-модель, которая после внедрения показывала результат 40 Gini против 20 Gini у дженериковой модели (коэффициент Gini в данном случае характеризует предсказательную спозобность модели). Через пару месяцев модель можно перестроить на большем наборе данных, а по прошествии 6 месяцев построить полноценную итоговую модель на длительное время.


                    Моделирование: от старта бизнеса до накопления статистики           2 ROC-кривая в зависимости от значения индекса Gini

В приведённом примере все эти меры могут значительно улучшить финансовый результат в первые 6 месяцев жизни компании.

Вместо заключения

Большое спасибо за внимание к статье. Разумеется, описанный подход не является панацеей для всех кредитных организаций, кредитные продукты могут сильно отличаться друг от друга, процент одобрения в зависимости от лимитной политики может варьироваться от варианта «выдаём почти всем» до «не выдаём почти никому», а на разных кредитных рынках (мы сейчас рассуждаем не только о России) присутствуют разные источники данных.
Речь о том, что подобные промежуточные решения в условиях нехватки данных могут значительно улучшить результат на старте.

Если статья показалась вам полезной, не забудьте поставить лайк и подписаться на наш блог, чтобы отслеживать появление нового материала.😉Будем благодарны за ваше мнение по теме в комментариях под статьей.

Для получения подробного описания сервисов компании MagicScore, пожалуйста, пишите в ЛС или оставляйте заявки на нашем сайте.

Источник: портал vc.ru

Добавить комментарий