Pular para o conteúdo

Benchmark PD vintage

Esta é a página metodológica mais importante do repositório hoje.

O benchmark compara três lentes:

  1. OptimalBinning puro como baseline externa estática
  2. uma baseline estática interna do RiskBands
  3. uma seleção balanceada do RiskBands que incorpora diagnóstico temporal e penalizações estruturais

Ele foi construído para perguntas de crédito, não para uma demo genérica de binning.

Stable Credit

A auditoria temporal valida o candidato estático. O recado aqui é: sensibilidade temporal não precisa trocar vencedor quando o problema está sob controle.

Temporal Reversal

O agregado continua sedutor, mas as curvas por safra revelam por que a resposta estática mais discriminante pode ser frágil para crédito.

Composition Shift

O diagnóstico temporal identifica estresse estrutural sem implicar troca automática do candidato final.

A camada temporal não precisa forçar um vencedor diferente. Este cenário existe para mostrar que o RiskBands também pode validar a solução estática quando a fragilidade temporal não é forte o suficiente para justificar uma troca.

É o cenário mais importante.

A história agregada continua atraente, mas a leitura por safra mostra por que a resposta estática mais discriminante pode ser a resposta errada para crédito.

Mostra que o diagnóstico temporal consegue identificar estresse estrutural sem implicar automaticamente que a escolha final precise mudar.

Comece pelo board comparativo e observe:

  • IV
  • KS
  • temporal_score
  • objective_score
  • total_penalty
  • coverage_ratio_min
  • rare_bin_count
  • ranking_reversal_period_count
  • alert_flags

Depois vá para os gráficos por safra.

O board executivo concentra a comparação entre baseline externa, baseline estática interna e candidato final selecionado. É o ponto mais rápido para perceber onde IV e score temporal contam histórias diferentes.

Este benchmark não tenta provar que o RiskBands sempre vence a baseline estática.

Ele tenta demonstrar algo mais útil:

  • às vezes o estático continua sendo a escolha certa
  • às vezes a visão temporal muda a decisão
  • o ganho principal está em julgar melhor o trade-off sob estresse temporal, e não apenas em trocar de solver

O ponto não é apenas observar quem teve o maior IV.

O ponto é entender por que o vencedor final:

  • sustentou melhor a ordenação entre bins
  • preservou cobertura mínima mais saudável
  • sofreu menos com bins raros ou fragilidade estrutural
  • apresentou um score objetivo mais alinhado à defendibilidade em crédito
As curvas por bin ao longo das safras mostram onde a tese do projeto fica concreta: o agregado continua competitivo, mas a organização temporal da solução estática se deteriora.
O heatmap ajuda a localizar onde a instabilidade aparece e se ela está concentrada em bins ou safras específicos.

Este benchmark é uma prova de conceito sintética e controlada. Ele não substitui validação em base real.

Mesmo assim, ele é útil porque explicita um tipo de falha comum em crédito: o agregado parece ótimo, mas a leitura por safra conta outra história.