Benchmark PD vintage

Para que este benchmark existe

Esta é a página metodológica mais importante do repositório hoje.

O benchmark compara três lentes:

OptimalBinning puro como baseline externa estática
uma baseline estática interna do RiskBands
uma seleção balanceada do RiskBands que incorpora diagnóstico temporal e penalizações estruturais

Ele foi construído para perguntas de crédito, não para uma demo genérica de binning.

Onde ele vive no repositório

Cenários cobertos hoje

Stable Credit

A auditoria temporal valida o candidato estático. O recado aqui é: sensibilidade temporal não precisa trocar vencedor quando o problema está sob controle.

Temporal Reversal

O agregado continua sedutor, mas as curvas por safra revelam por que a resposta estática mais discriminante pode ser frágil para crédito.

Composition Shift

O diagnóstico temporal identifica estresse estrutural sem implicar troca automática do candidato final.

Stable Credit

A camada temporal não precisa forçar um vencedor diferente. Este cenário existe para mostrar que o RiskBands também pode validar a solução estática quando a fragilidade temporal não é forte o suficiente para justificar uma troca.

Temporal Reversal

É o cenário mais importante.

A história agregada continua atraente, mas a leitura por safra mostra por que a resposta estática mais discriminante pode ser a resposta errada para crédito.

Composition Shift

Mostra que o diagnóstico temporal consegue identificar estresse estrutural sem implicar automaticamente que a escolha final precise mudar.

O que olhar primeiro

Comece pelo board comparativo e observe:

IV
KS
temporal_score
objective_score
total_penalty
coverage_ratio_min
rare_bin_count
ranking_reversal_period_count
alert_flags

Depois vá para os gráficos por safra.

Board executivo do cenário-âncora

O board executivo concentra a comparação entre baseline externa, baseline estática interna e candidato final selecionado. É o ponto mais rápido para perceber onde IV e score temporal contam histórias diferentes.

O que o benchmark tenta demonstrar

Este benchmark não tenta provar que o RiskBands sempre vence a baseline estática.

Ele tenta demonstrar algo mais útil:

às vezes o estático continua sendo a escolha certa
às vezes a visão temporal muda a decisão
o ganho principal está em julgar melhor o trade-off sob estresse temporal, e não apenas em trocar de solver

Como ler o vencedor final

O ponto não é apenas observar quem teve o maior IV.

O ponto é entender por que o vencedor final:

sustentou melhor a ordenação entre bins
preservou cobertura mínima mais saudável
sofreu menos com bins raros ou fragilidade estrutural
apresentou um score objetivo mais alinhado à defendibilidade em crédito

Onde a diferença aparece visualmente

As curvas por bin ao longo das safras mostram onde a tese do projeto fica concreta: o agregado continua competitivo, mas a organização temporal da solução estática se deteriora.

O heatmap ajuda a localizar onde a instabilidade aparece e se ela está concentrada em bins ou safras específicos.

Limite honesto do benchmark

Este benchmark é uma prova de conceito sintética e controlada. Ele não substitui validação em base real.

Mesmo assim, ele é útil porque explicita um tipo de falha comum em crédito: o agregado parece ótimo, mas a leitura por safra conta outra história.

Benchmark PD vintage

Para que este benchmark existe

Onde ele vive no repositório

Cenários cobertos hoje

Stable Credit

Temporal Reversal

Composition Shift

O que olhar primeiro

Board executivo do cenário-âncora

O que o benchmark tenta demonstrar

Como ler o vencedor final

Onde a diferença aparece visualmente

Limite honesto do benchmark

Páginas relacionadas