Imagem Avaliação de modelos preditivos para inadimplência Over 90 no cenário brasileiro

24 de fevereiro de 2026

Avaliação de modelos preditivos para inadimplência Over 90 no cenário brasileiro

Luciano Blank Fonseca; Vinicius Rocha Biscaro

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este estudo avaliou o desempenho comparativo entre a regressão logística e o modelo Random Forest na previsão da inadimplência “over 90” em um horizonte mensal t+1. A pesquisa utilizou dados do Sistema de Informações de Crédito (SCR) do Banco Central do Brasil, complementados por séries macroeconômicas do IBGE e do Bacen, para desenvolver modelos capazes de antecipar a deterioração da carteira de crédito. A motivação reside na necessidade de as instituições financeiras aprimorarem a gestão de risco, especialmente após a implementação do IFRS 9, que exige o reconhecimento antecipado de perdas de crédito esperadas (ECL), tornando a modelagem prospectiva um pilar para a estabilidade e conformidade do setor.

A inadimplência, atraso superior a 90 dias no pagamento de obrigações, é um desafio central para o sistema financeiro, sendo influenciada por fatores macroeconômicos (Guimarães e Chaves Neto, 2002). No Brasil, a taxa básica de juros (SELIC) e a inflação (IPCA) impactam diretamente a capacidade de pagamento. Períodos de aperto monetário encarecem o crédito e desestimulam a atividade econômica, elevando o risco de default (Castro & Mendonça, 2019). Da mesma forma, a inflação corrói o poder de compra, dificultando o cumprimento de compromissos financeiros (Daros & Pinto, 2017).

A transição do padrão contábil IAS 39 para o IFRS 9 marcou uma mudança do modelo de perda incorrida (reativo) para uma abordagem prospectiva (forward-looking). O IFRS 9 exige que as instituições provisionem perdas esperadas com base em informações presentes e futuras, incluindo cenários macroeconômicos (IFRS Foundation, 2023). Essa mudança torna imperativo o desenvolvimento de modelos preditivos robustos para gerar probabilidades de inadimplência (PD) bem calibradas e sensíveis ao ciclo econômico. A capacidade de antecipar a deterioração da carteira subsidia decisões estratégicas em concessão de crédito, precificação e alocação de capital (Bank for International Settlements, 2011).

A modelagem de risco de crédito no Brasil evoluiu de técnicas estatísticas clássicas, como a regressão logística, para métodos de aprendizado de máquina. Estudos como os de Camargo e Lima (2008) e Brito e Assaf Neto (2008) consolidaram o uso da regressão logística para identificar os determinantes da inadimplência. A regressão logística é valorizada por sua interpretabilidade (Hosmer et al., 2013). Contudo, algoritmos como Random Forest ganharam proeminência por sua capacidade de capturar relações não lineares e interações complexas, frequentemente resultando em maior acurácia preditiva (Breiman, 2001; Chen & Guestrin, 2016).

Este estudo compara diretamente a regressão logística com o Random Forest para oferecer insights sobre o trade-off entre precisão e explicabilidade na gestão de risco de crédito no cenário brasileiro. A análise é relevante diante de desafios econômicos recentes, como a volatilidade da inflação e choques exógenos, como eventos climáticos severos (Associated Press, 2024; Reuters, 2023), que reforçam a necessidade de ferramentas que melhorem a resiliência das instituições financeiras.

A metodologia adotada foi quantitativa e longitudinal, baseada na análise de séries temporais. A fonte primária de dados foi o Sistema de Informações de Crédito (SCR) do Banco Central, com informações mensais agregadas sobre a carteira de crédito por Unidade da Federação (UF), modalidade e porte do tomador. O horizonte temporal da análise foi de janeiro de 2021 a junho de 2025, com a exclusão de 2020 para evitar distorções da pandemia de COVID-19. Esses dados foram enriquecidos com séries macroeconômicas mensais, como Selic, IPCA, taxa de desemprego, PIB e taxa de câmbio, do Banco Central e IBGE.

O preparo dos dados incluiu a padronização e agregação das informações no nível UF × modalidade × porte, a partir da qual foi calculada a taxa de inadimplência. A engenharia de variáveis consistiu na criação de novas features, como defasagens de um, três, seis e doze meses para as variáveis de crédito e macroeconômicas, além de taxas de crescimento mensal e interanual. Para mitigar o efeito de valores extremos, foi aplicada a técnica de winsorização nos percentis 1% e 99% das variáveis de crescimento, prática recomendada para reduzir a influência de outliers (Gujarati & Porter, 2011).

A variável-alvo foi definida como uma classificação binária, indicando se a taxa de inadimplência over 90 no mês seguinte (t+1) superaria o percentil 80 de sua distribuição histórica no período de treinamento, focando nos segmentos de maior risco (Altman, 1968). A amostra foi dividida temporalmente: o período de 2021 a 2023 foi utilizado para treinamento; os meses de janeiro a agosto de 2024 para calibração das probabilidades; o período de setembro a dezembro de 2024 serviu como conjunto de validação fora da amostra (holdout); e as previsões para janeiro a junho de 2025 foram comparadas com os dados observados (avaliação ex-ante). Este desenho é consistente com as boas práticas de modelagem de séries temporais (Fawcett, 2006).

Foram desenvolvidos dois modelos: uma regressão logística, com padronização para variáveis numéricas e regularização ajustada via busca em grade, e um modelo Random Forest, com balanceamento de classes e hiperparâmetros otimizados também por busca em grade. Um passo crucial foi a calibração das probabilidades geradas por ambos, realizada pelo método de calibração isotônica sobre o conjunto de 2024. A calibração garante que as probabilidades estimadas reflitam o risco real, requisito do IFRS 9 (IFRS Foundation, 2018). A avaliação de desempenho utilizou métricas como a área sob a curva Precisão-Recall (PR-AUC) para discriminação e o Brier Score para calibração.

Os resultados demonstraram que o modelo Random Forest calibrado exibiu superioridade consistente. No conjunto de validação (setembro a dezembro de 2024), a Random Forest alcançou uma área sob a curva Precisão-Recall (PR-AUC) de 0,7768 e um Brier Score de 0,0756. Em comparação, a regressão logística obteve um PR-AUC de 0,7296 e um Brier Score de 0,0837. Esses valores indicam que a Random Forest possui maior capacidade de discriminação e gera probabilidades mais bem calibradas.

Essa vantagem se acentuou na avaliação ex-ante (primeiro semestre de 2025). Nesse período, a Random Forest calibrada registrou um PR-AUC de 0,9508 e um Brier Score de 0,0437, enquanto a regressão logística apresentou um PR-AUC de 0,9033 e um Brier Score de 0,0569. A superioridade da Random Forest pode ser atribuída à sua capacidade de modelar interações não lineares e complexas entre as variáveis preditoras, característica fundamental em um ambiente econômico dinâmico (Silva & Pereira, 2020).

A análise da dinâmica mensal no primeiro semestre de 2025 revelou uma trajetória ascendente da inadimplência observada, que cresceu de aproximadamente 0,229 em janeiro para 0,281 em junho. Os modelos conseguiram acompanhar essa tendência, com o percentual de segmentos classificados como de alto risco também apresentando crescimento, o que é crucial para a gestão proativa da carteira.

Testes de sensibilidade e o cálculo do coeficiente de Gini reforçaram os achados. A Random Forest demonstrou um melhor equilíbrio entre a taxa de verdadeiros positivos e negativos, resultando em maior precisão na identificação de casos de alto risco. O coeficiente de Gini também foi consistentemente maior para a Random Forest em todas as amostras, confirmando sua maior capacidade de ordenar os clientes por risco de inadimplência.

A análise segmentada dos resultados corroborou padrões de risco conhecidos. Foi identificada maior concentração de risco em modalidades de crédito não garantido, como cartão de crédito e crédito pessoal, e em empresas de pequeno porte. Adicionalmente, observaram-se disparidades regionais, com algumas Unidades da Federação das regiões Norte e Nordeste apresentando probabilidades de inadimplência sistematicamente mais elevadas, o que reforça a necessidade de políticas de crédito diferenciadas.

A superioridade da Random Forest na captura de sinais de deterioração está alinhada à complexidade do ambiente econômico brasileiro; a interação entre política monetária, inflação e desemprego cria padrões de risco não triviais. A capacidade do modelo de antecipar o aumento da inadimplência em 2025, por exemplo, reflete a captura dos efeitos defasados do ciclo de aperto monetário, que eleva o serviço da dívida e pressiona a capacidade de pagamento.

A relevância prática desses achados é amplificada pelo IFRS 9. Ao fornecer probabilidades de inadimplência (PDs) prospectivas e calibradas, os modelos alimentam diretamente o cálculo da Perda Esperada (ECL = PD × LGD × EAD), base para a constituição de provisões. Uma modelagem mais precisa permite que as instituições formem provisões de maneira mais adequada, evitando volatilidade nos resultados e fortalecendo o índice de cobertura. Isso se mostrou importante no primeiro semestre de 2025, período em que muitas instituições financeiras reportaram queda na lucratividade devido ao aumento das despesas com PCLD.

Apesar de seu desempenho inferior em acurácia, a regressão logística mantém sua relevância pela interpretabilidade dos coeficientes, característica valiosa para governança, auditoria e para justificar decisões perante reguladores. A prática ideal pode envolver o uso combinado dos modelos: a Random Forest para ranqueamento e priorização operacional e a regressão logística para o entendimento estratégico dos vetores de risco e para a comunicação com stakeholders.

O estudo aponta para limitações e direções futuras. A metodologia baseou-se em defasagens fixas, e modelos com coeficientes que variam no tempo poderiam se adaptar a quebras estruturais. A pesquisa poderia ser estendida para incorporar cenários macroeconômicos explícitos, permitindo a realização de testes de estresse. A exploração de dados alternativos, como indicadores regionais de atividade econômica ou dados de alta frequência, também representa uma avenida promissora para refinar a precisão dos modelos.

Em conclusão, o estudo avaliou o desempenho comparativo entre a regressão logística e a Random Forest na previsão da inadimplência over 90 no Brasil. Os resultados demonstraram de forma conclusiva que o modelo Random Forest, após calibração isotônica, apresentou um desempenho superior em termos de discriminação e calibração probabilística, tanto na validação fora da amostra quanto na avaliação ex-ante com dados de 2025. Esses achados reforçam a

Referências:
ALTMAN, E. I. 1968. Financial Ratios, Discriminant Analysis and the Prediction of Corporate Bankruptcy. The Journal of Finance 23 (4): 589-609.
ASSOCIATED PRESS. 2024. Brazil floods kill dozens, displace thousands in Rio Grande do Sul. AP News.
BANCO CENTRAL DO BRASIL. 2024. Mecanismos de transmissão da política monetária. Portal BCB.
BANCO DE ESPAÑA. 2020. Machine learning in credit risk. Documentos de Trabajo (2032).
BANK FOR INTERNATIONAL SETTLEMENTS. 2011. Basel III: A global regulatory framework for more resilient banks and banking systems. BCBS Publications.
BREIMAN, L. 2001. Random Forests. Machine Learning 45 (1): 5-32.
BRITO, G. A. S.; ASSAF NETO, A. 2008. Determinantes financeiros da insolvência empresarial: uma abordagem baseada em regressão logística. Revista Contabilidade & Finanças 19 (48): 5-17.
CAMARGO, M. E.; LIMA, L. R. 2008. Análise de inadimplência no mercado de crédito brasileiro: um estudo empírico utilizando regressão logística. Revista Brasileira de Economia 62 (4): 391-407.
CASTRO, F. J.; MENDONÇA, H. F. 2019. Ciclos de crédito, inadimplência e as flutuações econômicas no Brasil. Revista de Economia Contemporânea 23 (3): 1-27.
CHEN, T.; GUESTRIN, C. 2016. XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining: 785–794.
COSTA, J. R.; SILVA, T. A. 2022. Análise de inadimplência clientes usando inteligência de negócio e análise de dados. Multivix.
DAROS, M.; PINTO, N. G. M. 2017. Inadimplência no Brasil: Uma Análise das Evidências Empíricas. Revista de Administração IMED 7 (1): 208-229.
EBA – EUROPEAN BANKING AUTHORITY. 2023. Report on the use of Machine Learning for IRB Models. EBA Reports.
FAWCETT, T. 2006. An introduction to ROC analysis. Pattern Recognition Letters 27 (8): 861-874.
GUIMARÃES, E. A.; CHAVES NETO, A. 2002. O impacto da inadimplência no sistema financeiro brasileiro. Revista do BNDES, 9(18), 145-172.
GUJARATI, D. N.; PORTER, D. C. 2011. Econometria Básica. 5ed. AMGH, Porto Alegre, RS, Brasil.
HOSMER, D. W.; LEMESHOW, S.; STURDIVANT, R. X. 2013. Applied Logistic Regression. 3ed. Wiley, New York, NY, USA.
IFRS FOUNDATION. 2018. IFRS 9 Financial Instruments. IFRS Standards.
IFRS FOUNDATION. 2023. IFRS 9 Financial Instruments — Impairment (Expected Credit Losses). IFRS Standards.
MEURER, R.; SAMOHYL, R. W. 2022. Política monetária e dívida pública: o que mudou com a alteração do regime cambial? Planejamento e Políticas Públicas 28 (1): 195-219.
REUTERS. 2023. Amazon drought disrupts Brazil grain shipping as rivers hit historic lows. Reuters Americas.
SILVA, R. B.; PEREIRA, M. R. 2020. Modelagem de Risco de Crédito: Uma Revisão Comparativa de Técnicas. Revista Brasileira de Finanças, v. 18, n. 4, p. 115-148.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade