
10 de fevereiro de 2026
Avaliação preditiva da regularização de dívidas bancárias com machine learning
Suellen Borges; Douglas Augusto de Paula
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo construiu e avaliou modelos preditivos de machine learning para estimar a probabilidade de regularização de contratos inadimplidos de Crédito Direto ao Consumidor (CDC). A pesquisa identificou as variáveis preditoras mais relevantes e comparou a eficácia da regressão logística, Random Forest e XGBoost. A motivação é a necessidade de as instituições financeiras aprimorarem suas estratégias de cobrança em um cenário macroeconômico de crescente inadimplência, direcionando esforços de forma mais eficiente. O trabalho diferencia-se dos modelos de credit scoring, que focam na concessão de crédito, ao analisar o comportamento de uma carteira já inadimplida, oferecendo uma ferramenta para a gestão de risco pós-concessão.
O contexto da investigação é o aumento dos índices de inadimplência no Brasil. Dados do Banco Central do Brasil (2025) indicam que, em meados de 2025, a proporção de famílias sem condições de honrar seus compromissos financeiros atingiu o maior patamar em quase dois anos. Este cenário é agravado por fatores como taxas de juros elevadas, que encarecem o serviço da dívida. A literatura corrobora essa dinâmica, com estudos do Banco Central do Brasil (2019) demonstrando a correlação direta entre o aumento da taxa Selic e a redução da capacidade de pagamento dos devedores. Esse ambiente exige que as instituições financeiras adotem abordagens mais sofisticadas para a gestão de crédito.
A análise de risco de crédito evoluiu com técnicas estatísticas avançadas. Camargos, Araújo e Camargos (2012) identificaram a influência de variáveis como renda e histórico de crédito na inadimplência, enquanto Palmuti e Picchiai (2012) destacaram a importância de modelos estatísticos multivariados. A regressão logística consolidou-se como ferramenta padrão no setor financeiro, aplicada na previsão de inadimplência (Virgillito e Famá, 2021), em sistemas de credit scoring (Gonçalves, Gouvêa e Mantovani, 2013), financiamentos imobiliários (Zhang, 2015) e empréstimos peer-to-peer (Turiel e Aste, 2019).
Este estudo aplica não apenas a regressão logística, mas também algoritmos como Random Forest e XGBoost, ao problema da regularização de dívidas. O foco não é prever quem se tornará inadimplente, mas estimar a probabilidade de um cliente já inadimplente regularizar sua situação. Essa abordagem permite segmentar carteiras de cobrança e personalizar estratégias de recuperação. Contratos com baixa probabilidade de regularização podem ser alvo de ações mais intensivas ou propostas de renegociação mais agressivas, enquanto aqueles com alta probabilidade podem demandar um acompanhamento menos custoso.
A utilização de um conjunto de dados fictício que simula operações reais de CDC permite uma análise robusta. O desempenho dos modelos é avaliado por um conjunto completo de indicadores derivados da matriz de confusão e da curva ROC, mais adequados para cenários de dados desbalanceados do que a acurácia isolada. A investigação sobre o impacto do balanceamento da amostra, por meio de técnicas como o ROSE (Random Over-Sampling Examples), adiciona rigor metodológico. Assim, o estudo contribui para a literatura ao comparar sistematicamente abordagens tradicionais e de machine learning em um problema prático e relevante para o setor financeiro.
A metodologia empregada é quantitativa e preditiva, utilizando um conjunto de dados fictício de contratos de CDC para Pessoa Física. A base compreende seis safras mensais (janeiro a junho de 2024) como janela de observação. Cada contrato inadimplido foi acompanhado por 12 meses para verificar a regularização. A variável resposta, IN_RGLD, foi definida como binária: 1 se o número de dias em atraso foi zerado ou reduzido em relação ao mês anterior, e 0 caso contrário. As variáveis preditoras foram: número de dias vencidos, renda do cliente, saldo contábil, tempo de atividade do cliente (meses), tempo de conta (anos) e valor original do contrato.
Na preparação dos dados, a análise descritiva identificou forte assimetria à direita e outliers nas variáveis financeiras. Aplicou-se a técnica de winsorização, limitando os valores nos percentis 2 e 98 para atenuar a influência de observações atípicas sem excluir registros, conferindo maior robustez aos modelos (Fávero & Belfiore, 2017). A análise inferencial bivariada foi conduzida para avaliar a associação preliminar entre cada preditor e a variável resposta. Devido à não normalidade das distribuições, confirmada pelo teste de Shapiro-Wilk (p < 0,001), optou-se pelo teste não paramétrico de Mann-Whitney para comparar as medianas dos grupos.
A modelagem preditiva comparou três algoritmos. Ajustou-se um modelo de regressão logística múltipla, técnica estabelecida para classificação binária (Hosmer & Lemeshow, 2000). As variáveis independentes foram padronizadas, e a multicolinearidade foi avaliada pelo Fator de Inflação da Variância (VIF). Em seguida, foram aplicados dois algoritmos de ensemble: Random Forest (Breiman, 2001) e XGBoost (Chen & Guestrin, 2016). Para todos os modelos, o banco de dados foi dividido de forma estratificada em conjuntos de treino (70%) e validação (30%), mantendo a proporção da variável resposta em ambas as amostras.
Para mitigar o viés do desbalanceamento de classes; a proporção de contratos regularizados era significativamente maior, foi aplicada a técnica de sobreamostragem sintética ROSE na base de treinamento da regressão logística. O desempenho dos modelos foi avaliado pela matriz de confusão para calcular métricas como acurácia, sensibilidade, especificidade, acurácia balanceada e o coeficiente Kappa de Cohen. A capacidade discriminatória global foi avaliada pela curva ROC e pela área sob a curva (AUC), uma medida que resume o desempenho do classificador (Kuhn & Johnson, 2013). Todas as análises foram conduzidas no software R, versão 4.4.3.
A análise descritiva revelou que as variáveis financeiras exibiram forte assimetria à direita. A aplicação da winsorização nos percentis 2 e 98 foi eficaz em atenuar o efeito de valores extremos. A análise bivariada, via teste de Mann-Whitney, confirmou que todas as variáveis preditoras apresentaram diferenças estatisticamente significativas (p < 0,001) entre os grupos de operações regularizadas e não regularizadas. Notavelmente, contratos regularizados estavam associados a um menor número de dias vencidos, maior renda, maior tempo de conta e maior tempo de atividade.
A análise de multicolinearidade, conduzida antes da modelagem, foi crucial. A matriz de correlação de Spearman apontou uma correlação muito forte e positiva entre saldo contábil e valor do contrato (ρ = 0,92). Essa redundância foi confirmada pelo VIF, que resultou em valores elevados para ambas (VIF ≈ 34,6). Para evitar instabilidade nos coeficientes, optou-se pela exclusão da variável “valor do contrato”, mantendo-se o “saldo contábil”. As demais variáveis apresentaram valores de VIF abaixo de 2.
A comparação do desempenho dos modelos preditivos revelou que, segundo as curvas ROC, o algoritmo XGBoost apresentou a maior área sob a curva (AUC = 0,7704), sugerindo a melhor capacidade discriminatória global. A regressão logística tradicional (AUC = 0,7273) e sua versão balanceada com ROSE (AUC = 0,7223) tiveram desempenhos moderados. O modelo Random Forest obteve o pior desempenho em discriminação (AUC = 0,6186). No entanto, a análise aprofundada da matriz de confusão demonstrou uma realidade mais complexa, um ponto crucial em problemas com dados desbalanceados (Athey & Imbens, 2019).
O modelo XGBoost, apesar da alta AUC, apresentou acurácia elevada (82,8%) às custas de uma sensibilidade muito baixa (15,8%). Isso significa que o modelo era excelente em identificar corretamente os contratos regularizados (classe majoritária), com especificidade de 97,7%, mas falhava drasticamente em identificar os contratos não regularizados (classe minoritária). Um padrão semelhante foi observado no Random Forest, que também apresentou alta acurácia (82,2%) mas com especificidade quase nula (10,2%). Este fenômeno evidencia um viés comum de algoritmos complexos em favorecer a classe majoritária quando não são ajustados para o desbalanceamento (Mullainathan & Spiess, 2017).
Em contrapartida, os modelos de regressão logística demonstraram um desempenho mais equilibrado. A regressão logística com um ponto de corte padrão de 0,5 também sofreu do mesmo viés, com baixa sensibilidade (6,4%). Contudo, ao ajustar o ponto de corte para 0,8, o modelo alcançou um equilíbrio melhor, com uma acurácia balanceada de 66,3% e um coeficiente Kappa de 0,237. De forma similar, a regressão logística treinada na base balanceada com ROSE obteve o maior coeficiente Kappa (0,322) e uma acurácia balanceada de 66,1%, com sensibilidade (66,7%) e especificidade (65,5%) bastante próximas. Esses resultados indicam que as abordagens que lidaram explicitamente com o desbalanceamento forneceram predições mais robustas.
A análise final concentrou-se no modelo de regressão logística com cutoff de 0,8, escolhido por seu desempenho equilibrado e alta interpretabilidade. As estimativas dos coeficientes (expressas como Odds Ratios) foram todas estatisticamente significativas (p < 0,001). Os resultados confirmaram que maior renda (OR = 1,32), maior tempo de conta (OR = 1,30) e maior tempo de atividade (OR = 1,29) estão positivamente associados à probabilidade de regularização da dívida. Por outro lado, o número de dias vencidos emergiu como o preditor negativo mais forte, com cada dia adicional de atraso reduzindo as chances de regularização em quase 50% (OR = 0,51). O saldo contábil também apresentou uma associação negativa de menor magnitude (OR = 0,92).
A escolha do modelo preditivo não deve se basear apenas em métricas globais como a AUC, especialmente em contextos de dados desbalanceados. A avaliação criteriosa da matriz de confusão e de métricas como a acurácia balanceada e o coeficiente Kappa é fundamental. Para o problema da regularização de dívidas de CDC, os modelos de regressão logística, quando ajustados para o desbalanceamento, provaram ser mais adequados que algoritmos como XGBoost e Random Forest, pois ofereceram um compromisso superior entre sensibilidade e especificidade, aliado à interpretabilidade dos resultados, fundamental para a tomada de decisão estratégica no setor financeiro (Athey, 2017).
Este estudo avaliou a aplicação de diferentes técnicas de machine learning para a predição da regularização de dívidas bancárias. A análise comparativa evidenciou que, embora modelos complexos como o XGBoost possam apresentar uma capacidade discriminatória global superior (AUC), seu desempenho prático pode ser comprometido por um forte viés em favor da classe majoritária. Em contrapartida, a regressão logística, seja com o ajuste do ponto de corte ou com o uso de técnicas de balanceamento como o ROSE, demonstrou ser uma ferramenta mais equilibrada e confiável, conciliando poder preditivo com interpretabilidade. As implicações práticas são diretas: a identificação de preditores significativos como dias vencidos, renda e tempo de relacionamento subsidia a segmentação de carteiras de cobrança e o desenvolvimento de estratégias de recuperação mais eficientes. O modelo final indica que ações de cobrança devem ser intensificadas nos estágios iniciais do atraso. A pesquisa reforça que a escolha da métrica de avaliação e do método de modelagem é determinante para a obtenção de inferências úteis, e que a interpretabilidade de modelos tradicionais pode superar a complexidade de algoritmos mais modernos. Conclui-se que o objetivo foi atingido: demonstrou-se que modelos de regressão logística, quando devidamente ajustados para o desbalanceamento de classes, oferecem um desempenho preditivo mais equilibrado e interpretável para a regularização de dívidas em comparação com algoritmos de ensemble como XGBoost e Random Forest neste contexto específico.
Referências:
Athey, S. 2017. Beyond prediction: Using big data for policy problems. Science 355(6324): 483-485.
Athey, S; Imbens, G. 2019. Machine learning methods economists should know about. Arxiv. Disponível em: https://arxiv. org/abs/1903.10075. Acesso em: 05 ago. 2025.
Boehmke, B.; Greenwell, B. 2019. Hands-on machine learning with R. Chapman and Hall/CRC, New York, NY, USA.
Breiman, L. 2001. Random forests. Machine learning 45(1): 5-32.
Camargos, M. A.; Araújo, E. A. T.; Camargos, M. C. S. A inadimplência em um programa de crédito de uma instituição financeira pública de Minas Gerais: uma análise utilizando regressão logística. REGE, v. 19, n. 3, p. 473–492. 2012.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 785–794). ACM.
Confederação Nacional do Comércio de Bens, Serviços e Turismo. Inadimplência sobe ao maior nível da série histórica em agosto, aponta CNC. CNN Brasil, 9 set.2025. Disponível em: https://www. cnnbrasil. com. br/economia/macroeconomia/inadimplencia-sobe-ao-maior-nivel-da-serie-historica-em-agosto-aponta-cnc/. Acesso em: 12 set. 2025.
Fávero, L. P.; Belfiore, P. 2017. Manual de análise de dados. Elsevier, Rio de Janeiro, RJ, Brasil.
Gonçalves, E. B.; Gouvêa, M. A.; Mantovani, D. M. N. Análise de risco de crédito com o uso de regressão logística. Revista Contemporânea de Contabilidade, v. 10, n. 20, p. 139–160, jul./dez. 2013.
Hastie, T., Tibshirani, R.; Friedman, J. 2009. The elements of statistical learning: data mining, inference and prediction. Springer, New York, NY, USA.
Hosmer, David W.; Lemeshow, Stanley. Applied Logistic Regression. Canadá, 2000.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R. 2021. An introduction to statistical learning. Springer, New York, NY, USA.
Johnson, R.; Wichern, D. Applied Multivariate Statistical Analysis. Prentice-Hall, New Jersey, (1982).
Kuhn, M., e Johnson, K. 2013. Applied predictive modeling. Springer, New York, NY, USA.
Mullainathan, S.; Spiess, J. 2017. Machine learning: an applied econometric approach. Journal of Economic Perspectives 31(2): 87-106.
Palmuti, Claudio Silva; Picchiai, Djair. Mensuração do risco de crédito por meio de análise estatística multivariada. Revista Economia & Ensaios, Uberlândia, v. 41, n. 2, p. 1–19, jul./dez. 2012.
Pázmány Péter Catholic University, Faculty of Information Technology and Bionics, & Universidad Autónoma de Madrid, Escuela Politéctica Superior. (2018). A Comparative Analysis of XGBoost.
Turiel, J. D.; ASTE, T. P2P loan acceptance and default prediction with artificial intelligence. Royal Society Open Science, v. 7, n. 7, p. 191649, jul. 2020. Disponível em: https://royalsocietypublishing. org/doi/abs/10.1098/rsos.191649. Acesso em: 13 set. 2025.
Virgillito, Salvatore Benito; Famá, Rubens. A análise estatística multivariada na previsão de insolvência de empresas. Academia. edu, 2021.
Zhang, Q. Modeling the probability of mortgage default. 2015. Disponível em: https://digitalcommons. uri. edu/cgi/viewcontent. cgi? article=1543&context=theses. Acesso em: 12 set. 2025.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































