
16 de janeiro de 2026
Análise comparativa de técnicas de Machine Learning para previsão de inadimplência
Autor(a): Luciane Berger da Silva — Orientador(a): Daniel Alvarez Firmino
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo analisa e compara o desempenho de algoritmos de machine learning na previsão de inadimplência em crédito. A pesquisa compara modelos lineares (regressão logística) e baseados em árvores (árvore de decisão, random forest), investigando o efeito de estratégias de pré-processamento, como imputação de valores ausentes e balanceamento de classes. O objetivo é identificar os modelos mais adequados, considerando métricas de desempenho e aplicabilidade prática para instituições financeiras, especialmente em cenários de dados desbalanceados, característicos de risco de crédito.
A concessão de crédito é fundamental para a economia, mas envolve o risco de inadimplência, o não cumprimento de obrigações contratuais pelo tomador (Baesens et al., 2016). A gestão eficaz desse risco é crucial para a sustentabilidade das instituições financeiras. Ferramentas de análise preditiva são indispensáveis para identificar padrões de risco com base em dados históricos, permitindo medidas preventivas como ajuste de limites ou recusa de operações de alto risco (Lessmann et al., 2015; Pinto et al., 2024).
A literatura sobre risco de crédito transita de modelos estatísticos tradicionais para algoritmos de machine learning. Métodos baseados em árvores, como random forest, demonstram melhor desempenho ao capturar interações não lineares (Aniceto et al., 2020). Contudo, a regressão logística mantém sua proeminência no setor financeiro devido à sua interpretabilidade e aceitação regulatória (Bücker et al., 2020). O desafio é conciliar o poder preditivo de modelos avançados com a necessidade de transparência, motivando pesquisas em abordagens híbridas (Dumitrescu et al., 2022).
Apesar dos avanços, persistem lacunas na aplicação dessas técnicas. Muitos estudos não exploram o impacto do tratamento de dados desbalanceados, uma característica comum em bases de inadimplência, onde a classe adimplente é majoritária. O desbalanceamento pode induzir os algoritmos a um viés em favor da classe majoritária, resultando em modelos com alta acurácia geral, mas baixa capacidade de identificar os casos de inadimplência. Este trabalho contribui para a literatura ao oferecer uma análise comparativa sistemática que avalia diferentes algoritmos e investiga como estratégias de pré-processamento, especialmente as de balanceamento de classes, influenciam a performance preditiva. Ao analisar os resultados sob múltiplas métricas, o estudo visa fornecer insights práticos para instituições financeiras sobre como selecionar e configurar modelos que se alinhem aos seus objetivos, seja maximizando o desempenho ou minimizando perdas por falsos negativos.
A metodologia é uma pesquisa quantitativa aplicada, que utiliza técnicas de machine learning supervisionado para comparar abordagens preditivas na identificação de clientes com risco de inadimplência. Utilizou-se a base de dados pública “Give me Some Credit” (Freshcorn, 2011), com 150.000 registros anonimizados e variáveis comportamentais. Embora a origem norte-americana da base limite a generalização para o contexto brasileiro, seu volume e uso em estudos acadêmicos a tornam um ambiente robusto para validar técnicas de modelagem em cenários de dados desbalanceados.
O pré-processamento dos dados iniciou com a análise de valores ausentes, presentes nas variáveis de renda (19,82%) e quantidade de dependentes (2,62%). Um teste de qui-quadrado indicou que a ausência não era aleatória. Quatro estratégias de tratamento foram avaliadas: exclusão dos registros; imputação pela mediana; imputação via K-Vizinhos Mais Próximos (KNN); e imputação interativa (MICE). Cada abordagem gerou uma versão da base de dados para análise comparativa do impacto do tratamento de dados ausentes no desempenho dos modelos.
O desbalanceamento da variável alvo, com apenas 7% de inadimplentes, foi outro desafio. Para mitigar o risco de viés em favor da classe majoritária, foram testadas três estratégias de balanceamento: nenhuma (linha de base); subamostragem (undersampling), que reduz a classe majoritária; e superamostragem de minoria sintética (SMOTE), que gera observações sintéticas da classe minoritária (He e Garcia, 2009). A comparação avaliou o impacto de cada uma em métricas sensíveis ao desbalanceamento, como sensibilidade e F1-score.
A base de dados foi dividida em 70% para treinamento e 30% para teste, de forma estratificada. Foram implementados três algoritmos de classificação (Kotsiantis, 2007): regressão logística (interpretabilidade), árvore de decisão (padrões não lineares) (Grus, 2021) e random forest (robustez e generalização) (Breiman, 2001). Os hiperparâmetros foram otimizados com RandomizedSearchCV, GridSearchCV e validação cruzada de 5 dobras. O desempenho foi avaliado no conjunto de teste com um conjunto abrangente de métricas: Área Sob a Curva ROC (AUC-ROC), Área Sob a Curva Precisão-Sensibilidade (AUC-PR), índice de Gini, acurácia, precisão, sensibilidade, F1-score, Coeficiente de Correlação de Matthews (MCC) e Brier score, garantindo uma análise multidimensional.
Os resultados da regressão logística mostraram que a regularização L2 (Ridge) foi a melhor configuração, o que é esperado em cenários com multicolinearidade (Hastie et al., 2009). A manutenção de todas as variáveis foi justificada pela busca de desempenho preditivo global (Fávero e Belfiore, 2017). A estratégia de exclusão de registros ausentes, sem balanceamento ou com undersampling, produziu os melhores resultados globais, com AUC-ROC de 0,803 e sensibilidade de 0,627. As técnicas de imputação (mediana, KNN, MICE) tiveram impacto marginal. O uso de SMOTE elevou a sensibilidade para 0,670, mas prejudicou a acurácia e a precisão. Contudo, a combinação de MICE com SMOTE alcançou o melhor Brier score (0,168), indicando calibração superior. Isso evidencia um trade-off: a exclusão de dados favorece o desempenho geral, enquanto MICE e SMOTE podem ser preferíveis quando a redução de falsos negativos e a calibração são prioritárias.
O modelo de árvore de decisão, sem balanceamento, exibiu alta acurácia (0,933) mas sensibilidade nula, falhando em identificar inadimplentes, um fenômeno documentado (Breiman et al., 1984). O uso de SMOTE promoveu ganhos, elevando a sensibilidade para aproximadamente 0,30. A combinação de imputação pela mediana com SMOTE apresentou o melhor equilíbrio, com AUC-ROC de 0,836 e Brier score de 0,057. Já o undersampling maximizou a sensibilidade (próximo a 0,77), mas com queda expressiva na acurácia e piora na calibração, reforçando o trade-off entre detectar inadimplentes e manter a robustez geral (Thomas et al., 2017).
O random forest foi o algoritmo mais robusto, com AUC-ROC consistente em torno de 0,86. Para desempenho global, a combinação de imputação por mediana sem balanceamento se destacou, com AUC-ROC de 0,861, AUC-PR de 0,384 e Brier score de 0,126. Para minimizar falsos negativos, a imputação por mediana com undersampling foi a mais eficaz, atingindo a maior sensibilidade do estudo (0,795) e o melhor AUC-ROC (0,864), embora com perdas em acurácia. Em contraste, as estratégias com SMOTE maximizaram a acurácia, mas reduziram a sensibilidade.
A comparação final, usando AUC-PR como critério principal devido ao desbalanceamento, confirmou a superioridade do random forest para desempenho global. Este modelo apresentou o melhor equilíbrio, com a maior AUC-PR (0,384), sensibilidade de 0,418 e o menor Brier score (0,126), indicando excelente discriminação e calibração. A regressão logística superou a árvore de decisão em sensibilidade, mas com perdas em outras métricas, corroborando estudos que apontam ensembles como mais estáveis (Isidoros e Arcozzi, 2024). Na análise focada na minimização de falsos negativos (sensibilidade), os modelos baseados em árvores foram superiores. O random forest liderou com sensibilidade de 0,795, seguido pela árvore de decisão com 0,779. Ambos incorreram em custos de precisão e calibração, exemplificando o trade-off na gestão de risco: reduzir falsos negativos mitiga perdas de capital, enquanto o aumento de falsos positivos pode levar à perda de oportunidades de negócio.
A relevância das variáveis e a performance dos modelos devem ser contextualizadas. A significância de variáveis tradicionais pode diminuir em cenários de choque econômico (Gambacorta et al., 2024), e a performance pode ser aprimorada com dados alternativos, como informações psicométricas, especialmente para populações com histórico de crédito limitado (Djeundje et al., 2021). A escolha de um modelo não deve se basear apenas em métricas estatísticas. Modelos com alta acurácia nem sempre minimizam os custos regulatórios e de capital associados aos erros (Xia et al., 2022). A decisão final deve integrar a análise estatística com os objetivos estratégicos da instituição, considerando os custos financeiros de cada tipo de erro. Este estudo fornece uma estrutura para essa análise, demonstrando como diferentes combinações de algoritmos e pré-processamento se alinham a diferentes apetites de risco.
O trabalho demonstrou que não existe um modelo universalmente superior para previsão de inadimplência, mas sim trade-offs entre desempenho, interpretabilidade e impacto operacional. A regressão logística mostrou-se um benchmark competitivo e transparente. As árvores de decisão, sensíveis ao desbalanceamento, melhoraram com técnicas de reamostragem. O random forest foi o modelo mais equilibrado e robusto, com os melhores desempenhos globais em discriminação (AUC-ROC ≈ 0,86) e calibração. A análise evidenciou o papel crítico do pré-processamento: o undersampling foi mais eficaz para aumentar a sensibilidade, enquanto o SMOTE, em alguns cenários, favoreceu a acurácia, ressaltando a necessidade de alinhar a metodologia aos objetivos estratégicos.
As limitações do estudo incluem o uso de uma única base de dados norte-americana e a não exploração de algoritmos como gradient boosting ou redes neurais. Pesquisas futuras podem expandir a análise para bases de dados brasileiras, incorporar outros modelos e integrar métricas de custo de erro para quantificar o impacto financeiro. Conclui-se que o objetivo foi atingido: demonstrou-se que a escolha do algoritmo de machine learning e das estratégias de pré-processamento de dados para previsão de inadimplência depende fundamentalmente dos objetivos estratégicos da instituição financeira, evidenciando um claro trade-off entre desempenho preditivo global e a minimização de perdas por falsos negativos.
Referências:
Aniceto, G. F.; Barboza, F. L. C.; Kimura, H. 2020. Credit risk analysis using machine learning classifiers. Brazilian Review of Finance 18(4): 1–28.
Baesens, B.; Roesch, D.; Scheule, H. 2016. Credit risk analytics: measurement techniques, applications and examples in SAS. John Wiley & Sons, Hoboken, NJ, EUA.
Breiman, L. 1984. Classification and regression trees. Chapman & Hall/CRC, Boca Raton, FL, EUA.
Breiman, L. 2001. Random forests. Machine Learning 45(1): 5–32.
Bücker, M.; Szepannek, G.; Gosiewska, A.; Biecek, P. 2020. Transparency, auditability and explainability of machine learning models in credit scoring. Journal of the Operational Research Society 71(8): 1281–1290.
Carvalho, J. R. 2015. Análise de risco de crédito: fundamentos, metodologias e aplicações. Atlas, São Paulo, SP, Brasil.
Djeundje, V . B.; Crook, J.; Calabrese, R.; Hamid, M. 2021. Enhancing credit scoring with alternative data. Expert Systems with Applications 167: 113766.
Dumitrescu, E.; Hué, S.; Hurlin, C.; Tokpavi, S. 2022. Machine learning for credit scoring: improving logistic regression with non-linear decision-tree effects. European Journal of Operational Research 297(3): 1178–1192.
Fávero, L. P.; Belfiore, P. P. 2017. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Elsevier, Rio de Janeiro, RJ, Brasil.
Fávero, L. P.; Belfiore, P. P. 2024. Análise de dados: técnicas multivariadas exploratórias e confirmatórias. Elsevier, Rio de Janeiro, RJ, Brasil.
Freshcorn, B. 2011. Give Me Some Credit: 2011 Competition Data. Disponível em: https://www. kaggle. com/datasets/brycecf/give-me-some-credit-dataset.
Gambacorta, L.; Huang, Y.; Qiu, H.; Wang, J. 2024. How do machine learning and non-traditional data affect credit scoring? New evidence from a Chinese fintech firm. Journal of Financial Stability 73: 101284.
Grus, J. 2021. Data science do zero: noções fundamentais com Python. 2ed. Alta Books, Rio de Janeiro, RJ, Brasil.
Hastie, T.; Tibshirani, R.; Friedman, J. 2009. The elements of statistical learning: data mining, inference, and prediction. 2ed. Springer, New York, NY, EUA.
He, H.; Garcia, E. A. 2009. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering 21(9): 1263–1284.
Hosmer, D. W.; Lemeshow, S.; Sturdivant, R. X. 2013. Applied logistic regression. 3ed. John Wiley & Sons, Hoboken, NJ, EUA.
ISIDOROS, I.; ARCOZZI, N. 2024. Improved convergence rates for some kernel random forest algorithms. Mathematics in Engineering 6(2): 1-22.
Kotsiantis, S. B. 2007. Supervised machine learning: a review of classification techniques. Informatica 31(3): 249–268.
Lessmann, S.; Baesens, B.; Seow, H. V.; Thomas, L. C. 2015. Benchmarking state-of-the-art classification algorithms for credit scoring: an update of research. European Journal of Operational Research 247(1): 124–136.
Pinto, R. S.; Ywata, A.; Tessmann, R. H.; Lima, F. 2024. Are machine learning models more effective than logistic regressions in predicting bank credit risk? An assessment of the Brazilian financial markets. International Journal of Monetary Economics and Finance 17(1): 1–22.
Thomas, L. C.; Crook, J. N.; Edelman, D. B. 2017. Credit scoring and its applications. 2ed. SIAM, Philadelphia, PA, EUA.
Xia, Y.; Zhang, C.; Li, Y.; Chen, W. 2022. A comparative study of credit scoring models. Knowledge-Based Systems 235: 107629.
Zou, H.; Hastie, T. 2005. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 67(2): 301–320.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































