Artigo

11 de junho de 2026

Previsão de inadimplência em crédito com técnicas de Machine Learning

Luciane Berger da Silva; Daniel Alvarez Firmino

DOI: 10.22167/2675-6528-2026M01

Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Resumo

A previsão da inadimplência representa um dos maiores desafios para instituições financeiras, diretamente ligada ao controle de riscos e à sustentabilidade das operações de crédito. O estudo teve como objetivo desenvolver, avaliar e comparar diferentes técnicas de aprendizado supervisionado aplicadas à previsão de inadimplência. Foram considerados três modelos amplamente utilizados na literatura: regressão logística, árvore de decisão e “random forest”. A base de dados utilizada foi pública, composta por informações financeiras e socioeconômicas de clientes, e apresentou elevado desbalanceamento entre classes. Os modelos foram avaliados por métricas de desempenho discriminativo e de calibração, incluindo sensibilidade, acurácia, precisão, AUC-ROC, estatística de gini e brier score. Os resultados indicaram que a regressão logística apresentou desempenho consistente e maior interpretabilidade. A árvore de decisão destacou-se na detecção de inadimplentes quando associada a estratégias de balanceamento, embora com menor estabilidade. O modelo de “random forest” alcançou o melhor equilíbrio geral entre discriminação e calibração. Observou-se também que o tratamento do desbalanceamento teve impacto significativo nos resultados, especialmente na melhoria da sensibilidade. Esses achados evidenciaram a importância de alinhar a escolha do modelo e das técnicas de pré-processamento aos objetivos estratégicos da instituição, considerando os custos financeiros associados a erros de classificação.

Palavras-chave: Algoritmos Preditivos; Aprendizado de Máquina; Gestão de Risco; Risco de Crédito.

1. Introdução

O crédito é um motor fundamental da economia global, impulsionando o crescimento e a inovação em diversos setores. Ele permite a consumidores adquirir bens significativos, como veículos e imóveis, e capacita empreendedores a expandir seus negócios e investir em inovações. Contudo, a concessão de crédito envolve um desafio central para as instituições financeiras: a necessidade de garantir que os recursos sejam direcionados a indivíduos e empresas com alta probabilidade de honrar seus compromissos. A inadimplência, caracterizada pela falta de pagamento ou pelo não cumprimento das obrigações contratuais, representa um risco significativo para a estabilidade financeira (Baesens et al., 2016).

A dificuldade em identificar proativamente clientes com maior propensão à inadimplência impulsiona a busca por métodos mais eficazes de avaliação de risco. Nesse contexto, instituições financeiras têm adotado crescentemente ferramentas de análise preditiva. Essas ferramentas utilizam dados históricos e variáveis socioeconômicas para identificar padrões de risco, permitindo uma avaliação mais precisa da capacidade de pagamento dos tomadores de crédito. Tal abordagem favorece a implementação antecipada de medidas preventivas, como a revisão de limites de crédito, o ajuste das taxas de juros ou a recusa de operações consideradas de alto risco, contribuindo para a mitigação de perdas (Lessmann et al., 2015; Pinto et al., 2024).

Nos últimos anos, a literatura sobre risco de crédito tem testemunhado uma evolução notável com a aplicação de algoritmos de aprendizado de máquina. Essa transição visa superar as limitações da regressão logística, que, embora tradicionalmente predominante no credit scoring, pode ter dificuldades em capturar relações complexas e não lineares presentes em grandes volumes de dados. Estudos indicam que métodos baseados em árvores, como “random forest”, “bagging” e “boosting”, demonstram frequentemente ganhos de desempenho na previsão de inadimplência, especialmente ao lidar com interações não lineares e dados de alta dimensionalidade (Aniceto et al., 2020).

Apesar dos avanços do aprendizado de máquina, a regressão logística mantém sua relevância no setor. Sua ampla aceitação regulatória e a inerente interpretabilidade de seus modelos justificam sua persistência como técnica de referência no setor financeiro (Bücker et al., 2020). O desafio contemporâneo reside em conciliar o poder preditivo de algoritmos mais complexos com a necessidade de transparência e interpretabilidade. Pesquisas recentes exploram ativamente combinações de técnicas ou estratégias híbridas para equilibrar esses objetivos (Dumitrescu et al., 2022).

Apesar dos progressos alcançados, ainda existem lacunas importantes na literatura e na prática das instituições financeiras. Muitos estudos tendem a focar em amostras específicas ou não abordam de forma aprofundada o impacto do tratamento de dados desbalanceados. Esta é uma característica recorrente em bases de dados de inadimplência, onde a classe majoritária é composta por clientes adimplentes, enquanto a classe minoritária (inadimplentes) é significativamente menor. A não consideração desse desbalanceamento pode levar a modelos enviesados, que privilegiam a classe majoritária e apresentam baixo poder de detecção de inadimplentes.

Diante desse cenário e das lacunas identificadas, este trabalho busca contribuir para o campo ao oferecer uma análise comparativa abrangente. Serão examinadas três técnicas de “machine learning” — regressão logística, árvores de decisão e “random forest” — explorando-se a performance e os impactos de diferentes estratégias de pré-processamento de dados, incluindo o tratamento do desbalanceamento. O objetivo geral deste estudo é analisar e comparar algoritmos de “machine learning” na previsão de inadimplência em operações de crédito.

2. Material e Métodos

A pesquisa caracterizou-se como um estudo de natureza aplicada, voltado para a solução de um problema prático. Adotou-se uma abordagem quantitativa, empregando técnicas supervisionadas de machine learning para analisar e comparar o desempenho de diferentes abordagens preditivas no reconhecimento de clientes com maior risco de inadimplência.

Para a elaboração do trabalho, utilizou-se a base de dados pública “Give me Some Credit” (Freshcorn, 2011), obtida diretamente do site. Este conjunto de dados é composto por aproximadamente 150.000 informações reais e anonimizadas, referentes a tomadores de crédito. As informações consistiam majoritariamente em variáveis que descrevem características comportamentais dos clientes.

Com o objetivo de facilitar o processamento e a análise, as variáveis foram renomeadas para a língua portuguesa. Adicionalmente, a coluna de índice foi removida, por ser considerada irrelevante para os propósitos da pesquisa.

As variáveis utilizadas no estudo incluíram ‘inadim_90_dias’, um indicador binário de inadimplência superior a 90 dias, onde 0 representava adimplentes e 1, inadimplentes. A variável ‘saldo_cartoes_credito_pessoal’ mensurou a proporção entre o saldo total em cartões de crédito e linhas de crédito pessoais, excluindo hipotecas e dívidas parceladas, em relação à soma dos limites de crédito disponíveis. Seus valores eram numéricos decimais, variando entre 0 e 50.708.

Outras variáveis numéricas inteiras foram ‘idade’ (entre 0 e 109), ‘qtd_atraso_30_59’ (número de atrasos entre 30 e 59 dias nos últimos 2 anos, entre 0 e 98), ‘qtd_emprestimos_abertos’ (quantidade de empréstimos e linhas de crédito em aberto, entre 0 e 58), ‘qtd_atraso_90_ou_mais’ (número de atrasos superiores a 90 dias, entre 0 e 98), ‘qtd_emprestimos_hip_imo’ (quantidade de empréstimos hipotecários e imobiliários, incluindo linhas de crédito de home equity, entre 0 e 54), ‘qtd_atraso_60_89’ (número de atrasos entre 60 e 89 dias, entre 0 e 98) e ‘qtd_dependentes’ (número de dependentes na família, entre 0 e 20).

Completaram o conjunto de dados as variáveis numéricas decimais ‘divida_mensal’, que representava pagamentos mensais de dívidas, pensão alimentícia e custos de vida divididos pela renda bruta mensal (entre 0 e 329.664), e ‘renda’, o valor da renda mensal (entre 0 e 3.008.750).

Previamente à aplicação dos modelos, realizou-se uma análise exploratória dos dados. Identificou-se a existência de valores ausentes nas variáveis ‘renda’, com 29.731 registros (19,82% dos dados), e ‘quantidade de dependentes’, com 3.924 registros (2,62% dos dados). Para verificar a associação da ausência de informação com a variável resposta, inadimplência, aplicou-se o teste de qui-quadrado, considerando a ausência/presença da variável como binária.

Diante dos resultados do teste de qui-quadrado, que indicaram que os dados ausentes apresentavam informações relevantes, avaliaram-se quatro estratégias de tratamento para os valores ausentes. As estratégias incluíram a exclusão dos registros incompletos, resultando em uma base com 120.269 registros; a imputação por mediana; a imputação via k vizinhos mais próximos (KNN); e a imputação interativa (MICE), que estimava os valores ausentes por meio de regressões sucessivas baseadas nas demais variáveis.

Cada versão da base de dados, após o tratamento de valores ausentes, foi utilizada na etapa de modelagem. Não se realizou categorização ou normalização de variáveis, pois as variáveis já se encontravam em escalas compatíveis com os métodos aplicados. Ao analisar a variável ‘inadim_90_dias’, identificou-se um desbalanceamento na distribuição, com 139.974 (93%) registros da classe adimplente e 10.026 (7%) registros da classe inadimplente.

Para mitigar o problema do desbalanceamento, avaliaram-se três estratégias: a ausência de balanceamento, para observar o desempenho natural dos algoritmos; o undersampling (subamostragem), que reduziu aleatoriamente a quantidade de registros da classe majoritária; e a técnica de superamostragem de minoria sintética (SMOTE), que gerou observações sintéticas da classe minoritária a partir de vizinhos próximos. A variável binária ‘inadim_90_dias’ foi utilizada como variável alvo para a previsão da inadimplência.

Optou-se pelo uso de métodos de classificação supervisionada, que consistem em treinar modelos a partir de exemplos rotulados para identificar padrões e associações entre variáveis preditoras e a variável alvo (Kotsiantis, 2007). Os algoritmos de machine learning selecionados para comparação foram a regressão logística, as árvores de decisão e o random forest.

Durante a fase de modelagem, a base de dados foi dividida em duas partes: 70% dos registros foram destinados ao treinamento dos algoritmos e 30% ao teste. Nas estratégias que utilizaram a base completa (150.000 registros), aproximadamente 105.000 foram para treinamento e 45.000 para teste. Na estratégia com exclusão de registros incompletos (120.269 registros), 84.188 foram para treinamento e 36.081 para teste.

A divisão entre as partes de treino e teste ocorreu de forma estratificada em relação à variável resposta, mantendo a proporção original entre adimplentes e inadimplentes em ambas as amostras. Este procedimento garantiu que os modelos fossem ajustados a partir de uma amostra representativa e avaliados em registros não utilizados no treinamento.

A regressão logística foi utilizada para prever a probabilidade de ocorrência de um evento, onde Y = 1 indicava a ocorrência do evento e Y = 0 a não ocorrência (Fávero e Belfiore, 2024). O modelo foi estruturado a partir de um vetor de variáveis explicativas, com seus respectivos parâmetros. As variáveis explicativas foram padronizadas por meio do ‘standard scaler’, garantindo média zero e desvio-padrão unitário, para evitar que diferenças de escala influenciassem na estimativa dos coeficientes.

Durante os ajustes do modelo de regressão logística, testaram-se as técnicas de regularização L1, L2 e elasticnet, que atuam como penalizações sobre os coeficientes. A definição dos hiperparâmetros foi realizada por meio do algoritmo ‘randomized search cv’, em conjunto com validação cruzada estratificada de 5 dobras. As combinações testadas incluíram diferentes intensidades de regularização (C: [0.01, 0.1, 1]), tipos de penalização (‘penalty’: [“l1”, “l2”, “elasticnet”]) e o solver ‘saga’, além do ‘l1_ratio’ para ‘elasticnet’.

As árvores de decisão representam um modelo hierárquico que inicia com um nó raiz, onde se realiza um teste sobre uma característica específica, seguindo por ramos até um nó folha que representa uma classificação ou decisão final (Carvalho, 2015). Este modelo segmenta os dados por meio de perguntas binárias sobre as variáveis explicativas (Grus, 2021).

A otimização da performance do modelo de árvore de decisão buscou-se pela escolha dos melhores parâmetros, utilizando a técnica ‘grid search cv’. Esta técnica permitiu testar diferentes combinações de hiperparâmetros e selecionar os mais adequados, variando conforme a estratégia de tratamento dos dados, como padronização, balanceamento e imputação.

O random forest é um método de classificação supervisionada baseado no conceito de ‘ensemble learning’, que constrói múltiplas árvores de decisão de forma independente e combina suas previsões para obter uma previsão mais robusta (Breiman, 2001). No desenvolvimento do modelo random forest, buscou-se otimizar a performance por meio da exploração de diferentes combinações de hiperparâmetros, utilizando a técnica ‘randomized search cv’.

Para garantir uma avaliação abrangente e confiável do desempenho dos modelos na previsão da inadimplência, utilizaram-se diversas métricas de avaliação obtidas a partir do conjunto de teste. As métricas consideradas incluíram a área sob a curva ROC (AUC-ROC), a área sob a curva precisão-sensibilidade (AUC-PR), o índice de Gini, a acurácia, a precisão, a sensibilidade (‘recall’), o F1-score, o Coeficiente de Correlação de Matthews (MCC) e o ‘brier score’.

A AUC-ROC e o índice de Gini foram empregados para medir a capacidade de discriminação entre as classes. A AUC-PR foi considerada especialmente útil em cenários de classes desbalanceadas. A acurácia indicou a proporção total de acertos, a precisão a exatidão das previsões positivas, e a sensibilidade a capacidade de capturar os inadimplentes reais. O F1-score resumiu o equilíbrio entre precisão e sensibilidade, enquanto o MCC forneceu uma medida robusta. O ‘brier score’ avaliou a calibração das probabilidades previstas.

Para converter as probabilidades previstas pelos modelos em classificações binárias (inadimplente/adimplente), adotou-se o ponto de corte (‘cutoff’) de 0,5. Este valor corresponde ao ponto de corte padrão implementado na biblioteca ‘scikit-learn’ e foi mantido em todas as análises principais, possibilitando a comparabilidade entre as diferentes métricas de desempenho dos modelos.

3. Resultados e Discussão

Os resultados obtidos ao longo da pesquisa permitiram uma comparação aprofundada de diferentes métodos de aprendizado de máquina aplicados à previsão de inadimplência em operações de crédito. Foram testados três modelos principais – regressão logística, árvore de decisão e “random forest” – sob diversas estratégias de tratamento de valores ausentes e de balanceamento de classes. As análises foram conduzidas utilizando um conjunto abrangente de métricas, incluindo AUC-ROC, AUC-PR, acurácia, precisão, sensibilidade, F1-score, coeficiente de Matthews (MCC) e “brier score”, que permitiram uma avaliação multifacetada do desempenho dos modelos, considerando tanto a capacidade discriminativa quanto a calibração das probabilidades.

Durante a aplicação da regressão logística, o teste z com nível de significância de 5% revelou que algumas variáveis apresentaram baixa significância estatística em determinados contextos. Notavelmente, o saldo em cartões de crédito mostrou-se insignificante em nove estratégias, com p-valores variando entre 0,08 e 0,74. O número de empréstimos abertos também não foi significante quando a exclusão de dados ausentes foi aplicada, e o atraso de 60-89 dias perdeu significância com técnicas de balanceamento por SMOTE combinadas com imputação por mediana e KNN. Esses achados sugerem que a relevância explicativa dessas variáveis pode ser limitada em certos cenários, exigindo cautela na interpretação dos coeficientes (Hosmer et al., 2013; Fávero e Belfiore, 2017).

Em relação ao desempenho da regressão logística, a análise demonstrou que o regulador L2 (“ridge”) foi consistentemente selecionado como a melhor configuração, o que se alinha à sua robustez frente à multicolinearidade, conforme destacado por Hastie et al. (2009). Em um cenário específico, a combinação de exclusão de ausentes com SMOTE apresentou melhor desempenho com a regularização “elasticnet”, corroborando as observações de Zou e Hastie (2005) sobre a flexibilidade dessa técnica em bases com variáveis correlacionadas. Essa adaptabilidade da regressão logística a diferentes estratégias de pré-processamento ressalta sua versatilidade, embora a interpretabilidade dos coeficientes deva ser ponderada em conjunto com o desempenho preditivo global.

Os testes realizados com a regressão logística indicaram que a estratégia de exclusão de registros com valores ausentes, associada à ausência de balanceamento ou ao “undersampling”, produziu os melhores resultados globais. Nesse cenário, o modelo alcançou um AUC-ROC de 0,803, AUC-PR de 0,332, acurácia de 0,828, precisão de 0,228, sensibilidade de 0,627, F1-score de 0,335, MCC de 0,304 e “brier score” de 0,173. As estratégias de imputação por mediana, KNN e MICE apresentaram desempenho muito próximo, com AUC-ROC em torno de 0,800, acurácia entre 0,776 e 0,805, e sensibilidade entre 0,642 e 0,659. Isso sugere que a forma de tratar os valores ausentes teve um impacto relativamente menor no desempenho geral do modelo em comparação com outras decisões de modelagem.

O uso de SMOTE com a regressão logística, embora tenha aumentado a sensibilidade em alguns cenários, resultou em uma diminuição de outras métricas globais, como AUC-ROC (0,755), acurácia (0,698) e precisão (0,141), além de uma piora no “brier score” (0,204). Contudo, entre as combinações com SMOTE, a imputação iterativa MICE se destacou, apresentando um AUC-ROC de 0,803 e um “brier score” de 0,168, o melhor do conjunto para essa técnica, com F1-score de 0,280 e precisão de 0,201. Isso demonstra que, ao combinar a imputação iterativa com SMOTE, houve melhora na calibragem e na discriminação, mas com perdas em precisão e acurácia, evidenciando um “trade-off” inerente à otimização de diferentes métricas.

A comparação entre as abordagens da regressão logística revelou que a escolha da melhor estratégia depende diretamente do critério de avaliação. A exclusão de ausentes sem balanceamento ou o uso de “undersampling” favoreceu o desempenho global e o equilíbrio das métricas. Por outro lado, a combinação de imputação iterativa e SMOTE pode ser preferível em cenários onde a redução de falsos negativos é prioritária, oferecendo maior proteção contra inadimplência e potenciais perdas financeiras. Essa distinção é crucial para as instituições financeiras, que precisam alinhar a escolha do modelo aos seus objetivos estratégicos, ponderando entre a detecção de inadimplentes e a minimização de falsos positivos.

Na aplicação do modelo de árvore de decisão, sem a utilização de técnicas de balanceamento, observou-se uma elevada acurácia de 0,933 e um AUC-ROC de 0,846. Contudo, a sensibilidade foi nula, indicando que o modelo praticamente não identificou clientes inadimplentes. Esse comportamento, que privilegia a classe majoritária (adimplentes), é amplamente documentado na literatura sobre dados desbalanceados (Breiman et al., 1984). A transparência e a fácil interpretabilidade das árvores de decisão (Grus, 2021) são vantagens, mas a incapacidade de lidar com o desbalanceamento sem pré-processamento adequado limita sua aplicabilidade direta em problemas de previsão de inadimplência.

O uso de SMOTE com a árvore de decisão trouxe ganhos relevantes, com a sensibilidade atingindo cerca de 0,30, além de melhorias nas métricas F1 (aproximadamente 0,37) e MCC (aproximadamente 0,35), embora com uma leve redução na acurácia e no AUC-ROC. Entre as combinações testadas, a imputação pela mediana associada ao SMOTE apresentou o melhor desempenho global para a árvore de decisão, com AUC-ROC de 0,836, F1-score de 0,372, MCC de 0,348 e “brier score” de 0,057. Essa configuração demonstrou um equilíbrio satisfatório entre discriminação, robustez estatística e calibragem adequada, evidenciando a importância do tratamento do desbalanceamento para este tipo de modelo.

Por sua vez, o “undersampling” resultou nos maiores valores de sensibilidade para a árvore de decisão, atingindo aproximadamente 0,77, o que indica uma capacidade significativamente maior de identificação de inadimplentes. No entanto, esse ganho ocorreu ao custo de uma queda expressiva na acurácia, que ficou em torno de 0,77, e uma pior calibração do modelo, com o “brier score” acima de 0,15. Esse “trade-off” é consistente com estudos que demonstram que o “undersampling” pode reduzir o viés para a classe majoritária, mas ao custo de descartar informações relevantes da base de dados (He e Garcia, 2009), comprometendo a robustez da solução geral.

No caso do “random forest”, os resultados apresentaram notável estabilidade em termos de AUC-ROC (aproximadamente 0,86) e AUC-PR (aproximadamente 0,37) em todas as combinações testadas, evidenciando uma boa capacidade de discriminação entre clientes adimplentes e inadimplentes. Essa estabilidade é uma característica esperada de modelos de “ensemble learning”, que combinam múltiplas árvores de decisão para obter previsões mais robustas e reduzir a variância (Breiman, 2001). Contudo, a escolha da técnica de balanceamento mostrou-se determinante para o desempenho específico do modelo em diferentes métricas.

No critério de desempenho global para o “random forest”, a ausência de balanceamento dos dados, combinada com a imputação por mediana, destacou-se com AUC-ROC de 0,861, AUC-PR de 0,384, MCC de 0,342 e “brier score” de 0,126. Resultados muito próximos foram observados com o uso de KNN e MICE para imputação, sugerindo que a ausência de balanceamento, quando combinada com técnicas robustas de imputação, tende a preservar tanto a discriminação quanto a calibragem do modelo. Isso indica que, para um desempenho geral equilibrado, a complexidade do “random forest” pode lidar melhor com o desbalanceamento natural dos dados sem a necessidade de intervenções adicionais de balanceamento.

Quando o objetivo foi minimizar falsos negativos com o “random forest”, a estratégia de imputação por mediana combinada com “undersampling” foi a mais eficaz, alcançando a maior sensibilidade (0,795) e um AUC-ROC de 0,864. No entanto, esse ganho de sensibilidade ocorreu ao custo de quedas na acurácia (0,777), precisão (0,203) e calibragem (“brier score” de 0,147). Por outro lado, estratégias com SMOTE, especialmente combinadas com MICE, maximizaram a acurácia (até 0,935) e a precisão (aproximadamente 0,52), além de apresentarem o menor “brier score” (aproximadamente 0,053), mas reduziram drasticamente a sensibilidade (aproximadamente 0,26), comprometendo a identificação de clientes inadimplentes.

A comparação entre os algoritmos selecionados como melhores modelos em termos de desempenho global priorizou a métrica AUC-PR, que é especialmente relevante em contextos de forte desbalanceamento de classes, como na previsão de inadimplência. O “random forest” com imputação por mediana e sem balanceamento obteve o melhor AUC-PR de 0,384, seguido pela árvore de decisão com imputação por mediana e SMOTE (0,341), e pela regressão logística com exclusão de ausentes e sem balanceamento ou “undersampling” (0,332). Essa hierarquia sugere que o “random forest” oferece um equilíbrio superior entre a capacidade discriminativa e a calibração em cenários de dados desbalanceados.

Analisando a sensibilidade dos algoritmos que se destacaram na minimização de falsos negativos, o “random forest” com imputação por mediana e “undersampling” obteve a maior sensibilidade de 0,795. A árvore de decisão com exclusão de ausentes e “undersampling” alcançou 0,779, enquanto a regressão logística com exclusão de ausentes e SMOTE atingiu 0,670. Esses resultados reforçam o “trade-off” clássico: modelos que priorizam a sensibilidade para reduzir falsos negativos tendem a incorrer em maiores custos em termos de precisão e calibração, o que tem implicações financeiras diretas para as instituições (Xia et al., 2022).

Os achados do estudo convergem com a literatura recente, que reforça o desempenho superior de métodos baseados em árvores, como “random forest”, em termos de discriminação e robustez (Xia et al., 2022). Modelos de “ensemble”, especialmente o “random forest”, demonstram desempenho mais estável e equilibrado (Isidoros e Arcozzi, 2024), o que corrobora a indicação deste algoritmo como o mais consistente em termos de discriminação e calibração. No entanto, divergiram parcialmente de estudos anteriores quanto ao impacto do SMOTE, que não se mostrou universalmente vantajoso em termos de desempenho global, reforçando que a eficácia dessas técnicas depende do contexto e da estrutura dos dados utilizados.

Em síntese, os resultados demonstraram que não existe um modelo universalmente superior para a previsão de inadimplência, mas sim “trade-offs” relevantes entre desempenho estatístico, interpretabilidade e impacto operacional. A regressão logística manteve-se competitiva e transparente, reforçando seu papel de referência histórica no *credit scoring*. As árvores de decisão, embora mais suscetíveis ao desbalanceamento, mostraram ganhos relevantes com técnicas de reamostragem. O “random forest” destacou-se como o modelo mais robusto, apresentando maior estabilidade e equilíbrio entre discriminação, calibração e sensibilidade, além de alcançar os melhores desempenhos globais, especialmente quando o objetivo é a proteção contra inadimplência.

4. Conclusão

O presente estudo buscou analisar e comparar algoritmos de machine learning na previsão de inadimplência em operações de crédito, avaliando regressão logística, árvore de decisão e random forest sob diferentes estratégias de tratamento de valores ausentes e balanceamento de classes. Verificou-se que a regressão logística demonstrou desempenho consistente e maior interpretabilidade, com a exclusão de ausentes e ausência de balanceamento ou undersampling produzindo os melhores resultados globais. A árvore de decisão, embora sensível ao desbalanceamento, apresentou ganhos significativos na detecção de inadimplentes quando associada a técnicas de reamostragem, como SMOTE, que elevou a sensibilidade. Contudo, o modelo random forest destacou-se como o mais robusto, exibindo maior estabilidade e equilíbrio entre discriminação e calibração em todas as combinações testadas, alcançando os melhores desempenhos globais, especialmente com imputação por mediana e sem balanceamento. Observou-se que o tratamento do desbalanceamento impactou significativamente os resultados, especialmente na melhoria da sensibilidade, evidenciando a necessidade de alinhar a escolha do modelo e das técnicas de pré-processamento aos objetivos estratégicos da instituição, considerando os custos financeiros associados a erros de classificação.

A principal contribuição deste trabalho reside na análise comparativa abrangente que explicita os trade-offs entre desempenho estatístico, interpretabilidade e impacto operacional dos algoritmos, fornecendo subsídios para a tomada de decisão em instituições financeiras. No entanto, o estudo possui limitações, como o uso de uma única base de dados de clientes dos Estados Unidos, o que restringe a generalização direta dos resultados para o contexto brasileiro, e a não exploração de algoritmos mais recentes, como gradient boosting e redes neurais profundas. Para estudos futuros, recomenda-se ampliar a análise para diferentes bases de crédito, explorar modelos adicionais e incorporar métricas financeiras de custo de erro, a fim de quantificar diretamente os impactos econômicos das decisões de concessão de crédito.

Referências Bibliográficas

Aniceto, G.F.; Barboza, F.L.C.; Kimura, H. 2020. Credit risk analysis using machine learning classifiers. Brazilian Review of Finance 18(4): 1–28. Disponível em: https://bibliotecadigital.fgv.br/ojs/index.php/rbfin/article/view/84034. Acesso em: 27 set. 2025.

Baesens, B.; Roesch, D.; Scheule, H. 2016. Credit risk analytics: measurement techniques, applications and examples in SAS. John Wiley & Sons, Hoboken, NJ, EUA.

Breiman, L. 1984. Classification and regression trees. Chapman & Hall/CRC, Boca Raton, FL, EUA.

Breiman, L. 2001. Random forests. Machine Learning 45(1): 5-32.

Bücker, M.; Szepannek, G.; Gosiewska, A.; Biecek, P. 2020. Transparency, auditability and explainability of machine learning models in credit scoring. Journal of the Operational Research Society 71(8): 1281–1290.

Carvalho, J.R. 2015. Análise de risco de crédito: fundamentos, metodologias e aplicações. Atlas, São Paulo, SP, Brasil.

Dumitrescu, E.; Hué, S.; Hurlin, C.; Tokpavi, S. 2022. Machine learning for credit scoring: improving logistic regression with non-linear decision-tree effects. European Journal of Operational Research 297(3): 1178–1192.

Freshcorn, B. 2011. Give Me Some Credit: 2011 Competition Data. Disponível em: https://www.kaggle.com/datasets/brycecf/give-me-some-credit-dataset. Acesso em: 15 jun. 2025.

Fávero, L.P.; Belfiore, P.P. 2017. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Elsevier, Rio de Janeiro, RJ, Brasil.

Fávero, L.P.; Belfiore, P.P. 2024. Análise de dados: técnicas multivariadas exploratórias e confirmatórias. Elsevier, Rio de Janeiro, RJ, Brasil.

Grus, J. 2021. Data science do zero: noções fundamentais com Python. 2ed. Alta Books, Rio de Janeiro, RJ, Brasil.

Hastie, T.; Tibshirani, R.; Friedman, J. 2009. The elements of statistical learning: data mining, inference, and prediction. 2ed. Springer, New York, NY, EUA.

He, H.; Garcia, E. A. 2009. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering 21(9): 1263-1284.

Hosmer, D.W.; Lemeshow, S.; Sturdivant, R.X. 2013. Applied logistic regression. 3ed. John Wiley & Sons, Hoboken, NJ, EUA.

ISIDOROS, I.; ARCOZZI, N. Improved convergence rates for some kernel random forest algorithms. Mathematics in Engineering, AIMS Press, 2024. DOI: https://doi.org/10.3934/mine.2024013. Acesso em: 20 set. 2025.

Kotsiantis, S.B. 2007. Supervised machine learning: a review of classification techniques. Informatica 31(3): 249–268.

Lessmann, S.; Baesens, B.; Seow, H.V.; Thomas, L.C. 2015. Benchmarking state-of-the-art classification algorithms for credit scoring: an update of research. European Journal of Operational Research 247(1): 124–136.

Pinto, R.S.; Ywata, A.; Tessmann, R.H.; Lima, F. 2024. Are machine learning models more effective than logistic regressions in predicting bank credit risk? An assessment of the Brazilian financial markets. International Journal of Monetary Economics and Finance 17(1): 1-22. Disponível em: https://doi.org/10.1504/IJMEF.2024.137545. Acesso em: 20 set. 2025.

Xia, Y.; Zhang, C.; Li, Y.; Chen, W. 2022. A comparative study of credit scoring models. Knowledge-Based Systems 235: 107629.

Zou, H.; Hastie, T. 2005. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 67(2): 301–320.

Artigo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade