Artigo

11 de junho de 2026

Previsão de inadimplência em crédito com técnicas de Machine Learning

Luciane Berger da Silva; Daniel Alvarez Firmino

DOI: 10.22167/2675-6528-2026M01

Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Resumo

A previsão da inadimplência representa um dos maiores desafios para instituições financeiras, diretamente ligada ao controle de riscos e à sustentabilidade das operações de crédito. O estudo teve como objetivo desenvolver, avaliar e comparar diferentes técnicas de aprendizado supervisionado aplicadas à previsão de inadimplência. Foram considerados três modelos amplamente utilizados na literatura: regressão logística, árvore de decisão e “random forest”. A base de dados utilizada foi pública, composta por informações financeiras e socioeconômicas de clientes, e apresentou elevado desbalanceamento entre classes. Os modelos foram avaliados por métricas de desempenho discriminativo e de calibração, incluindo sensibilidade, acurácia, precisão, AUC-ROC, estatística de gini e brier score. Os resultados indicaram que a regressão logística apresentou desempenho consistente e maior interpretabilidade. A árvore de decisão destacou-se na detecção de inadimplentes quando associada a estratégias de balanceamento, embora com menor estabilidade. O modelo de “random forest” alcançou o melhor equilíbrio geral entre discriminação e calibração. Observou-se também que o tratamento do desbalanceamento teve impacto significativo nos resultados, especialmente na melhoria da sensibilidade. Esses achados evidenciaram a importância de alinhar a escolha do modelo e das técnicas de pré-processamento aos objetivos estratégicos da instituição, considerando os custos financeiros associados a erros de classificação.

Palavras-chave: Algoritmos Preditivos; Aprendizado de Máquina; Gestão de Risco; Risco de Crédito.

1. Introdução

O crédito é um motor fundamental da economia global, impulsionando o crescimento e a inovação em diversos setores. Ele permite a consumidores adquirir bens significativos, como veículos e imóveis, e capacita empreendedores a expandir seus negócios e investir em inovações. Contudo, a concessão de crédito envolve um desafio central para as instituições financeiras: a necessidade de garantir que os recursos sejam direcionados a indivíduos e empresas com alta probabilidade de honrar seus compromissos. A inadimplência, caracterizada pela falta de pagamento ou pelo não cumprimento das obrigações contratuais, representa um risco significativo para a estabilidade financeira (Baesens et al., 2016).

A dificuldade em identificar proativamente clientes com maior propensão à inadimplência impulsiona a busca por métodos mais eficazes de avaliação de risco. Nesse contexto, instituições financeiras têm adotado crescentemente ferramentas de análise preditiva. Essas ferramentas utilizam dados históricos e variáveis socioeconômicas para identificar padrões de risco, permitindo uma avaliação mais precisa da capacidade de pagamento dos tomadores de crédito. Tal abordagem favorece a implementação antecipada de medidas preventivas, como a revisão de limites de crédito, o ajuste das taxas de juros ou a recusa de operações consideradas de alto risco, contribuindo para a mitigação de perdas (Lessmann et al., 2015; Pinto et al., 2024).

Nos últimos anos, a literatura sobre risco de crédito tem testemunhado uma evolução notável com a aplicação de algoritmos de aprendizado de máquina. Essa transição visa superar as limitações da regressão logística, que, embora tradicionalmente predominante no credit scoring, pode ter dificuldades em capturar relações complexas e não lineares presentes em grandes volumes de dados. Estudos indicam que métodos baseados em árvores, como “random forest”, “bagging” e “boosting”, demonstram frequentemente ganhos de desempenho na previsão de inadimplência, especialmente ao lidar com interações não lineares e dados de alta dimensionalidade (Aniceto et al., 2020).

Apesar dos avanços do aprendizado de máquina, a regressão logística mantém sua relevância no setor. Sua ampla aceitação regulatória e a inerente interpretabilidade de seus modelos justificam sua persistência como técnica de referência no setor financeiro (Bücker et al., 2020). O desafio contemporâneo reside em conciliar o poder preditivo de algoritmos mais complexos com a necessidade de transparência e interpretabilidade. Pesquisas recentes exploram ativamente combinações de técnicas ou estratégias híbridas para equilibrar esses objetivos (Dumitrescu et al., 2022).

Apesar dos progressos alcançados, ainda existem lacunas importantes na literatura e na prática das instituições financeiras. Muitos estudos tendem a focar em amostras específicas ou não abordam de forma aprofundada o impacto do tratamento de dados desbalanceados. Esta é uma característica recorrente em bases de dados de inadimplência, onde a classe majoritária é composta por clientes adimplentes, enquanto a classe minoritária (inadimplentes) é significativamente menor. A não consideração desse desbalanceamento pode levar a modelos enviesados, que privilegiam a classe majoritária e apresentam baixo poder de detecção de inadimplentes.

Diante desse cenário e das lacunas identificadas, este trabalho busca contribuir para o campo ao oferecer uma análise comparativa abrangente. Serão examinadas três técnicas de “machine learning” — regressão logística, árvores de decisão e “random forest” — explorando-se a performance e os impactos de diferentes estratégias de pré-processamento de dados, incluindo o tratamento do desbalanceamento. O objetivo geral deste estudo é analisar e comparar algoritmos de “machine learning” na previsão de inadimplência em operações de crédito.

2. Material e Métodos

A pesquisa caracterizou-se como um estudo de natureza aplicada, voltado para a solução de um problema prático. Adotou-se uma abordagem quantitativa, empregando técnicas supervisionadas de machine learning para analisar e comparar o desempenho de diferentes abordagens preditivas no reconhecimento de clientes com maior risco de inadimplência.

Para a elaboração do trabalho, utilizou-se a base de dados pública “Give me Some Credit” (Freshcorn, 2011), obtida diretamente do site. Este conjunto de dados é composto por aproximadamente 150.000 informações reais e anonimizadas, referentes a tomadores de crédito. As informações consistiam majoritariamente em variáveis que descrevem características comportamentais dos clientes.

Com o objetivo de facilitar o processamento e a análise, as variáveis foram renomeadas para a língua portuguesa. Adicionalmente, a coluna de índice foi removida, por ser considerada irrelevante para os propósitos da pesquisa.

As variáveis utilizadas no estudo incluíram ‘inadim_90_dias’, um indicador binário de inadimplência superior a 90 dias, onde 0 representava adimplentes e 1, inadimplentes. A variável ‘saldo_cartoes_credito_pessoal’ mensurou a proporção entre o saldo total em cartões de crédito e linhas de crédito pessoais, excluindo hipotecas e dívidas parceladas, em relação à soma dos limites de crédito disponíveis. Seus valores eram numéricos decimais, variando entre 0 e 50.708.

Outras variáveis numéricas inteiras foram ‘idade’ (entre 0 e 109), ‘qtd_atraso_30_59’ (número de atrasos entre 30 e 59 dias nos últimos 2 anos, entre 0 e 98), ‘qtd_emprestimos_abertos’ (quantidade de empréstimos e linhas de crédito em aberto, entre 0 e 58), ‘qtd_atraso_90_ou_mais’ (número de atrasos superiores a 90 dias, entre 0 e 98), ‘qtd_emprestimos_hip_imo’ (quantidade de empréstimos hipotecários e imobiliários, incluindo linhas de crédito de home equity, entre 0 e 54), ‘qtd_atraso_60_89’ (número de atrasos entre 60 e 89 dias, entre 0 e 98) e ‘qtd_dependentes’ (número de dependentes na família, entre 0 e 20).

Completaram o conjunto de dados as variáveis numéricas decimais ‘divida_mensal’, que representava pagamentos mensais de dívidas, pensão alimentícia e custos de vida divididos pela renda bruta mensal (entre 0 e 329.664), e ‘renda’, o valor da renda mensal (entre 0 e 3.008.750).

Previamente à aplicação dos modelos, realizou-se uma análise exploratória dos dados. Identificou-se a existência de valores ausentes nas variáveis ‘renda’, com 29.731 registros (19,82% dos dados), e ‘quantidade de dependentes’, com 3.924 registros (2,62% dos dados). Para verificar a associação da ausência de informação com a variável resposta, inadimplência, aplicou-se o teste de qui-quadrado, considerando a ausência/presença da variável como binária.

Diante dos resultados do teste de qui-quadrado, que indicaram que os dados ausentes apresentavam informações relevantes, avaliaram-se quatro estratégias de tratamento para os valores ausentes. As estratégias incluíram a exclusão dos registros incompletos, resultando em uma base com 120.269 registros; a imputação por mediana; a imputação via k vizinhos mais próximos (KNN); e a imputação interativa (MICE), que estimava os valores ausentes por meio de regressões sucessivas baseadas nas demais variáveis.

Cada versão da base de dados, após o tratamento de valores ausentes, foi utilizada na etapa de modelagem. Não se realizou categorização ou normalização de variáveis, pois as variáveis já se encontravam em escalas compatíveis com os métodos aplicados. Ao analisar a variável ‘inadim_90_dias’, identificou-se um desbalanceamento na distribuição, com 139.974 (93%) registros da classe adimplente e 10.026 (7%) registros da classe inadimplente.

Para mitigar o problema do desbalanceamento, avaliaram-se três estratégias: a ausência de balanceamento, para observar o desempenho natural dos algoritmos; o undersampling (subamostragem), que reduziu aleatoriamente a quantidade de registros da classe majoritária; e a técnica de superamostragem de minoria sintética (SMOTE), que gerou observações sintéticas da classe minoritária a partir de vizinhos próximos. A variável binária ‘inadim_90_dias’ foi utilizada como variável alvo para a previsão da inadimplência.

Optou-se pelo uso de métodos de classificação supervisionada, que consistem em treinar modelos a partir de exemplos rotulados para identificar padrões e associações entre variáveis preditoras e a variável alvo (Kotsiantis, 2007). Os algoritmos de machine learning selecionados para comparação foram a regressão logística, as árvores de decisão e o random forest.

Durante a fase de modelagem, a base de dados foi dividida em duas partes: 70% dos registros foram destinados ao treinamento dos algoritmos e 30% ao teste. Nas estratégias que utilizaram a base completa (150.000 registros), aproximadamente 105.000 foram para treinamento e 45.000 para teste. Na estratégia com exclusão de registros incompletos (120.269 registros), 84.188 foram para treinamento e 36.081 para teste.

A divisão entre as partes de treino e teste ocorreu de forma estratificada em relação à variável resposta, mantendo a proporção original entre adimplentes e inadimplentes em ambas as amostras. Este procedimento garantiu que os modelos fossem ajustados a partir de uma amostra representativa e avaliados em registros não utilizados no treinamento.

A regressão logística foi utilizada para prever a probabilidade de ocorrência de um evento, onde Y = 1 indicava a ocorrência do evento e Y = 0 a não ocorrência (Fávero e Belfiore, 2024). O modelo foi estruturado a partir de um vetor de variáveis explicativas, com seus respectivos parâmetros. As variáveis explicativas foram padronizadas por meio do ‘standard scaler’, garantindo média zero e desvio-padrão unitário, para evitar que diferenças de escala influenciassem na estimativa dos coeficientes.

Durante os ajustes do modelo de regressão logística, testaram-se as técnicas de regularização L1, L2 e elasticnet, que atuam como penalizações sobre os coeficientes. A definição dos hiperparâmetros foi realizada por meio do algoritmo ‘randomized search cv’, em conjunto com validação cruzada estratificada de 5 dobras. As combinações testadas incluíram diferentes intensidades de regularização (C: [0.01, 0.1, 1]), tipos de penalização (‘penalty’: [“l1”, “l2”, “elasticnet”]) e o solver ‘saga’, além do ‘l1_ratio’ para ‘elasticnet’.

As árvores de decisão representam um modelo hierárquico que inicia com um nó raiz, onde se realiza um teste sobre uma característica específica, seguindo por ramos até um nó folha que representa uma classificação ou decisão final (Carvalho, 2015). Este modelo segmenta os dados por meio de perguntas binárias sobre as variáveis explicativas (Grus, 2021).

A otimização da performance do modelo de árvore de decisão buscou-se pela escolha dos melhores parâmetros, utilizando a técnica ‘grid search cv’. Esta técnica permitiu testar diferentes combinações de hiperparâmetros e selecionar os mais adequados, variando conforme a estratégia de tratamento dos dados, como padronização, balanceamento e imputação.

O random forest é um método de classificação supervisionada baseado no conceito de ‘ensemble learning’, que constrói múltiplas árvores de decisão de forma independente e combina suas previsões para obter uma previsão mais robusta (Breiman, 2001). No desenvolvimento do modelo random forest, buscou-se otimizar a performance por meio da exploração de diferentes combinações de hiperparâmetros, utilizando a técnica ‘randomized search cv’.

Para garantir uma avaliação abrangente e confiável do desempenho dos modelos na previsão da inadimplência, utilizaram-se diversas métricas de avaliação obtidas a partir do conjunto de teste. As métricas consideradas incluíram a área sob a curva ROC (AUC-ROC), a área sob a curva precisão-sensibilidade (AUC-PR), o índice de Gini, a acurácia, a precisão, a sensibilidade (‘recall’), o F1-score, o Coeficiente de Correlação de Matthews (MCC) e o ‘brier score’.

A AUC-ROC e o índice de Gini foram empregados para medir a capacidade de discriminação entre as classes. A AUC-PR foi considerada especialmente útil em cenários de classes desbalanceadas. A acurácia indicou a proporção total de acertos, a precisão a exatidão das previsões positivas, e a sensibilidade a capacidade de capturar os inadimplentes reais. O F1-score resumiu o equilíbrio entre precisão e sensibilidade, enquanto o MCC forneceu uma medida robusta. O ‘brier score’ avaliou a calibração das probabilidades previstas.

Para converter as probabilidades previstas pelos modelos em classificações binárias (inadimplente/adimplente), adotou-se o ponto de corte (‘cutoff’) de 0,5. Este valor corresponde ao ponto de corte padrão implementado na biblioteca ‘scikit-learn’ e foi mantido em todas as análises principais, possibilitando a comparabilidade entre as diferentes métricas de desempenho dos modelos.

3. Resultados e Discussão

Os resultados obtidos ao longo da pesquisa permitiram uma comparação aprofundada de diferentes métodos de aprendizado de máquina aplicados à previsão de inadimplência em operações de crédito. Foram testados três modelos principais – regressão logística, árvore de decisão e “random forest” – sob diversas estratégias de tratamento de valores ausentes e de balanceamento de classes. As análises foram conduzidas utilizando um conjunto abrangente de métricas, incluindo AUC-ROC, AUC-PR, acurácia, precisão, sensibilidade, F1-score, coeficiente de Matthews (MCC) e “brier score”, que permitiram uma avaliação multifacetada do desempenho dos modelos, considerando tanto a capacidade discriminativa quanto a calibração das probabilidades.

Durante a aplicação da regressão logística, o teste z com nível de significância de 5% revelou que algumas variáveis apresentaram baixa significância estatística em determinados contextos. Notavelmente, o saldo em cartões de crédito mostrou-se insignificante em nove estratégias, com p-valores variando entre 0,08 e 0,74. O número de empréstimos abertos também não foi significante quando a exclusão de dados ausentes foi aplicada, e o atraso de 60-89 dias perdeu significância com técnicas de balanceamento por SMOTE combinadas com imputação por mediana e KNN. Esses achados sugerem que a relevância explicativa dessas variáveis pode ser limitada em certos cenários, exigindo cautela na interpretação dos coeficientes (Hosmer et al., 2013; Fávero e Belfiore, 2017).

Em relação ao desempenho da regressão logística, a análise demonstrou que o regulador L2 (“ridge”) foi consistentemente selecionado como a melhor configuração, o que se alinha à sua robustez frente à multicolinearidade, conforme destacado por Hastie et al. (2009). Em um cenário específico, a combinação de exclusão de ausentes com SMOTE apresentou melhor desempenho com a regularização “elasticnet”, corroborando as observações de Zou e Hastie (2005) sobre a flexibilidade dessa técnica em bases com variáveis correlacionadas. Essa adaptabilidade da regressão logística a diferentes estratégias de pré-processamento ressalta sua versatilidade, embora a interpretabilidade dos coeficientes deva ser ponderada em conjunto com o desempenho preditivo global.

Os testes realizados com a regressão logística indicaram que a estratégia de exclusão de registros com valores ausentes, associada à ausência de balanceamento ou ao “undersampling”, produziu os melhores resultados globais. Nesse cenário, o modelo alcançou um AUC-ROC de 0,803, AUC-PR de 0,332, acurácia de 0,828, precisão de 0,228, sensibilidade de 0,627, F1-score de 0,335, MCC de 0,304 e “brier score” de 0,173. As estratégias de imputação por mediana, KNN e MICE apresentaram desempenho muito próximo, com AUC-ROC em torno de 0,800, acurácia entre 0,776 e 0,805, e sensibilidade entre 0,642 e 0,659. Isso sugere que a forma de tratar os valores ausentes teve um impacto relativamente menor no desempenho geral do modelo em comparação com outras decisões de modelagem.

O uso de SMOTE com a regressão logística, embora tenha aumentado a sensibilidade em alguns cenários, resultou em uma diminuição de outras métricas globais, como AUC-ROC (0,755), acurácia (0,698) e precisão (0,141), além de uma piora no “brier score” (0,204). Contudo, entre as combinações com SMOTE, a imputação iterativa MICE se destacou, apresentando um AUC-ROC de 0,803 e um “brier score” de 0,168, o melhor do conjunto para essa técnica, com F1-score de 0,280 e precisão de 0,201. Isso demonstra que, ao combinar a imputação iterativa com SMOTE, houve melhora na calibragem e na discriminação, mas com perdas em precisão e acurácia, evidenciando um “trade-off” inerente à otimização de diferentes métricas.

A comparação entre as abordagens da regressão logística revelou que a escolha da melhor estratégia depende diretamente do critério de avaliação. A exclusão de ausentes sem balanceamento ou o uso de “undersampling” favoreceu o desempenho global e o equilíbrio das métricas. Por outro lado, a combinação de imputação iterativa e SMOTE pode ser preferível em cenários onde a redução de falsos negativos é prioritária, oferecendo maior proteção contra inadimplência e potenciais perdas financeiras. Essa distinção é crucial para as instituições financeiras, que precisam alinhar a escolha do modelo aos seus objetivos estratégicos, ponderando entre a detecção de inadimplentes e a minimização de falsos positivos.

Na aplicação do modelo de árvore de decisão, sem a utilização de técnicas de balanceamento, observou-se uma elevada acurácia de 0,933 e um AUC-ROC de 0,846. Contudo, a sensibilidade foi nula, indicando que o modelo praticamente não identificou clientes inadimplentes. Esse comportamento, que privilegia a classe majoritária (adimplentes), é amplamente documentado na literatura sobre dados desbalanceados (Breiman et al., 1984). A transparência e a fácil interpretabilidade das árvores de decisão (Grus, 2021) são vantagens, mas a incapacidade de lidar com o desbalanceamento sem pré-processamento adequado limita sua aplicabilidade direta em problemas de previsão de inadimplência.

O uso de SMOTE com a árvore de decisão trouxe ganhos relevantes, com a sensibilidade atingindo cerca de 0,30, além de melhorias nas métricas F1 (aproximadamente 0,37) e MCC (aproximadamente 0,35), embora com uma leve redução na acurácia e no AUC-ROC. Entre as combinações testadas, a imputação pela mediana associada ao SMOTE apresentou o melhor desempenho global para a árvore de decisão, com AUC-ROC de 0,836, F1-score de 0,372, MCC de 0,348 e “brier score” de 0,057. Essa configuração demonstrou um equilíbrio satisfatório entre discriminação, robustez estatística e calibragem adequada, evidenciando a importância do tratamento do desbalanceamento para este tipo de modelo.

Por sua vez, o “undersampling” resultou nos maiores valores de sensibilidade para a árvore de decisão, atingindo aproximadamente 0,77, o que indica uma capacidade significativamente maior de identificação de inadimplentes. No entanto, esse ganho ocorreu ao custo de uma queda expressiva na acurácia, que ficou em torno de 0,77, e uma pior calibração do modelo, com o “brier score” acima de 0,15. Esse “trade-off” é consistente com estudos que demonstram que o “undersampling” pode reduzir o viés para a classe majoritária, mas ao custo de descartar informações relevantes da base de dados (He e Garcia, 2009), comprometendo a robustez da solução geral.

No caso do “random forest”, os resultados apresentaram notável estabilidade em termos de AUC-ROC (aproximadamente 0,86) e AUC-PR (aproximadamente 0,37) em todas as combinações testadas, evidenciando uma boa capacidade de discriminação entre clientes adimplentes e inadimplentes. Essa estabilidade é uma característica esperada de modelos de “ensemble learning”, que combinam múltiplas árvores de decisão para obter previsões mais robustas e reduzir a variância (Breiman, 2001). Contudo, a escolha da técnica de balanceamento mostrou-se determinante para o desempenho específico do modelo em diferentes métricas.

No critério de desempenho global para o “random forest”, a ausência de balanceamento dos dados, combinada com a imputação por mediana, destacou-se com AUC-ROC de 0,861, AUC-PR de 0,384, MCC de 0,342 e “brier score” de 0,126. Resultados muito próximos foram observados com o uso de KNN e MICE para imputação, sugerindo que a ausência de balanceamento, quando combinada com técnicas robustas de imputação, tende a preservar tanto a discriminação quanto a calibragem do modelo. Isso indica que, para um desempenho geral equilibrado, a complexidade do “random forest” pode lidar melhor com o desbalanceamento natural dos dados sem a necessidade de intervenções adicionais de balanceamento.

Quando o objetivo foi minimizar falsos negativos com o “random forest”, a estratégia de imputação por mediana combinada com “undersampling” foi a mais eficaz, alcançando a maior sensibilidade (0,795) e um AUC-ROC de 0,864. No entanto, esse ganho de sensibilidade ocorreu ao custo de quedas na acurácia (0,777), precisão (0,203) e calibragem (“brier score” de 0,147). Por outro lado, estratégias com SMOTE, especialmente combinadas com MICE, maximizaram a acurácia (até 0,935) e a precisão (aproximadamente 0,52), além de apresentarem o menor “brier score” (aproximadamente 0,053), mas reduziram drasticamente a sensibilidade (aproximadamente 0,26), comprometendo a identificação de clientes inadimplentes.

A comparação entre os algoritmos selecionados como melhores modelos em termos de desempenho global priorizou a métrica AUC-PR, que é especialmente relevante em contextos de forte desbalanceamento de classes, como na previsão de inadimplência. O “random forest” com imputação por mediana e sem balanceamento obteve o melhor AUC-PR de 0,384, seguido pela árvore de decisão com imputação por mediana e SMOTE (0,341), e pela regressão logística com exclusão de ausentes e sem balanceamento ou “undersampling” (0,332). Essa hierarquia sugere que o “random forest” oferece um equilíbrio superior entre a capacidade discriminativa e a calibração em cenários de dados desbalanceados.

Analisando a sensibilidade dos algoritmos que se destacaram na minimização de falsos negativos, o “random forest” com imputação por mediana e “undersampling” obteve a maior sensibilidade de 0,795. A árvore de decisão com exclusão de ausentes e “undersampling” alcançou 0,779, enquanto a regressão logística com exclusão de ausentes e SMOTE atingiu 0,670. Esses resultados reforçam o “trade-off” clássico: modelos que priorizam a sensibilidade para reduzir falsos negativos tendem a incorrer em maiores custos em termos de precisão e calibração, o que tem implicações financeiras diretas para as instituições (Xia et al., 2022).

Os achados do estudo convergem com a literatura recente, que reforça o desempenho superior de métodos baseados em árvores, como “random forest”, em termos de discriminação e robustez (Xia et al., 2022). Modelos de “ensemble”, especialmente o “random forest”, demonstram desempenho mais estável e equilibrado (Isidoros e Arcozzi, 2024), o que corrobora a indicação deste algoritmo como o mais consistente em termos de discriminação e calibração. No entanto, divergiram parcialmente de estudos anteriores quanto ao impacto do SMOTE, que não se mostrou universalmente vantajoso em termos de desempenho global, reforçando que a eficácia dessas técnicas depende do contexto e da estrutura dos dados utilizados.

Em síntese, os resultados demonstraram que não existe um modelo universalmente superior para a previsão de inadimplência, mas sim “trade-offs” relevantes entre desempenho estatístico, interpretabilidade e impacto operacional. A regressão logística manteve-se competitiva e transparente, reforçando seu papel de referência histórica no *credit scoring*. As árvores de decisão, embora mais suscetíveis ao desbalanceamento, mostraram ganhos relevantes com técnicas de reamostragem. O “random forest” destacou-se como o modelo mais robusto, apresentando maior estabilidade e equilíbrio entre discriminação, calibração e sensibilidade, além de alcançar os melhores desempenhos globais, especialmente quando o objetivo é a proteção contra inadimplência.

4. Conclusão

O presente estudo buscou analisar e comparar algoritmos de machine learning na previsão de inadimplência em operações de crédito, avaliando regressão logística, árvore de decisão e random forest sob diferentes estratégias de tratamento de valores ausentes e balanceamento de classes. Verificou-se que a regressão logística demonstrou desempenho consistente e maior interpretabilidade, com a exclusão de ausentes e ausência de balanceamento ou undersampling produzindo os melhores resultados globais. A árvore de decisão, embora sensível ao desbalanceamento, apresentou ganhos significativos na detecção de inadimplentes quando associada a técnicas de reamostragem, como SMOTE, que elevou a sensibilidade. Contudo, o modelo random forest destacou-se como o mais robusto, exibindo maior estabilidade e equilíbrio entre discriminação e calibração em todas as combinações testadas, alcançando os melhores desempenhos globais, especialmente com imputação por mediana e sem balanceamento. Observou-se que o tratamento do desbalanceamento impactou significativamente os resultados, especialmente na melhoria da sensibilidade, evidenciando a necessidade de alinhar a escolha do modelo e das técnicas de pré-processamento aos objetivos estratégicos da instituição, considerando os custos financeiros associados a erros de classificação.

A principal contribuição deste trabalho reside na análise comparativa abrangente que explicita os trade-offs entre desempenho estatístico, interpretabilidade e impacto operacional dos algoritmos, fornecendo subsídios para a tomada de decisão em instituições financeiras. No entanto, o estudo possui limitações, como o uso de uma única base de dados de clientes dos Estados Unidos, o que restringe a generalização direta dos resultados para o contexto brasileiro, e a não exploração de algoritmos mais recentes, como gradient boosting e redes neurais profundas. Para estudos futuros, recomenda-se ampliar a análise para diferentes bases de crédito, explorar modelos adicionais e incorporar métricas financeiras de custo de erro, a fim de quantificar diretamente os impactos econômicos das decisões de concessão de crédito.

Referências Bibliográficas

Aniceto, G.F.; Barboza, F.L.C.; Kimura, H. 2020. Credit risk analysis using machine learning classifiers. Brazilian Review of Finance 18(4): 1–28. Disponível em: https://bibliotecadigital.fgv.br/ojs/index.php/rbfin/article/view/84034. Acesso em: 27 set. 2025.

Baesens, B.; Roesch, D.; Scheule, H. 2016. Credit risk analytics: measurement techniques, applications and examples in SAS. John Wiley & Sons, Hoboken, NJ, EUA.

Breiman, L. 1984. Classification and regression trees. Chapman & Hall/CRC, Boca Raton, FL, EUA.

Breiman, L. 2001. Random forests. Machine Learning 45(1): 5-32.

Bücker, M.; Szepannek, G.; Gosiewska, A.; Biecek, P. 2020. Transparency, auditability and explainability of machine learning models in credit scoring. Journal of the Operational Research Society 71(8): 1281–1290.

Carvalho, J.R. 2015. Análise de risco de crédito: fundamentos, metodologias e aplicações. Atlas, São Paulo, SP, Brasil.

Dumitrescu, E.; Hué, S.; Hurlin, C.; Tokpavi, S. 2022. Machine learning for credit scoring: improving logistic regression with non-linear decision-tree effects. European Journal of Operational Research 297(3): 1178–1192.

Freshcorn, B. 2011. Give Me Some Credit: 2011 Competition Data. Disponível em: https://www.kaggle.com/datasets/brycecf/give-me-some-credit-dataset. Acesso em: 15 jun. 2025.

Fávero, L.P.; Belfiore, P.P. 2017. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Elsevier, Rio de Janeiro, RJ, Brasil.

Fávero, L.P.; Belfiore, P.P. 2024. Análise de dados: técnicas multivariadas exploratórias e confirmatórias. Elsevier, Rio de Janeiro, RJ, Brasil.

Grus, J. 2021. Data science do zero: noções fundamentais com Python. 2ed. Alta Books, Rio de Janeiro, RJ, Brasil.

Hastie, T.; Tibshirani, R.; Friedman, J. 2009. The elements of statistical learning: data mining, inference, and prediction. 2ed. Springer, New York, NY, EUA.

He, H.; Garcia, E. A. 2009. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering 21(9): 1263-1284.

Hosmer, D.W.; Lemeshow, S.; Sturdivant, R.X. 2013. Applied logistic regression. 3ed. John Wiley & Sons, Hoboken, NJ, EUA.

ISIDOROS, I.; ARCOZZI, N. Improved convergence rates for some kernel random forest algorithms. Mathematics in Engineering, AIMS Press, 2024. DOI: https://doi.org/10.3934/mine.2024013. Acesso em: 20 set. 2025.

Kotsiantis, S.B. 2007. Supervised machine learning: a review of classification techniques. Informatica 31(3): 249–268.

Lessmann, S.; Baesens, B.; Seow, H.V.; Thomas, L.C. 2015. Benchmarking state-of-the-art classification algorithms for credit scoring: an update of research. European Journal of Operational Research 247(1): 124–136.

Pinto, R.S.; Ywata, A.; Tessmann, R.H.; Lima, F. 2024. Are machine learning models more effective than logistic regressions in predicting bank credit risk? An assessment of the Brazilian financial markets. International Journal of Monetary Economics and Finance 17(1): 1-22. Disponível em: https://doi.org/10.1504/IJMEF.2024.137545. Acesso em: 20 set. 2025.

Xia, Y.; Zhang, C.; Li, Y.; Chen, W. 2022. A comparative study of credit scoring models. Knowledge-Based Systems 235: 107629.

Zou, H.; Hastie, T. 2005. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 67(2): 301–320.

Artigo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

_{Saiba mais sobre o curso; clique aqui:}

Mais recentes

24 de julho de 2026

Adaptação digital como fator de reposicionamento comercial dos corretores de seguros em Campo Grande – MS

24 de julho de 2026

Sistema de Gestão de Escalas para Instituições de Apoio Social: Aplicação na APAE

24 de julho de 2026

Análise do valor percebido pelo cliente e proposta de um modelo comercial baseado em valor na América Latina: estudo de caso numa empresa de software do setor de saúde

24 de julho de 2026

Automação de Testes como Ferramenta de Suporte em Migração de Sistemas Monolíticos para Microsserviços

24 de julho de 2026

SPIN Selling no Varejo de Vestuário: atendimento telefônico consultivo por segmento de mercado

24 de julho de 2026

Impacto do uso de softwares de gestão de projetos no desempenho percebido por profissionais da área

24 de julho de 2026

O impacto da margem de contribuição em uma empresa em crise

24 de julho de 2026

Gestão da integração e riscos em projetos de inovação para saneamento: caso Analisador de DBO

24 de julho de 2026

A percepção dos impactos das mudanças que afetam o prazo do cronograma dos projetos

Você também pode gostar

24 de julho de 2026

Adaptação digital como fator de reposicionamento comercial dos corretores de seguros em Campo Grande – MS

Daniela Fonseca Nelli Costa Rocha; Eduardo Camargo de Aguiar DOI: 10.22167/2675-6528-202600687 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação. Resumo A intensificação das tecnologias digitais transformou os modelos de comercialização e relacionamento em setores tradicionalmente baseados na confiança, como o mercado de seguros. Este estudo […]

24 de julho de 2026

Sistema de Gestão de Escalas para Instituições de Apoio Social: Aplicação na APAE

Daiana Oliveira Bellatto; Ana Beatriz Lopes Françoso DOI: 10.22167/2675-6528-202600686 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação. Resumo Uma pesquisa aplicada, de caráter qualitativo e exploratório, abordou a redução do tempo operacional e a minimização de erros em processos manuais de gestão de escalas em […]

24 de julho de 2026

Análise do valor percebido pelo cliente e proposta de um modelo comercial baseado em valor na América Latina: estudo de caso numa empresa de software do setor de saúde

Daniel Alejandro Ruiz Saenz; Eduardo Camargo de Aguiar DOI: 10.22167/2675-6528-202600685 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação. Resumo Analisou-se o valor percebido por clientes e prospectos de uma empresa desenvolvedora de software para o setor de saúde na América Latina, com o objetivo de […]

24 de julho de 2026

Automação de Testes como Ferramenta de Suporte em Migração de Sistemas Monolíticos para Microsserviços

Daniel Augusto Pimentel Martini; Mônica Mancini DOI: 10.22167/2675-6528-202600684 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação. Resumo A modernização de sistemas tornou-se uma necessidade crescente em organizações que buscam maior eficiência, escalabilidade e capacidade de adaptação. Nesse contexto, a migração de sistemas monolíticos para arquiteturas […]

24 de julho de 2026

SPIN Selling no Varejo de Vestuário: atendimento telefônico consultivo por segmento de mercado

Daniel Ferreira dos Santos; Laura Maria Rafael Hilsdorf DOI: 10.22167/2675-6528-202600683 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação. Resumo O atendimento ao cliente consolidou-se como diferencial competitivo no varejo contemporâneo, especialmente no canal telefônico, que combina escala de alcance e interação personalizada em tempo real. […]

24 de julho de 2026

Impacto do uso de softwares de gestão de projetos no desempenho percebido por profissionais da área

Daniel Antonio Oliveira Santana; Thais Manzoni Torrezan DOI: 10.22167/2675-6528-202600682 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação. Resumo A transformação digital impulsionou o uso de softwares de gestão de projetos em organizações, notadamente no setor de engenharia elétrica, onde essas ferramentas apoiam o planejamento, acompanhamento […]

24 de julho de 2026

O impacto da margem de contribuição em uma empresa em crise

Daniel Orsi Agner Costa; Vivian Lapini Rocha DOI: 10.22167/2675-6528-202600681 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação. Resumo Em cenários de crise econômico-financeira, a capacidade de reajustar a estrutura organizacional e focar em decisões estratégicas fundamentadas em dados é crucial para a sobrevivência. Este estudo […]

24 de julho de 2026

Gestão da integração e riscos em projetos de inovação para saneamento: caso Analisador de DBO

Daniel Clemente Ferro; Bruno Henrique Sanches DOI: 10.22167/2675-6528-202600680 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação. Resumo O estudo analisou como as práticas de gestão da integração e de riscos contribuem para o desempenho e a efetividade de projetos de inovação tecnológica desenvolvidos em arranjos […]

24 de julho de 2026

A percepção dos impactos das mudanças que afetam o prazo do cronograma dos projetos

Daniel da Silva Santana; Thais Manzoni Torrezan DOI: 10.22167/2675-6528-202600679 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação. Resumo O estudo analisou a percepção de profissionais de projetos acerca dos impactos das mudanças que afetam o prazo do cronograma, bem como identificou suas principais causas, consequências […]

24 de julho de 2026

Edição especial

Neste número especial, a “Revista Estratégias e Soluções (E&S)”, convida o leitor a um olhar prospectivo. Esta edição apresenta textos analíticos inéditos e uma entrevista especial que antecipam as principais tendências das grandes áreas de Gestão, Economia e Educação para os próximos anos, com foco particular na nova era da Inteligência Artificial e seus impactos. […]

Gestão Tributária

23 de julho de 2026

O brinde e a lógica do consumo

Como a taxação dos brindes no IBS e na CBS evidencia o deslocamento do eixo da tributação sobre o consumo no Brasil Durante décadas, a distribuição gratuita de produtos ocupou posição relativamente marginal na tributação sobre o consumo no Brasil. No regime do PIS e da Cofins, instituído pelas leis nºs 10.637/2002 e 10.833/2003, respectivamente, […]

Digital

15 de julho de 2026

Comunicação em uma sociedade “cronicamente on-line”

Como memes, algoritmos e repertórios digitais estão transformando a forma de falar, interpretar e compartilhar o mundo Recentemente visitei a exposição MEME: no Br@sil da memeficação, no Centro Cultural Banco do Brasil, em Belo Horizonte. A mostra reúne cerca de 800 itens produzidos por 200 artistas e criadores digitais, combinando formatos como vídeos, esculturas, quadrinhos, […]

Tecnologia

10 de julho de 2026

IA na educação: o desafio da responsabilidade

Tecnologias inteligentes exigem governança, formação docente e senso crítico para não aprofundar desigualdades A inteligência artificial vem se consolidando como uma das forças mais relevantes da transformação digital contemporânea, e a educação passou a ocupar lugar central nesse movimento. Se antes a discussão girava em torno da digitalização de conteúdos e da expansão do ensino […]

Tecnologia

01 de julho de 2026

Do Papa Pop ao Papa Tec

Tecnologia, dignidade humana e o improvável consenso sobre inteligência artificial Quando Humberto Gessinger compôs O Papa é Pop, em 1990, observava um fenômeno curioso da modernidade: até mesmo uma das figuras mais tradicionais do mundo havia sido absorvida pela lógica midiática. O Papa já não habitava apenas os templos. Estava nas capas de revistas, nos […]

Saúde

02 de junho de 2026

Como liderar equipes multiprofissionais em projetos complexos na saúde

O maior desafio do setor é a dificuldade de transformar excelência individual em resultado coletivo Projetos estratégicos na saúde raramente fracassam por escassez de conhecimento técnico. Em geral, o que acontece é que as organizações reúnem excelentes profissionais que não conseguem atuar como sistema diante de prioridades conflitantes, pressões assistenciais permanentes e estruturas historicamente fragmentadas. […]

Sustentabilidade

29 de maio de 2026

CSRD: a nova fronteira da transparência das empresas

Antes considerados como única medida do sucesso das empresas, balanços financeiros perdem protagonismo, e sustentabilidade assume importância estratégica O mundo corporativo atravessa uma transformação sem precedentes na forma como comunica seu valor à sociedade. Se antes o sucesso de uma companhia era medido quase exclusivamente por balanços financeiros, hoje a sustentabilidade assumiu o protagonismo estratégico. […]

Inteligência Artificial

22 de maio de 2026

O custo real da IA nas empresas de TI

Próximo ciclo da tecnologia nas organizações deve ser menos marcado pela euforia da substituição e mais pela disciplina da sustentabilidade operacional A incorporação acelerada da inteligência artificial nas empresas de tecnologia tem sido apresentada como um caminho quase inevitável para aumentar produtividade, reduzir custos e substituir parte do trabalho humano em atividades técnicas, administrativas e, […]

Desafios

18 de maio de 2026

O novo Plano Nacional de Educação e o desafio da execução

Texto aprovado apresenta maior densidade em cinco dimensões, mas enfrenta a questão da atratividade da carreira docente Aprovado pelo Congresso e sancionado pelo presidente Luiz Inácio Lula da Silva em abril deste ano, o novo Plano Nacional de Educação (PNE) reposiciona a qualidade e a equidade do acesso ao ensino no centro da política educacional […]

Estrategia

02 de julho de 2026

O futuro como competência

Interesse acadêmico reforça a projeção de cenários como ferramenta essencial para a tomada de decisões Enquanto algumas empresas ainda tentam acertar o próximo passo, outras já trabalham com múltiplos futuros possíveis — e se preparam para todos eles. Mas afinal, o que significa “pensar o futuro”? É tendência, é estratégia ou uma nova competência que […]

Renata de Gaspari Valdejão Almeida

Inovação

Tecnologia

21 de maio de 2026

Corredor Agro SP: inovação, articulação institucional e futuro

Pecege comanda operação executiva das atividades do ecossistema de 400 km que ficou conhecido como Vale do Silício do agro brasileiro Em 2025, além de assumir a gestão do Parque Tecnológico de Piracicaba, o Instituto Pecege também foi designado para comandar a operação executiva das atividades do Corredor de Inovação Agropecuária do Estado, o chamado […]

Educação

27 de abril de 2026

Como transformar um TCC em negócio

Nova gestão do Parque Tecnológico de Piracicaba oferece consultoria a egressos de MBAs O novo diretor de projetos do Parque Tecnológico de Piracicaba (PTP), Alexandre Barreto, costuma dizer que uma das maiores recompensas que já teve na vida foi ver seus orientandos do MBA USP/Esalq estruturarem empresas a partir de seus trabalhos de conclusão de […]

Tecnologia

20 de março de 2026

O repertório humano na era da IA

Pensamento crítico e criatividade são insubstituíveis no trabalho do profissional de marketing A Inteligência Artificial (IA) é capaz de feitos incríveis, mas ainda não possui a capacidade de julgamento, empatia, intuição e criatividade estratégica necessárias para fazer o trabalho de um bom profissional de marketing. Nessa área, é importante saber usar a ferramenta para automatizar […]

Renata de Gaspari Valdejão Almeida

Agronegócio

Inovação

23 de fevereiro de 2026

ESG como estratégia de crescimento em uma cooperativa do RS

Santa Clara equilibra responsabilidade social e ambiental com inovação Fundada em 1911 por imigrantes italianos em Carlos Barbosa, na serra gaúcha, a Cooperativa Santa Clara é um exemplo de que é possível equilibrar o crescimento econômico com a responsabilidade social e ambiental. De uma pequena empresa de produção de queijos, a organização evoluiu para um […]

Renata de Gaspari Valdejão Almeida

Agronegócio

Inovação

22 de janeiro de 2026

Brasil livre de febre aftosa: o que muda para a carne brasileira?

Com um rebanho de mais de 200 milhões de cabeças de gado, o país é atualmente o líder em exportações O Brasil recebeu recentemente, pela primeira vez, a certificação de país livre de febre aftosa sem vacinação, conferida pela Organização Mundial de Saúde Animal (OMSA). O selo fortalece a posição do país como fornecedor de carne confiável para o […]

Renata de Gaspari Valdejão Almeida

Inovação

09 de dezembro de 2025

Inovação: o novo ciclo do Parque Tecnológico de Piracicaba

Instituto Pecege assume a gestão apostando na criação de novos negócios A partir de 2026, o Instituto Pecege assumirá a gestão do Parque Tecnológico de Piracicaba (PTP). Entre suas responsabilidades estarão a administração, operação, manutenção e expansão do parque, além do fomento de atividades de inovação, empreendedorismo e ciência e tecnologia. A escolha foi feita […]

Renata de Gaspari Valdejão Almeida

Agronegócio

Inovação

14 de novembro de 2025

Como Florianópolis virou um polo de oestreicultura

Pesquisa e produção na UFSC fortaleceram a atividade, que hoje é vital para a economia local O Laboratório de Moluscos Marinhos da Universidade Federal de Santa Catarina (UFSC) fez de Florianópolis uma referência nacional na produção da ostra do Pacífico. Hoje, 95% das ostras consumidas no Brasil vêm da ilha catarinense. A atividade é vital […]

Renata de Gaspari Valdejão Almeida

Videocasts

24 de outubro de 2025

Pesquisadora brasileira transforma paixão em prêmio “Nobel” da agricultura

Mariangela Hungria ganhou seu primeiro livro sobre microbiologia da avó, aos 8 anos A cientista Mariangela Hungria, pesquisadora da Embrapa Soja, fez história ao se tornar a primeira mulher brasileira a receber o Prêmio Mundial de Alimentação — considerado o “Nobel” da agricultura. O anúncio foi feito em maio de 2025, e a entrega da […]

Renata de Gaspari Valdejão Almeida

06 de julho de 2026

Arquitetura de Grande Porte: Gestão de Mudanças DSR-SCRUM

Mônica Alessandra Guerios; Maria do Carmo Assis Todorov Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação. A arquitetura e o urbanismo configuram-se como bases imprescindíveis em um espaço urbano cada vez mais complexo e desafiador, onde a intrínseca conexão entre questões sociais, ambientais e tecnológicas […]