Imagem Análise comparativa de regressão logística e redes neurais na classificação de risco de crédito

24 de fevereiro de 2026

Análise comparativa de regressão logística e redes neurais na classificação de risco de crédito

Lucas Tex Barbosa Franco; Fábio Lima

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo deste trabalho é comparar o desempenho da Regressão Logística (RL) e das Redes Neurais Artificiais (RNA) do tipo Perceptron Multicamadas (MLP), na tarefa de classificação de risco de crédito pessoal, utilizando um conjunto de dados público para identificar o modelo com maior potencial preditivo. A análise busca fornecer subsídios para instituições financeiras na escolha de ferramentas analíticas que equilibrem acurácia, capacidade discriminativa e interpretabilidade, elementos cruciais para a otimização de processos de concessão de crédito e minimização de perdas por inadimplência.

A aplicação da Inteligência Artificial (IA) no setor financeiro consolidou-se como pilar estratégico, especialmente na análise e concessão de crédito (Fuhr et al., 2017). Em um ambiente competitivo, a capacidade de uma instituição de avaliar o risco de forma precisa e eficiente confere uma vantagem substancial (Silva, 2008). Nesse contexto, os modelos de “credit scoring” emergem como ferramentas indispensáveis para automatizar e padronizar a tomada de decisão, visando à redução de custos operacionais e à minimização do risco de inadimplência (Abdou, 2009). A IA busca emular capacidades cognitivas humanas por meio de sistemas computacionais para resolver problemas complexos de classificação e predição (Munakata, 2008).

A demanda por modelos de “credit scoring” avançados transformou-os em um componente central da operação bancária. Este estudo foca no crédito pessoal e compara a Regressão Logística, um modelo estatístico tradicional e altamente interpretável, com as Redes Neurais Artificiais, uma técnica de aprendizado de máquina conhecida por sua capacidade de capturar padrões complexos e não lineares. A comparação avalia o trade-off entre a explicabilidade do modelo e seu poder preditivo. A Regressão Logística tem sido a abordagem padrão em muitas instituições financeiras brasileiras devido à sua robustez e à facilidade de interpretar o impacto de cada variável na probabilidade de inadimplência (Filho e Artes, 2018). Por outro lado, as Redes Neurais, embora frequentemente vistas como “caixas-pretas”, têm demonstrado um potencial superior em cenários onde as interações entre as variáveis são sutis e não lineares, características comuns em dados de comportamento financeiro (Lima, 2009).

A presente pesquisa realiza uma avaliação empírica, aplicando ambas as técnicas sobre o mesmo conjunto de dados com um framework metodológico consistente para pré-processamento, treinamento e validação. A análise comparativa abrange um conjunto de indicadores de desempenho, como acurácia, precisão, recall, F1-score, Área sob a Curva ROC (AUC) e o índice de Kolmogorov-Smirnov (KS), para fornecer uma visão multidimensional da eficácia de cada modelo. O resultado desta investigação visa oferecer uma orientação sobre qual abordagem se mostra mais adequada para a classificação de risco de crédito pessoal.

Este estudo adota uma metodologia quantitativa, combinando pesquisa bibliográfica para o arcabouço teórico (Gil, 2002) e pesquisa documental, utilizando uma base de dados pública da plataforma Kaggle. A abordagem quantitativa foi empregada na análise exploratória dos dados, no tratamento estatístico das variáveis, na implementação dos algoritmos e na avaliação de seu desempenho. A implementação computacional foi realizada na linguagem de programação Python, com o suporte das bibliotecas Scikit-Learn, TensorFlow e Pandas.

A base de dados utilizada compreende variáveis que caracterizam o perfil socioeconômico e financeiro dos clientes, incluindo atributos como idade (personage), renda anual (personincome), tempo de experiência profissional (personempexp), status de posse da residência (personhomeownership), valor do empréstimo (loanamnt), e histórico de crédito (cbpersoncredhistlength). A variável alvo, loanstatus, é binária. A preparação dos dados envolveu um tratamento de valores atípicos (outliers), identificados pelo Critério Interquartil (IQR), aplicando-se a técnica de winsorização, que consiste em substituir os valores atípicos pelos valores correspondentes aos percentis 1 e 99 (Sicsú, 2010). Adicionalmente, variáveis com forte assimetria, como person_income, foram transformadas pela aplicação do logaritmo natural para aproximar sua distribuição da normalidade.

A análise das variáveis categóricas foi realizada com o coeficiente V de Cramér. Essa análise revelou que previousloandefaultsonfile possuía uma forte associação (V = 0,5430) e personhomeownership uma associação moderada (V = 0,2576), enquanto outras variáveis foram descartadas por não apresentarem associação estatisticamente significativa. As variáveis categóricas selecionadas foram convertidas em formato numérico: a variável binária previousloandefaultsonfile utilizou codificação binária direta, e para as variáveis com múltiplas categorias, aplicou-se o método “One-Hot Encoding”. Para a construção e validação dos modelos, o conjunto de dados foi dividido de forma estratificada em 70% para treinamento e 30% para teste, garantindo que a proporção das classes fosse mantida em ambas as amostras.

O modelo de Regressão Logística foi ajustado utilizando a combinação linear das variáveis preditoras, transformada pela função sigmoide para gerar uma probabilidade de aprovação (Fávero e Belfiore, 2017). O modelo de Rede Neural Artificial foi implementado com uma arquitetura Perceptron Multicamadas (MLP) contendo uma camada de entrada, duas camadas ocultas com 30 e 15 neurônios, respectivamente, e uma camada de saída. A função de ativação ReLU (Rectified Linear Unit) foi utilizada nas camadas ocultas, enquanto a função sigmoide foi aplicada na camada de saída. O treinamento da rede foi conduzido com o otimizador Adam e a técnica de “early stopping” foi empregada para prevenir o sobreajuste (Géron, 2019). A avaliação final de ambos os modelos foi realizada no conjunto de teste.

A avaliação do modelo de Regressão Logística no conjunto de teste demonstrou um desempenho robusto, com acurácia geral de 87,6%. Analisando a classe de interesse (aprovados), a precisão foi de 72,9%, o recall de 70,4%, e o F1-score atingiu 71,6%, refletindo um equilíbrio satisfatório. A capacidade discriminativa do modelo foi um de seus pontos fortes. A Área sob a Curva ROC (AUC) registrou um valor de 0,9387, indicando uma excelente habilidade para distinguir entre as classes. Este resultado é corroborado pelo índice de Kolmogorov-Smirnov (KS), que alcançou 0,7328. Em aplicações de risco de crédito, um valor de KS acima de 0,7 é considerado um indicador de um modelo com alto poder de separação entre perfis de bons e maus pagadores.

O modelo de Rede Neural Artificial (MLP) apresentou resultados ainda mais expressivos, superando a Regressão Logística em todas as métricas. A acurácia geral do modelo MLP foi de 91,5%. A precisão para os clientes aprovados saltou para 84,7%, o recall atingiu 75,6%, e o F1-score alcançou 79,9%, demonstrando um equilíbrio superior. A superioridade da Rede Neural também foi confirmada pelas métricas de poder discriminativo. A AUC do modelo MLP foi de 0,9664, e o índice KS atingiu 0,7827, reforçando que a RNA consegue diferenciar com maior eficácia os perfis de clientes. Para assegurar a robustez, foi aplicada a técnica de validação cruzada estratificada com 5 folds. Os resultados foram estáveis, com uma AUC média de 0,9681 e um desvio padrão de apenas 0,0014. Essa mínima variação indica que o desempenho do modelo generaliza bem para dados não vistos, apresentando baixo risco de overfitting.

A análise comparativa direta entre os dois modelos evidencia uma clara vantagem de desempenho para a Rede Neural Artificial. Embora a Regressão Logística tenha se mostrado uma ferramenta sólida, a capacidade da RNA de capturar relações não lineares e interações complexas entre as variáveis permitiu que ela atingisse um novo patamar de precisão preditiva. O ganho em métricas como precisão e F1-score se traduz diretamente em uma melhor gestão de risco. A superioridade da RNA pode ser atribuída à sua flexibilidade intrínseca, à arquitetura otimizada e à aplicação de boas práticas de treinamento, como a padronização dos dados de entrada e o uso de “early stopping”.

No entanto, é fundamental ponderar que a superioridade numérica da Rede Neural vem acompanhada de uma menor interpretabilidade. A Regressão Logística oferece coeficientes claros que quantificam o impacto de cada variável na probabilidade de aprovação, permitindo que analistas entendam facilmente os fatores que impulsionam as decisões do modelo. A RNA, por sua natureza de “caixa-preta”, torna essa interpretação muito mais complexa. Portanto, a escolha entre os modelos em um ambiente de produção envolve um trade-off estratégico. Instituições que priorizam a transparência e a explicabilidade podem preferir a solidez da Regressão Logística. Em contrapartida, organizações focadas em maximizar a performance preditiva encontrarão na Rede Neural uma ferramenta mais poderosa. A análise comparativa das curvas ROC dos dois modelos ilustra visualmente essa diferença, com a curva da RNA se posicionando consistentemente acima da curva da RL.

Este estudo se propôs a avaliar e comparar a eficácia da Regressão Logística e das Redes Neurais Artificiais na predição do risco de inadimplência. A Regressão Logística demonstrou ser um modelo robusto, com bom poder discriminativo (AUC de 0,9387 e KS de 0,7328) e a vantagem da interpretabilidade, o que a mantém como uma opção viável para instituições que valorizam a transparência. Por outro lado, a Rede Neural Artificial do tipo MLP revelou um desempenho preditivo superior em todas as métricas avaliadas, destacando-se pela acurácia de 91,5%, precisão de 84,7% e uma capacidade discriminativa excepcional, evidenciada por uma AUC de 0,9664 e um KS de 0,7827. A estabilidade dos resultados, confirmada pela validação cruzada, atesta a confiabilidade e a capacidade de generalização do modelo.

A escolha entre os dois modelos não se resume a uma questão de superioridade técnica, mas a uma decisão estratégica que deve ponderar as prioridades da instituição. Se a necessidade primordial é a explicabilidade, a Regressão Logística é a alternativa mais prudente. Contudo, se o foco é a otimização da carteira de crédito através da mais alta precisão preditiva, as Redes Neurais oferecem um potencial significativamente maior. Conclui-se que o objetivo foi atingido: demonstrou-se que, embora a Regressão Logística seja um modelo robusto e interpretável, a Rede Neural Artificial do tipo Perceptron Multicamadas apresenta desempenho preditivo superior na classificação de risco de crédito pessoal, oferecendo um ganho substancial em acurácia e poder discriminativo.

Referências:
Abdou, H. A. 2009. Genetic programming for credit scoring: the case of Egyptian public sector banks. Expert Systems with Applications 36(9): 11402-11417.
Fávero, L. P.; Belfiore, P. 2024. Manual de Análise de Dados – Estatística e Machine Learning com Excel®, SPSS®, Stata®, R® e Python®. 2ed. GEN LTC, Rio de Janeiro, RJ, Brasil.
Filho, D. A. de B.; Artes, R. 2018. Application of Bayesian additive regression trees in the development of credit scoring models in Brazil. Production.
Furh, F.; Lima, J. D. de; Schenatto, F. J. A. 2017. Uma revisão sistemática da literatura sobre credit scoring. VII Congresso Brasileiro de Engenharia de Produção (CONBREPRO).
Géron, A. 2019. Mãos à Obra: Aprendizado de Máquina com Scikit-Learn e TensorFlow. 1ed. Alta Books, Rio de Janeiro, RJ, Brasil.
Gil, A. C. 2002. Como elaborar projetos de pesquisa. 4ed. Atlas, São Paulo, SP, Brasil.
Lima, F. G. 2009. Aplicação de redes neurais na análise e na concessão de crédito ao consumidor. Revista de Administração FGV, São Paulo, v. 44, n. 1, p. 34–45.
Munakata, T. 2008. Fundamentals of the new artificial intelligence: neural, evolution, fuzzy and more. 2ed. Springer, Cleveland, OH, USA.
Sicsú, A. L. 2010. Credit Scoring: desenvolvimento, implantação, acompanhamento. Blucher, São Paulo, SP, Brasil.
Silva, J. P. 2008. Gestão e análise de risco de crédito. 6ed. Atlas, São Paulo, SP, Brasil.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade