Resumo Executivo

12 de fevereiro de 2026

Eficiência da regressão logística na previsão de inadimplência de crédito

Veronyca Cristina Alves; Douglas Augusto de Paula

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo deste estudo foi calcular a eficiência do modelo de Regressão Logística na previsão de inadimplência em crédito, utilizando uma base de dados pública para simular um cenário de análise de risco. A pesquisa quantifica a capacidade preditiva do algoritmo, avalia suas métricas de desempenho e identifica as variáveis mais influentes na determinação do status de um empréstimo. A análise busca fornecer um panorama sobre a aplicabilidade e as limitações do modelo em um contexto de crescente endividamento, contribuindo para a tomada de decisão em instituições financeiras.

A relevância desta investigação é amplificada pelo cenário econômico. O crédito fomenta a atividade econômica ao permitir investimentos e consumo (Ferreira et al., 2012). Contudo, sua expansão exige uma gestão de risco rigorosa, pois o aumento de empréstimos pode elevar a inadimplência, comprometendo as instituições credoras. O equilíbrio entre a concessão de crédito e a mitigação de perdas é um desafio constante para o setor.

Dados recentes tornam a análise mais pertinente. A Confederação Nacional do Comércio de Bens, Serviços e Turismo (CNC, 2024) reportou um aumento de 1,6 pontos percentuais na concessão de crédito pessoal em março de 2024, comparado ao ano anterior, atribuído à redução das taxas de juros. Esse cenário de maior procura por crédito exige que as instituições financeiras aprimorem seus modelos de avaliação de risco. Cada entidade possui metodologias próprias, e este estudo foca na regressão logística como uma ferramenta central nesse processo.

O uso de aprendizado de máquina (machine learning) para a previsão de inadimplência é uma prática padrão na indústria financeira. Modelos estatísticos, como a regressão logística, permitem que as instituições analisem o perfil de um solicitante com base em características históricas e demográficas para estimar a probabilidade de default. O principal desafio é construir um modelo que não apenas apresente alta acurácia, mas que também seja eficaz em identificar corretamente os clientes que se tornarão inadimplentes, minimizando os erros do tipo II (falsos negativos), que representam o maior risco financeiro para o credor (James et al., 2013).

Este trabalho se insere na intersecção entre ciência de dados e análise de risco de crédito, buscando demonstrar, de forma prática, como a regressão logística pode ser aplicada para prever a inadimplência. Ao utilizar uma base de dados pública e detalhar cada etapa do processo, desde o tratamento dos dados até a avaliação do modelo, a pesquisa oferece uma análise crítica dos resultados, destacando a força preditiva do modelo e suas limitações.

A metodologia adotada foi quantitativa e aplicada, fundamentada na análise de uma base de dados secundária de domínio público de Tse (2020). Este conjunto de dados continha informações anonimizadas de mais de 32.000 clientes, abrangendo variáveis demográficas, financeiras e comportamentais. A manipulação, o processamento e a modelagem dos dados foram realizados com Python, utilizando bibliotecas como Pandas para manipulação de dados e Scikit-learn para aprendizado de máquina. O software MS Excel® foi utilizado de forma complementar.

O processo metodológico iniciou-se com o pré-processamento dos dados para garantir sua qualidade e consistência, seguindo práticas da área (Gouvêa et al., 2013; Moura, 2018). Foram realizadas atividades de limpeza, como o tratamento de valores ausentes e a remoção de outliers. Aplicaram-se filtros para garantir a coerência dos dados, como a exclusão de registros com idades acima de 60 anos ou tempo de emprego superior à idade do indivíduo. Adicionalmente, foi estabelecido um piso para a renda alinhado ao salário mínimo brasileiro (Brasil, 2024), para assegurar que a análise se concentrasse em um perfil de cliente economicamente ativo.

O cerne da análise foi a aplicação do modelo de Regressão Logística para prever um resultado binário: a variável dependente “statusdoemprestimo”, codificada como 1 para inadimplente e 0 para adimplente. A regressão logística calcula a probabilidade de um evento ocorrer com base em um conjunto de variáveis independentes (X), utilizando a função sigmoide (Fávero e Belfiore, 2017). A biblioteca Scikit-learn, por padrão, classifica uma observação como positiva (1) se a probabilidade prevista for maior ou igual a 0,5. Como o conjunto de dados continha variáveis categóricas, como “tipodepropriedade”, foi necessário aplicar a técnica de transformação One-Hot Encoder, que converte cada categoria em uma nova coluna binária (dummy), permitindo que o algoritmo processe todas as variáveis em formato numérico.

Para avaliar a performance do modelo, a base de dados foi dividida em 70% para treino e 30% para teste. O conjunto de treino é utilizado para que o algoritmo aprenda os padrões e as relações entre as variáveis. O conjunto de teste serve para avaliar a capacidade de generalização do modelo em dados não vistos. A eficiência do modelo foi avaliada por meio de métricas de classificação padrão na literatura (Bruce e Bruce, 2019; Silva e Filho, 2022): Acurácia, que mede o percentual total de classificações corretas; Precisão, que indica a proporção de previsões positivas que estavam corretas; Sensibilidade (ou Recall), que mede a capacidade do modelo de identificar corretamente os casos positivos reais (inadimplentes); e o F1-score, a média harmônica entre precisão e sensibilidade.

A análise dos resultados iniciou-se com uma exploração dos dados. A Tabela 2, com estatísticas descritivas, revelou a presença de outliers, como idade máxima de 144 anos e tempo de emprego de 123 anos. Tais valores inconsistentes justificaram a aplicação de filtros rigorosos no pré-processamento, como o corte para idade (menor que 60 anos) e tempo de emprego (menor que a idade). Esta limpeza foi crucial para evitar que o modelo fosse treinado com informações espúrias, o que comprometeria sua generalização.

Após o tratamento, foi calculada uma matriz de correlação (Tabela 3) para investigar a relação linear entre as variáveis quantitativas. Conforme a teoria (Bussab e Morettin, 2010), valores próximos de 1 ou -1 indicam forte correlação. Observou-se uma correlação positiva de 0,34 entre a taxa de juros e o status de inadimplência, indicando que taxas mais altas estão associadas a maior risco. A variável percentualdoemprestimodarenda apresentou correlação positiva de 0,38 com a inadimplência, sugerindo que maior comprometimento da renda aumenta a probabilidade de default. Outra correlação forte (0,86) foi encontrada entre a idade e o tempo de histórico de crédito. A Tabela 4, com os p-valores, confirmou a significância estatística da maioria dessas correlações.

A análise exploratória visual também forneceu insights. O gráfico da Figura 1 mostrou que a maior concentração de solicitantes de empréstimo é composta por jovens que residem em imóveis alugados (RENT), perfil frequentemente associado a menor estabilidade financeira. Aprofundando a análise, a Figura 2 exibiu a proporção de adimplentes e inadimplentes por tipo de propriedade. Clientes que moram de aluguel (RENT) apresentaram a maior proporção de inadimplência (73,0% dos inadimplentes totais), enquanto aqueles com propriedade própria (OWN) ou hipotecada (MORTGAGE) mostraram taxas significativamente menores, sugerindo que o tipo de moradia é um forte indicador de risco.

Com os dados preparados, o modelo de regressão logística foi treinado. A Tabela 5 apresenta os coeficientes estimados para cada variável, que indicam a direção e a magnitude do impacto na probabilidade de inadimplência (James et al., 2013). Coeficientes positivos aumentam a probabilidade de o resultado ser 1 (inadimplente). Os resultados foram consistentes com a análise exploratória. Variáveis como percentualdoemprestimodarenda (coeficiente de 14,324), taxadoemprestimo (0, 3256) e ser morador de imóvel alugado (tipodepropriedade_RENT, coeficiente de 0,8667) apresentaram coeficientes positivos e significativos, confirmando que são fatores que aumentam o risco.

As notas de empréstimo (loangrade) mostraram um impacto dramático. As notas piores (D, E, F e G) apresentaram coeficientes extremamente altos e positivos (22,903 para D, chegando a 57,240 para G), indicando que clientes com essas classificações têm uma probabilidade muito elevada de se tornarem inadimplentes. Por outro lado, variáveis como usar o empréstimo para educação (intencaodoemprestimoEDUCATION, coeficiente de -0,8769) ou para empreendimentos (VENTURE, coeficiente de -11,921) mostraram um efeito redutor no risco. A posse de um imóvel próprio (tipodepropriedade_OWN) também apresentou um coeficiente fortemente negativo (-16,859), reforçando seu papel como indicador de baixo risco.

A avaliação final do desempenho do modelo foi consolidada pela matriz de confusão (Figura 3) e pelas métricas de classificação (Tabelas 6 e 7). No conjunto de teste, o modelo classificou corretamente 6.899 clientes adimplentes (Verdadeiros Negativos) e 988 clientes inadimplentes (Verdadeiros Positivos). No entanto, cometeu 314 erros do tipo I (Falsos Positivos) e 808 erros do tipo II (Falsos Negativos).

As métricas quantitativas confirmaram um desempenho geral satisfatório. A acurácia, tanto no conjunto de treino (87%) quanto no de teste (86%), foi alta. A precisão no conjunto de teste foi de 76%, significando que, dos clientes previstos como inadimplentes, 76% realmente o eram, o que ajuda a evitar a negação de crédito a bons pagadores.

Contudo, a métrica de sensibilidade (recall) no conjunto de teste foi de 55%. Este resultado merece atenção, pois indica que o modelo identificou apenas 55% de todos os clientes que de fato se tornaram inadimplentes. Os 45% restantes (Falsos Negativos) foram classificados incorretamente como adimplentes, representando um risco financeiro direto. O F1-score, que equilibra precisão e sensibilidade, ficou em 63%. Embora o resultado geral seja positivo, a baixa sensibilidade aponta para uma limitação importante, sugerindo que, para uma aplicação prática, poderiam ser exploradas técnicas de ajuste de limiar de decisão ou métodos para lidar com classes desbalanceadas, a fim de aumentar a detecção dos verdadeiros inadimplentes.

A análise da eficiência da regressão logística demonstrou que o modelo é uma ferramenta robusta e com alto poder preditivo, mas sua aplicação exige compreensão de suas métricas e limitações. O estudo revelou que é possível construir um modelo com acurácia geral de 86%, um resultado satisfatório. A consistência do desempenho entre as bases de treino e teste indica boa capacidade de generalização, sem superajuste. A identificação de variáveis-chave, como o percentual da renda comprometido, a nota de crédito e o tipo de moradia, reforça a validade do modelo, pois seus resultados estão alinhados com o conhecimento do setor financeiro sobre fatores de risco.

No entanto, a criação de um modelo de crédito não se resume a alcançar alta acurácia. A análise da precisão e, principalmente, da sensibilidade, expõe a complexidade da decisão. Um resultado de 55% de sensibilidade significa que quase metade dos inadimplentes não seriam identificados, o que pode resultar em perdas financeiras. A regressão logística, por sua simplicidade e interpretabilidade, continua a ser uma ferramenta valiosa, mas pode ser complementada por modelos mais complexos ou por ajustes para otimizar o equilíbrio entre o risco de conceder crédito a um mau pagador e o custo de oportunidade de negar a um bom pagador. Conclui-se que o objetivo foi atingido: demonstrou-se que o modelo de Regressão Logística apresenta uma eficiência satisfatória, com 86% de acurácia, na previsão de inadimplência em uma base de dados de concessão de crédito.

Referências:
Brasil. 2024. Decreto n. 12.342, de 30 de dezembro de 2024. Dispõe sobre o valor do salário mínimo a vigorar a partir de 1º de janeiro de 2025. Disponível em: https://www. planalto. gov. br/ccivil03/ato2023-2026/2024/decreto/d12342. htm. Acesso em 06 abr. 2025.
Bruce, P; Bruce, A. Estatística Prática para Cientistas de Dados – 50 Conceitos Essenciais. 2019. 1ed. Alta Books, São Paulo, SP, BR.
Bussab, W. O.; Morettin, P. A. Estatística Básica. 2010. 6ed. Saraiva, São Paulo, SP, BR.
Confederação Nacional do Comércio de Bens, Serviços e Turismo [CNC]. 2024. Pesquisa Nacional de Endividamento e Inadimplência do Consumidor. CNC, Brasil.
Fávero, L. P.; Belfiore, P. Manual de Análise de Dados. 2017. 1ed. Elsevier, Rio de Janeiro, RJ, BR.
Ferreira, M. A. M.; Celso, A. S. S.; Barbosa Neto, J. E. 2012. Aplicação do modelo logit binomial na análise do risco de crédito em uma instituição bancária. Revista de Negócios 17(1): 41–59.
Gouvêa, M. A.; Gonçalves, E. B.; Mantovani, D. M. N. 2013. Análise de Risco de Crédito com Aplicação de Regressão Logística e Redes Neurais. Revista Contabilidade Vista & Revista 24(4): 96-123.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R. An Introduction to Statistical Learning: With Applications in R. 2013. Springer, New York, NY, US.
Moura, G. M. 2018. Regressão Logística aplicada a análise de risco de crédito. Monografia de Graduação em Matemática Aplicada. Universidade Federal do Rio Grande, Rio Grande, RS, Brasil. Disponível em: <https://imef. furg. br/ensino/cursos-de-graduacao/matematica-aplicada/acervo-de-monografias-matematica-aplicada>. Acesso em 06 abr. 2025.
Scikit learn. 3.3. Tuning the decision threshold for class prediction. Disponível em: <https://scikit-learn. org/stable/modules/classification_threshold. html>. Acesso em: 15 set. 2025.
Silva, V. H. M. C.; Filho, W. M. 2022. Previsão de transição no mercado de trabalho com modelos de machine learning e classes desbalanceadas. Trabalho de Conclusão de Curso apresentado para obtenção do título de especialista em Data Science e Analytics. Disponível em: < https://biblioteca. sophia. com. br/terminal/6733/acervo/detalhe/53842? guid=1745277158424&returnUrl=%2fterminal%2f6733%2fresultado%2flistar%3fguid%3d1745277158424%26quantidadePaginas%3d1%26codigoRegistro%3d53842%2353842&i=1 >. Acesso em 10 abr. 2025.
Tse, Lao. Credit Risk Dataset. 2020. Disponível em: <https://www. kaggle. com/datasets/laotse/credit-risk-dataset>. Acesso em: 06 abr. 2024.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Mais recentes

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade