Imagem Modelagem Preditiva de Inadimplência com Algoritmos Supervisionados de Machine Learning

26 de fevereiro de 2026

Modelagem Preditiva de Inadimplência com Algoritmos Supervisionados de Machine Learning

João Gabriel de Medeiros Luz Pedro; Carlos Nabil Ghobril

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo desta pesquisa foi analisar e tratar um conjunto de dados do Banco Central do Brasil (Bacen) para implementar, treinar e validar modelos de Machine Learning, utilizando os algoritmos supervisionados CatBoost, Random Forest e XGBoost, a fim de mensurar a capacidade preditiva na identificação de inadimplência. A complexidade do cenário econômico brasileiro, com o aumento do endividamento familiar, exige que instituições financeiras possuam ferramentas precisas para gestão de risco de crédito. A capacidade de antecipar o comportamento de pagamento dos consumidores é um pilar para a sustentabilidade do setor, e a aplicação de técnicas de ciência de dados surge como solução para aprimorar a precisão das análises.

O panorama do endividamento no Brasil justifica a urgência de estudos na área. Dados da Pesquisa de Endividamento e Inadimplência do Consumidor (PEIC) de abril de 2024 mostram que 78,5% das famílias brasileiras possuíam dívidas, e 12,1% admitiram não ter condições de honrar seus compromissos (CNC, 2024). Uma pesquisa da CNDL e do SPC Brasil registrou 68,62 milhões de brasileiros inadimplentes, correspondendo a 41,51% da população adulta (Poder360, 2024). Esses números sinalizam um risco sistêmico que pode afetar a estabilidade das instituições financeiras. Uma prática que contribui para o endividamento é a extensão dos prazos de pagamento, que compromete a renda futura e aumenta a probabilidade de inadimplência em cenários de instabilidade (CNC, 2024). Diante disso, a análise de crédito tradicional, baseada em regras estáticas, é insuficiente. A necessidade de aprimorar os mecanismos de análise de risco é imperativa para mitigar perdas.

A presente pesquisa propõe uma abordagem baseada em aprendizado de máquina para a previsão de inadimplência. A utilização de algoritmos supervisionados permite a construção de modelos que aprendem padrões a partir de dados históricos, identificando relações não lineares que seriam difíceis de detectar por métodos estatísticos convencionais (Kotsiantis, 2007). Um dos desafios técnicos enfrentados foi a presença de um grande número de variáveis categóricas, como ‘ocupacao’, ‘modalidade’ de crédito e ‘uf’, que são cruciais para a caracterização do perfil do cliente, mas exigem tratamentos específicos para serem utilizadas por algoritmos como Random Forest e XGBoost. A escolha de técnicas de pré-processamento e a seleção de features foram etapas fundamentais para garantir a geração de modelos preditivos robustos.

O escopo do trabalho abrangeu um ciclo completo de um projeto de ciência de dados: extração e tratamento dos dados, análise exploratória, treinamento, avaliação e comparação de múltiplos modelos de Machine Learning. A validação dos resultados foi realizada por meio de métricas como acurácia, F1-Score e a área sob a curva ROC (AUC-ROC), garantindo uma avaliação objetiva do desempenho de cada algoritmo. O estudo buscou identificar o modelo mais eficaz para o cenário proposto, fornecendo uma base para a implementação de sistemas de apoio à decisão em instituições financeiras.

A metodologia iniciou com a coleta de dados históricos de crédito do Sistema de Informações de Crédito (SCR) do Bacen (Banco Central do Brasil, 2024). O conjunto de dados inicial compreendia 12 arquivos CSV, correspondentes aos meses de 2024. Para a manipulação e processamento, foi utilizado o framework Apache Spark, que permitiu a unificação e limpeza dos arquivos, incluindo a remoção de linhas mal formatadas e a especificação do separador de colunas e codificação (UTF-8). A etapa de pré-processamento é fundamental, pois a eficácia dos algoritmos depende da qualidade dos dados de entrada (Fávero & Belfiore, 2024). Após a limpeza, foi realizada a padronização dos formatos numéricos, substituindo vírgulas por pontos como separador decimal e removendo os separadores de milhar. O conjunto de dados consolidado foi armazenado no formato Apache Parquet, otimizado para operações de leitura. A infraestrutura tecnológica incluiu a linguagem Python no IDE Spyder e bibliotecas como Pandas, Matplotlib, Seaborn, e os frameworks CatBoost, Random Forest e XGBoost.

A análise exploratória de dados (EDA) foi conduzida para compreender a estrutura do dataset, composto por 13 variáveis categóricas e 12 numéricas. A variável alvo, vencidoacimade15dias, foi transformada em uma variável binária (0 para adimplente, 1 para inadimplente), enquadrando o problema como classificação binária. A análise de correlação foi realizada para o conjunto de dados completo e para um subconjunto focado em clientes Pessoa Física (PF), pois clientes Pessoa Jurídica (PJ) possuem perfis distintos. A análise revelou que a proporção de inadimplência era maior no grupo de PF. Visualizações gráficas exploraram a relação entre inadimplência e variáveis como UF, indexador e modalidade de crédito, confirmando a relevância dessas features.

A seleção dos algoritmos baseou-se em sua eficácia em problemas de classificação. O Random Forest foi escolhido por sua robustez contra overfitting, obtida pela agregação de árvores de decisão (Breiman, 2001). O XGBoost foi selecionado por sua alta performance e velocidade, sendo uma implementação otimizada do gradient boosting (Chen & Guestrin, 2016; Friedman, 2001). O CatBoost foi incluído por sua capacidade nativa de lidar com variáveis categóricas, simplificando o pré-processamento (Prokhorenkova et al., 2018). A avaliação do desempenho utilizou Acurácia, Precisão, Recall e F1-Score. Adicionalmente, a curva ROC e o cálculo da AUC-ROC foram usados para avaliar a capacidade discriminativa dos modelos (Fawcett, 2006). Para garantir a robustez, foi empregada a validação cruzada k-fold, que mitiga o risco de o desempenho ser dependente de uma divisão específica entre treino e teste (Fávero & Belfiore, 2024).

Os resultados obtidos revelaram desempenhos distintos. O CatBoost Classifier demonstrou um desempenho superior, exigindo mínimo ajuste de hiperparâmetros e pré-processamento simplificado. Sua principal vantagem foi lidar nativamente com variáveis categóricas. A matriz de confusão inicial mostrou alta taxa de acertos, e a curva AUC-ROC apresentou valores próximos a 1.0 para treino e teste, com uma AUC de 0.99, sinalizando excelente capacidade de discriminação e ausência de overfitting. A análise de importância das variáveis indicou que a feature carteirainadimplidaarrastada possuía a maior significância. Contudo, sua alta correlação com a variável alvo poderia levar a um vazamento de dados conceitual. Para investigar esse efeito, foi realizado um segundo treinamento do CatBoost removendo essa variável. Os resultados mostraram uma leve queda no desempenho, mas o gráfico de importância das variáveis tornou-se mais distribuído, com outras features como ativo_problematico e modalidade ganhando relevância. A validação cruzada k-fold confirmou a estabilidade e robustez dos resultados em ambas as versões do modelo.

O Random Forest Classifier apresentou resultados satisfatórios, porém inferiores aos do CatBoost. A implementação exigiu um pré-processamento mais intensivo, com remoção de variáveis com alta multicolinearidade e a transformação de variáveis categóricas via one-hot encoding. Esse processo aumentou a dimensionalidade do dataset, resultando em um tempo de treinamento maior. A matriz de confusão e a curva AUC-ROC do Random Forest indicaram bom poder preditivo, mas com valores de AUC ligeiramente inferiores aos do CatBoost. O XGBoost Classifier, utilizando o mesmo pré-processamento do Random Forest, demonstrou um desempenho notável, superando o Random Forest em todas as métricas e se aproximando do CatBoost. Sua vantagem mais evidente foi a velocidade de processamento, significativamente mais rápido que o Random Forest. A curva AUC-ROC do XGBoost também apresentou valores excelentes, e a robustez do modelo foi confirmada pela validação cruzada.

Em análise comparativa, o CatBoost se destacou como o algoritmo de melhor desempenho geral. Sua vantagem reside na combinação de alta acurácia com a simplicidade no pré-processamento de variáveis categóricas. O XGBoost emergiu como uma alternativa forte, com desempenho quase tão bom quanto o do CatBoost e velocidade superior à do Random Forest. O Random Forest, embora robusto, mostrou-se menos adequado para este cenário, devido à sua sensibilidade ao pré-processamento de categóricas e ao maior custo computacional. A discussão dos resultados evidencia que a escolha do algoritmo deve se adaptar às características dos dados e aos requisitos do problema.

A superioridade dos algoritmos baseados em boosting de gradiente (XGBoost e CatBoost) sobre o método de bagging (Random Forest) sugere que a construção sequencial de árvores; cada nova árvore corrige os erros da anterior, foi mais eficaz para capturar os padrões de inadimplência. A performance do CatBoost reforça a importância de algoritmos com mecanismos otimizados para features categóricas, um desafio comum em datasets financeiros. A necessidade de aplicar one-hot encoding para Random Forest e XGBoost aumentou a complexidade computacional e pode ter diluído o poder informativo de algumas variáveis. A importância das variáveis revelada pelos modelos oferece insights para a gestão de risco. Features como carteirainadimplidaarrastada e ativo_problematico foram os preditores mais fortes, mas a capacidade dos modelos de extrair poder de outras variáveis, como modalidade de crédito e indexador, demonstra o potencial do Machine Learning. A identificação de que certas modalidades de crédito estão mais associadas à inadimplência pode permitir que instituições financeiras ajustem suas políticas de forma mais granular.

A robustez dos modelos, confirmada pela validação cruzada, é crucial para sua aplicabilidade no mundo real. A consistência do desempenho do CatBoost e do XGBoost através das diferentes dobras da validação indica que os modelos aprenderam padrões generalizáveis, não apenas ruído do conjunto de treinamento. Isso confere maior confiabilidade aos resultados e segurança para sua implementação em sistemas de produção. A pesquisa, portanto, valida um processo metodológico rigoroso que pode ser replicado por instituições financeiras para desenvolver suas próprias soluções de modelagem preditiva.

Este trabalho demonstrou a viabilidade e a eficácia da aplicação de modelos de Machine Learning para a previsão de inadimplência com dados do Banco Central do Brasil. O processo abrangeu desde o tratamento rigoroso dos dados até a implementação e comparação de três algoritmos supervisionados. A análise exploratória foi fundamental para direcionar tratamentos específicos, como o foco em clientes pessoa física. A comparação entre os modelos revelou que, para o conjunto de dados analisado, o algoritmo CatBoost obteve os melhores resultados globais. Sua capacidade de lidar nativamente com variáveis categóricas simplificou o pré-processamento e resultou em um modelo com excelente acurácia e confiabilidade. O XGBoost também apresentou desempenho excepcional, posicionando-se como uma alternativa competitiva. O Random Forest, apesar de gerar resultados aceitáveis, foi o menos performático e o mais custoso em tempo de processamento. Conclui-se que o objetivo foi atingido: demonstrou-se que os algoritmos de boosting, especialmente o CatBoost, em conjunto com um pré-processamento de dados adequado, oferecem uma solução robusta e precisa para a previsão de inadimplência, podendo aprimorar as estratégias de risco de crédito em instituições financeiras.

Referências:
Banco Central do Brasil (BACEN). 2024. Disponível em: <https://dadosabertos. bcb. gov. br/dataset/scrdata>. Acesso em: 03 abr. 2025.
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5–32. doi: 10.1023/A:1010933404324.
Chen, T.; Guestrin, C. 2016. XGBoost: A scalable tree boosting system. 1. ed. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
(CNC) Confederação Nacional do Comércio de Bens, Serviços e Turismo. 2024. Pesquisa de Endividamento e Inadimplência do Consumidor (Peic) – abril de 2024. Disponível em: <https://portaldocomercio. org. br/publicacoes
posts/pesquisa-de-endividamento-e-inadimplencia-do-consumidor-peic-abril-de-2024/:>. Acesso em: 03 abr. 2025.
Fávero, L. P.; Belfiore, P. 2024. Manual de Análise de Dados: estatística e Machine Learning com EXCEL®, SPSS®, STATA®, R® e Python®. 2ed. LTC, Rio de Janeiro, RJ, Brasil.
Fawcett, T. (2006). An Introduction to ROC Analysis. Pattern Recognition Letters, 27(8), 861–874. doi: 10.1016/j. patrec.2005.10.010.
Friedman, J. H. (2001). Greedy Function Approximation: A Gradient Boosting Machine. Annals of Statistics, 29(5), 1189–1232. doi: 10.1214/aos/1013203451.
Kotsiantis, S. B. (2007). Supervised Machine Learning: A Review of Classification Techniques. Informatica, 31(3), 249–268.
Poder360. 2024. Inadimplência no Brasil atinge 41,51% da população adulta em novembro. Disponível em:<https://www. poder360. com. br/poder-economia/inadimplencia-no-brasil-atinge-4151-da-populacao-adulta-em-novembro/>. Acesso em: 17 jun. 2025.
Prokhorenkova, L.; Gusev, G.; Vorobev, A.; Dorogush, A. V.; Gulin, A. 2018. CatBoost: unbiased boosting with categorical features. 1. ed. Advances in Neural Information Processing Systems (NeurIPS)., 31.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade