
26 de fevereiro de 2026
Modelagem Preditiva de Inadimplência com Algoritmos Supervisionados de Machine Learning
João Gabriel de Medeiros Luz Pedro; Carlos Nabil Ghobril
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo desta pesquisa foi analisar e tratar um conjunto de dados do Banco Central do Brasil (Bacen) para implementar, treinar e validar modelos de Machine Learning, utilizando os algoritmos supervisionados CatBoost, Random Forest e XGBoost, a fim de mensurar a capacidade preditiva na identificação de inadimplência. A complexidade do cenário econômico brasileiro, com o aumento do endividamento familiar, exige que instituições financeiras possuam ferramentas precisas para gestão de risco de crédito. A capacidade de antecipar o comportamento de pagamento dos consumidores é um pilar para a sustentabilidade do setor, e a aplicação de técnicas de ciência de dados surge como solução para aprimorar a precisão das análises.
O panorama do endividamento no Brasil justifica a urgência de estudos na área. Dados da Pesquisa de Endividamento e Inadimplência do Consumidor (PEIC) de abril de 2024 mostram que 78,5% das famílias brasileiras possuíam dívidas, e 12,1% admitiram não ter condições de honrar seus compromissos (CNC, 2024). Uma pesquisa da CNDL e do SPC Brasil registrou 68,62 milhões de brasileiros inadimplentes, correspondendo a 41,51% da população adulta (Poder360, 2024). Esses números sinalizam um risco sistêmico que pode afetar a estabilidade das instituições financeiras. Uma prática que contribui para o endividamento é a extensão dos prazos de pagamento, que compromete a renda futura e aumenta a probabilidade de inadimplência em cenários de instabilidade (CNC, 2024). Diante disso, a análise de crédito tradicional, baseada em regras estáticas, é insuficiente. A necessidade de aprimorar os mecanismos de análise de risco é imperativa para mitigar perdas.
A presente pesquisa propõe uma abordagem baseada em aprendizado de máquina para a previsão de inadimplência. A utilização de algoritmos supervisionados permite a construção de modelos que aprendem padrões a partir de dados históricos, identificando relações não lineares que seriam difíceis de detectar por métodos estatísticos convencionais (Kotsiantis, 2007). Um dos desafios técnicos enfrentados foi a presença de um grande número de variáveis categóricas, como ‘ocupacao’, ‘modalidade’ de crédito e ‘uf’, que são cruciais para a caracterização do perfil do cliente, mas exigem tratamentos específicos para serem utilizadas por algoritmos como Random Forest e XGBoost. A escolha de técnicas de pré-processamento e a seleção de features foram etapas fundamentais para garantir a geração de modelos preditivos robustos.
O escopo do trabalho abrangeu um ciclo completo de um projeto de ciência de dados: extração e tratamento dos dados, análise exploratória, treinamento, avaliação e comparação de múltiplos modelos de Machine Learning. A validação dos resultados foi realizada por meio de métricas como acurácia, F1-Score e a área sob a curva ROC (AUC-ROC), garantindo uma avaliação objetiva do desempenho de cada algoritmo. O estudo buscou identificar o modelo mais eficaz para o cenário proposto, fornecendo uma base para a implementação de sistemas de apoio à decisão em instituições financeiras.
A metodologia iniciou com a coleta de dados históricos de crédito do Sistema de Informações de Crédito (SCR) do Bacen (Banco Central do Brasil, 2024). O conjunto de dados inicial compreendia 12 arquivos CSV, correspondentes aos meses de 2024. Para a manipulação e processamento, foi utilizado o framework Apache Spark, que permitiu a unificação e limpeza dos arquivos, incluindo a remoção de linhas mal formatadas e a especificação do separador de colunas e codificação (UTF-8). A etapa de pré-processamento é fundamental, pois a eficácia dos algoritmos depende da qualidade dos dados de entrada (Fávero & Belfiore, 2024). Após a limpeza, foi realizada a padronização dos formatos numéricos, substituindo vírgulas por pontos como separador decimal e removendo os separadores de milhar. O conjunto de dados consolidado foi armazenado no formato Apache Parquet, otimizado para operações de leitura. A infraestrutura tecnológica incluiu a linguagem Python no IDE Spyder e bibliotecas como Pandas, Matplotlib, Seaborn, e os frameworks CatBoost, Random Forest e XGBoost.
A análise exploratória de dados (EDA) foi conduzida para compreender a estrutura do dataset, composto por 13 variáveis categóricas e 12 numéricas. A variável alvo, vencidoacimade15dias, foi transformada em uma variável binária (0 para adimplente, 1 para inadimplente), enquadrando o problema como classificação binária. A análise de correlação foi realizada para o conjunto de dados completo e para um subconjunto focado em clientes Pessoa Física (PF), pois clientes Pessoa Jurídica (PJ) possuem perfis distintos. A análise revelou que a proporção de inadimplência era maior no grupo de PF. Visualizações gráficas exploraram a relação entre inadimplência e variáveis como UF, indexador e modalidade de crédito, confirmando a relevância dessas features.
A seleção dos algoritmos baseou-se em sua eficácia em problemas de classificação. O Random Forest foi escolhido por sua robustez contra overfitting, obtida pela agregação de árvores de decisão (Breiman, 2001). O XGBoost foi selecionado por sua alta performance e velocidade, sendo uma implementação otimizada do gradient boosting (Chen & Guestrin, 2016; Friedman, 2001). O CatBoost foi incluído por sua capacidade nativa de lidar com variáveis categóricas, simplificando o pré-processamento (Prokhorenkova et al., 2018). A avaliação do desempenho utilizou Acurácia, Precisão, Recall e F1-Score. Adicionalmente, a curva ROC e o cálculo da AUC-ROC foram usados para avaliar a capacidade discriminativa dos modelos (Fawcett, 2006). Para garantir a robustez, foi empregada a validação cruzada k-fold, que mitiga o risco de o desempenho ser dependente de uma divisão específica entre treino e teste (Fávero & Belfiore, 2024).
Os resultados obtidos revelaram desempenhos distintos. O CatBoost Classifier demonstrou um desempenho superior, exigindo mínimo ajuste de hiperparâmetros e pré-processamento simplificado. Sua principal vantagem foi lidar nativamente com variáveis categóricas. A matriz de confusão inicial mostrou alta taxa de acertos, e a curva AUC-ROC apresentou valores próximos a 1.0 para treino e teste, com uma AUC de 0.99, sinalizando excelente capacidade de discriminação e ausência de overfitting. A análise de importância das variáveis indicou que a feature carteirainadimplidaarrastada possuía a maior significância. Contudo, sua alta correlação com a variável alvo poderia levar a um vazamento de dados conceitual. Para investigar esse efeito, foi realizado um segundo treinamento do CatBoost removendo essa variável. Os resultados mostraram uma leve queda no desempenho, mas o gráfico de importância das variáveis tornou-se mais distribuído, com outras features como ativo_problematico e modalidade ganhando relevância. A validação cruzada k-fold confirmou a estabilidade e robustez dos resultados em ambas as versões do modelo.
O Random Forest Classifier apresentou resultados satisfatórios, porém inferiores aos do CatBoost. A implementação exigiu um pré-processamento mais intensivo, com remoção de variáveis com alta multicolinearidade e a transformação de variáveis categóricas via one-hot encoding. Esse processo aumentou a dimensionalidade do dataset, resultando em um tempo de treinamento maior. A matriz de confusão e a curva AUC-ROC do Random Forest indicaram bom poder preditivo, mas com valores de AUC ligeiramente inferiores aos do CatBoost. O XGBoost Classifier, utilizando o mesmo pré-processamento do Random Forest, demonstrou um desempenho notável, superando o Random Forest em todas as métricas e se aproximando do CatBoost. Sua vantagem mais evidente foi a velocidade de processamento, significativamente mais rápido que o Random Forest. A curva AUC-ROC do XGBoost também apresentou valores excelentes, e a robustez do modelo foi confirmada pela validação cruzada.
Em análise comparativa, o CatBoost se destacou como o algoritmo de melhor desempenho geral. Sua vantagem reside na combinação de alta acurácia com a simplicidade no pré-processamento de variáveis categóricas. O XGBoost emergiu como uma alternativa forte, com desempenho quase tão bom quanto o do CatBoost e velocidade superior à do Random Forest. O Random Forest, embora robusto, mostrou-se menos adequado para este cenário, devido à sua sensibilidade ao pré-processamento de categóricas e ao maior custo computacional. A discussão dos resultados evidencia que a escolha do algoritmo deve se adaptar às características dos dados e aos requisitos do problema.
A superioridade dos algoritmos baseados em boosting de gradiente (XGBoost e CatBoost) sobre o método de bagging (Random Forest) sugere que a construção sequencial de árvores; cada nova árvore corrige os erros da anterior, foi mais eficaz para capturar os padrões de inadimplência. A performance do CatBoost reforça a importância de algoritmos com mecanismos otimizados para features categóricas, um desafio comum em datasets financeiros. A necessidade de aplicar one-hot encoding para Random Forest e XGBoost aumentou a complexidade computacional e pode ter diluído o poder informativo de algumas variáveis. A importância das variáveis revelada pelos modelos oferece insights para a gestão de risco. Features como carteirainadimplidaarrastada e ativo_problematico foram os preditores mais fortes, mas a capacidade dos modelos de extrair poder de outras variáveis, como modalidade de crédito e indexador, demonstra o potencial do Machine Learning. A identificação de que certas modalidades de crédito estão mais associadas à inadimplência pode permitir que instituições financeiras ajustem suas políticas de forma mais granular.
A robustez dos modelos, confirmada pela validação cruzada, é crucial para sua aplicabilidade no mundo real. A consistência do desempenho do CatBoost e do XGBoost através das diferentes dobras da validação indica que os modelos aprenderam padrões generalizáveis, não apenas ruído do conjunto de treinamento. Isso confere maior confiabilidade aos resultados e segurança para sua implementação em sistemas de produção. A pesquisa, portanto, valida um processo metodológico rigoroso que pode ser replicado por instituições financeiras para desenvolver suas próprias soluções de modelagem preditiva.
Este trabalho demonstrou a viabilidade e a eficácia da aplicação de modelos de Machine Learning para a previsão de inadimplência com dados do Banco Central do Brasil. O processo abrangeu desde o tratamento rigoroso dos dados até a implementação e comparação de três algoritmos supervisionados. A análise exploratória foi fundamental para direcionar tratamentos específicos, como o foco em clientes pessoa física. A comparação entre os modelos revelou que, para o conjunto de dados analisado, o algoritmo CatBoost obteve os melhores resultados globais. Sua capacidade de lidar nativamente com variáveis categóricas simplificou o pré-processamento e resultou em um modelo com excelente acurácia e confiabilidade. O XGBoost também apresentou desempenho excepcional, posicionando-se como uma alternativa competitiva. O Random Forest, apesar de gerar resultados aceitáveis, foi o menos performático e o mais custoso em tempo de processamento. Conclui-se que o objetivo foi atingido: demonstrou-se que os algoritmos de boosting, especialmente o CatBoost, em conjunto com um pré-processamento de dados adequado, oferecem uma solução robusta e precisa para a previsão de inadimplência, podendo aprimorar as estratégias de risco de crédito em instituições financeiras.
Referências:
Banco Central do Brasil (BACEN). 2024. Disponível em: <https://dadosabertos. bcb. gov. br/dataset/scrdata>. Acesso em: 03 abr. 2025.
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5–32. doi: 10.1023/A:1010933404324.
Chen, T.; Guestrin, C. 2016. XGBoost: A scalable tree boosting system. 1. ed. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794.
(CNC) Confederação Nacional do Comércio de Bens, Serviços e Turismo. 2024. Pesquisa de Endividamento e Inadimplência do Consumidor (Peic) – abril de 2024. Disponível em: <https://portaldocomercio. org. br/publicacoesposts/pesquisa-de-endividamento-e-inadimplencia-do-consumidor-peic-abril-de-2024/:>. Acesso em: 03 abr. 2025.
Fávero, L. P.; Belfiore, P. 2024. Manual de Análise de Dados: estatística e Machine Learning com EXCEL®, SPSS®, STATA®, R® e Python®. 2ed. LTC, Rio de Janeiro, RJ, Brasil.
Fawcett, T. (2006). An Introduction to ROC Analysis. Pattern Recognition Letters, 27(8), 861–874. doi: 10.1016/j. patrec.2005.10.010.
Friedman, J. H. (2001). Greedy Function Approximation: A Gradient Boosting Machine. Annals of Statistics, 29(5), 1189–1232. doi: 10.1214/aos/1013203451.
Kotsiantis, S. B. (2007). Supervised Machine Learning: A Review of Classification Techniques. Informatica, 31(3), 249–268.
Poder360. 2024. Inadimplência no Brasil atinge 41,51% da população adulta em novembro. Disponível em:<https://www. poder360. com. br/poder-economia/inadimplencia-no-brasil-atinge-4151-da-populacao-adulta-em-novembro/>. Acesso em: 17 jun. 2025.
Prokhorenkova, L.; Gusev, G.; Vorobev, A.; Dorogush, A. V.; Gulin, A. 2018. CatBoost: unbiased boosting with categorical features. 1. ed. Advances in Neural Information Processing Systems (NeurIPS)., 31.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































