Resumo Executivo

04 de maio de 2026

Predição de inscrição em dívida ativa com machine learning

José Marcos Grabicoski; Henrique Raymundo Gioia

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

A dívida ativa compreende o conjunto de créditos, tributários ou não, devidos por pessoas físicas ou jurídicas em favor da Fazenda Pública, conforme estabelecido pela Lei 4320 de 17 de março de 1964 (Brasil, 1964). A constituição desses créditos ocorre por meio da inscrição de débitos que não foram quitados dentro do prazo legal, sendo formalizada pela Certidão de Dívida Ativa. Esse documento possui presunção de certeza e liquidez, servindo como título executivo para que a Administração Pública inicie o processo de execução judicial. A relevância do tema é evidenciada pelo volume financeiro envolvido, que no âmbito federal ultrapassou a marca de 3 trilhões de reais em 2024. Esse montante representa um desafio crítico para a gestão fiscal e para a sustentabilidade das políticas públicas em todas as esferas da federação. O congestionamento do Poder Judiciário é um dos reflexos diretos dessa situação, uma vez que os casos de execução fiscal representam 34% do total de processos pendentes e 64% das execuções no sistema judiciário brasileiro. Na Justiça estadual, o cenário é ainda mais alarmante, concentrando 85% de um total de 27.300.000 execuções fiscais. Dados do Conselho Nacional de Justiça indicam que a taxa de congestionamento desses processos atingiu 88,4% em 2022, o que significa que apenas 12 em cada 100 processos foram encerrados naquele ano. O tempo médio para a baixa de uma execução fiscal na Justiça Estadual é de seis anos e três meses, enquanto na Justiça Federal esse prazo se estende para oito anos e 10 meses.

A baixa eficiência na recuperação desses créditos, onde apenas 2% das execuções fiscais resultam na satisfação integral do débito, impulsiona a busca por métodos alternativos e preventivos. A Procuradoria Geral da Fazenda Nacional promoveu debates em 2024 focados em governança, estratégias de cobrança e o uso do instituto da transação tributária, previsto no Código Tributário Nacional (Brasil, 1966). O Tribunal de Contas do Estado de São Paulo também reforçou a necessidade de instrumentos extrajudiciais, como o protesto da certidão de dívida ativa e a inclusão de devedores em cadastros de proteção ao crédito. Nesse contexto, a aplicação de técnicas de ciência de dados e aprendizado de máquina surge como uma ferramenta estratégica para identificar padrões de inadimplência e prever o risco de inscrição em dívida ativa. A análise do comportamento empresarial e das características cadastrais permite que a administração tributária atue de forma mais assertiva, priorizando ações de fiscalização e cobrança administrativa antes que o débito se torne um processo judicial de difícil resolução. O uso de modelos preditivos fundamenta-se na premissa de que certas variáveis, como o setor de atuação, a natureza jurídica e o tempo de existência da empresa, possuem correlação direta com a propensão ao endividamento tributário.

A fundamentação teórica para a construção desses modelos baseia-se na regressão logística binária e em algoritmos de classificação supervisionada. A regressão logística é amplamente utilizada para prever a probabilidade de ocorrência de um evento binário, lidando com variáveis dependentes qualitativas (Fávero; Belfiore, 2024). Diferente da regressão linear, essa técnica utiliza a função logística para garantir que os resultados estejam compreendidos no intervalo entre 0 e 1, representando a probabilidade de um Cadastro Nacional da Pessoa Jurídica ser inscrito em dívida ativa. Além dos modelos tradicionais, a abordagem multinível ou modelos hierárquicos lineares permitem capturar estruturas aninhadas nos dados, considerando variações tanto dentro quanto entre grupos específicos, como setores econômicos ou naturezas jurídicas (Snijders; Bosker, 2011). Essa perspectiva é essencial para evitar análises equivocadas que desconsideram as interações entre diferentes contextos empresariais e regionais (Courgeau, 2003). A integração de técnicas avançadas de aprendizado de máquina, como Random Forest e XGBoost, complementa a análise ao oferecer robustez no tratamento de grandes volumes de dados e na identificação de relações não lineares entre as variáveis explicativas (Sicsú; Samartini; Barth, 2023).

O detalhamento metodológico deste estudo envolveu o processamento de dados abertos disponibilizados pela Receita Federal do Brasil e pela Secretaria de Estado da Fazenda do Paraná. A coleta abrangeu informações cadastrais de mais de 59.616.973 instituições distribuídas em 89 naturezas jurídicas distintas. Entre as categorias com maior volume de registros, destacam-se o empresário individual com 37.889.727 inscrições e a sociedade empresária limitada com 14.106.723 registros. Por outro lado, naturezas jurídicas como fundações públicas e órgãos públicos autônomos apresentam uma presença mínima na base de dados. O conjunto de dados de estabelecimentos totalizou 62.634.863 registros localizados em todas as unidades da federação, com São Paulo concentrando a maior fatia, com 18.040.391 estabelecimentos, seguido por Minas Gerais com 6.831.659 e Rio de Janeiro com 5.341.136. A situação cadastral desses estabelecimentos revelou que 28.201.184 encontram-se na condição de baixada, enquanto 24.037.009 estão ativos e 10.025.624 são classificados como inaptos.

O processo de limpeza e pré-processamento foi executado em mais de 40 conjuntos de dados, utilizando o ambiente Apache Spark para lidar com a volumetria massiva. A preparação incluiu a normalização, padronização e codificação de variáveis categóricas. O cruzamento de dados foi realizado utilizando o CNPJ como chave primária, conectando as informações de empresas, sócios, estabelecimentos e a opção pelo regime do Simples Nacional. A base de devedores do estado do Paraná forneceu o rótulo para o treinamento dos modelos, contendo 2.313.570 registros de Certidões de Dívida Ativa geradas até 30 de setembro de 2024. Essas certidões totalizam 57,5 bilhões de reais, sendo que o Imposto sobre Circulação de Mercadorias e Serviços (ICMS) responde por 96% desse montante, equivalente a 55,2 bilhões de reais distribuídos em 531.898 documentos. A análise temporal das dívidas de ICMS mostrou que o estoque acumulado entre 2011 e 2020 soma 28.768.979.121,84 reais, evidenciando a persistência do endividamento ao longo das décadas.

A seleção de variáveis foi orientada por técnicas de engenharia de atributos, identificando características como a identificação de matriz ou filial, a Classificação Nacional de Atividades Econômicas (CNAE), a unidade da federação, a idade do estabelecimento e o capital social. No âmbito societário, foram considerados o número total de sócios e a composição entre pessoas físicas, jurídicas e estrangeiros. A variável dependente foi definida de forma binária, onde o valor 1 indica a existência de dívida ativa e 0 a ausência. Para lidar com o desbalanceamento severo da base de dados, onde o número de eventos positivos é significativamente inferior ao de negativos, foram aplicadas técnicas de ponderação de classes, SMOTE (Synthetic Minority Over-sampling Technique) e undersampling. O SMOTE atua gerando amostras sintéticas para a classe minoritária por meio da interpolação de dados de vizinhos próximos (Chawla et al., 2002), enquanto o undersampling reduz a classe majoritária para equilibrar a amostra (Kubat; Matwin, 1997).

A modelagem estatística seguiu uma estratégia de adição progressiva, conhecida como step-up strategy, para os modelos multiníveis. Iniciou-se com um modelo nulo para avaliar a significância dos efeitos aleatórios de intercepto no nível 2, representado pelas naturezas jurídicas e setores econômicos. A evolução do modelo incluiu variáveis de nível 1, como idade e capital social, e posteriormente incluiu inclinações aleatórias para verificar se o efeito dessas variáveis variava entre os diferentes grupos empresariais (Raudenbush; Bryk, 2002). A estimação dos parâmetros foi realizada por máxima verossimilhança, garantindo a robustez estatística necessária para a interpretação dos coeficientes. O desempenho dos modelos foi avaliado por meio de métricas como a Área sob a Curva ROC (AUC), acurácia, precisão, sensibilidade (recall) e o F1-score. A matriz de confusão permitiu identificar a capacidade do modelo em distinguir corretamente entre devedores e não devedores em diferentes limiares de decisão (cutoffs).

Os resultados do primeiro modelo, denominado Modelo_0, que considerou a totalidade dos dados nacionais, apresentaram uma AUC de 0,9830, indicando uma excelente capacidade discriminatória. No entanto, ao utilizar um cutoff padrão de 0,5, a precisão foi de apenas 4,33%, apesar de um recall de 84,52%. Isso demonstra que, embora o modelo identifique a maioria dos devedores, ele gera um número elevado de falsos positivos devido ao desbalanceamento extremo da base original. Ao ajustar o cutoff para 0,7, o modelo tornou-se mais conservador, elevando a precisão para 23,46% e a especificidade para 99,79%, mas reduzindo a sensibilidade para 71,74%. Essa troca entre sensibilidade e precisão é um ponto crítico para a operacionalização do modelo em um cenário real de fiscalização tributária.

O Modelo_1, focado especificamente nos contribuintes do estado do Paraná, apresentou resultados mais equilibrados. Com uma base de 3.988.929 linhas e 50.016 eventos, a utilização de pesos para minimizar o desbalanceamento permitiu alcançar uma precisão de 34,08% e um recall de 85,40% no cutoff de 0,5. A análise detalhada dos coeficientes da regressão logística revelou que certas naturezas jurídicas possuem um impacto positivo fortíssimo na probabilidade de inscrição em dívida ativa. Sociedades empresárias limitadas e sociedades anônimas fechadas apresentaram maior propensão ao endividamento. Por outro lado, variáveis relacionadas à opção pelo Microempreendedor Individual (MEI) e pelo Simples Nacional demonstraram um impacto negativo significativo, reduzindo drasticamente a chance de existência de dívida estadual. Esse fenômeno é explicado pelo fato de que, até períodos recentes, as dívidas desses regimes eram centralizadas na União, não compondo a dívida ativa estadual analisada.

A comparação entre as técnicas de tratamento de desbalanceamento mostrou que o uso de pesos apresentou o melhor desempenho global em termos de AUC (0,8660) e F1-score. O SMOTE, embora tenha elevado a acurácia para 0,9569 em determinados cenários, prejudicou a sensibilidade, resultando em um recall de apenas 20,26% no cutoff de 0,7. O undersampling apresentou um recall elevado (92,73% no cutoff de 0,3), mas com uma precisão muito baixa (2,98%), o que o torna pouco prático para ações de cobrança que exigem alta assertividade. A análise de importância das variáveis nos modelos de árvore de decisão e Random Forest confirmou que a natureza jurídica, a idade da empresa e o capital social são os preditores mais relevantes, respondendo por cerca de 89% da explicação do modelo.

O algoritmo XGBoost superou os demais modelos em termos de métricas de ajuste, alcançando uma AUC de 0,9051 no cenário ponderado. Esse modelo demonstrou uma capacidade superior de capturar padrões complexos e interações entre as variáveis cadastrais. No cutoff de 0,5, o XGBoost obteve uma acurácia de 76,49% e um recall de 88,23%. A robustez desse algoritmo é evidenciada pela sua resistência a outliers e pela capacidade de lidar com dados faltantes de forma eficiente. A discussão dos resultados aponta que a integração de modelos de aprendizado de máquina na rotina da administração fazendária pode transformar a gestão da dívida ativa, permitindo uma segmentação mais precisa dos devedores e a aplicação de medidas de cobrança personalizadas.

A abordagem multinível (HLM2) trouxe uma contribuição teórica importante ao demonstrar que a variabilidade entre as naturezas jurídicas não é desprezível. O modelo de intercepto aleatório mostrou que o risco base de inscrição em dívida ativa varia significativamente conforme o tipo societário, mesmo após controlar por variáveis individuais como idade e porte. A inclusão de inclinações aleatórias para a variável idade revelou que o efeito do tempo de existência da empresa na propensão ao endividamento não é uniforme entre os grupos. Em algumas naturezas jurídicas, o amadurecimento da empresa reduz o risco de dívida, enquanto em outras, empresas mais antigas acumulam passivos tributários maiores. O salto no ajuste estatístico, observado pela redução dos critérios de informação AIC e BIC ao passar do modelo nulo para o modelo com variáveis de nível 1, reforça a validade da estrutura hierárquica. O pseudo-R² de McFadden atingiu aproximadamente 0,40 nos modelos mais complexos, o que é considerado um excelente ajuste para modelos logísticos.

A discussão sobre as limitações do estudo reconhece que a base de dados, embora extensa, reflete apenas informações cadastrais e de dívida inscrita. A inclusão de variáveis dinâmicas, como o histórico de pagamentos mensais, o volume de notas fiscais emitidas e indicadores macroeconômicos do setor, poderia aumentar ainda mais o poder preditivo. Além disso, a natureza dos dados abertos impõe restrições quanto ao sigilo fiscal, impedindo o acesso a detalhes financeiros mais profundos que certamente influenciam a solvência das empresas. Pesquisas futuras podem explorar a aplicação de redes neurais profundas e modelos de análise de sobrevivência para prever não apenas se uma empresa se tornará devedora, mas em quanto tempo isso ocorrerá após a sua abertura ou após uma alteração contratual específica.

A implicação social e prática deste estudo reside na otimização dos recursos públicos. Ao identificar empresas com alto risco de inadimplência, o Estado pode intervir precocemente por meio de programas de conformidade tributária e educação fiscal, evitando que o acúmulo de dívidas leve à insolvência empresarial e à perda de postos de trabalho. Para o sistema judiciário, a redução do ajuizamento de execuções fiscais de baixo potencial de recuperação alivia a carga processual e permite que os magistrados foquem em causas de maior complexidade e relevância social. A eficiência na arrecadação, potencializada pela ciência de dados, garante que os recursos devidos à sociedade sejam efetivamente aplicados em saúde, educação e segurança, fortalecendo o pacto federativo e a justiça fiscal.

Conclui-se que o objetivo foi atingido, demonstrando que é possível construir modelos preditivos robustos para a detecção de empresas propensas à inscrição em dívida ativa utilizando técnicas de aprendizado de máquina e modelos multiníveis. A análise evidenciou que variáveis como natureza jurídica, porte e idade empresarial são determinantes fundamentais do risco tributário. O algoritmo XGBoost e a regressão logística ponderada destacaram-se como as ferramentas mais eficazes para lidar com o desbalanceamento dos dados e fornecer previsões assertivas. A integração da abordagem multinível permitiu compreender a heterogeneidade entre os diferentes grupos societários, oferecendo uma visão estruturada que supera as limitações dos modelos tradicionais. Os resultados fornecem subsídios valiosos para a modernização da administração tributária, promovendo uma cobrança mais eficiente e uma gestão fiscal baseada em evidências.

Referências Bibliográficas:

BRASIL. Lei nº 4.320, de 17 de março de 1964. Estatui normas gerais de direito financeiro para elaboração e controle dos orçamentos e balanços da União, dos Estados, dos Municípios e do Distrito Federal. Diário Oficial da União, Brasília, DF, 23 mar. 1964. Disponível em: http://www.planalto.gov.br/ccivil_03/leis/l4320.htm. Acesso em: 16 out. 2024.

Brasil. Lei nº 5.172, de 25 de outubro de 1966. Institui o Código Tributário Nacional. Diário Oficial da União, Brasília, DF, 26 out. 1966.

Chawla, N. V.; Bowyer, K. W.; Hall, L. O.; Kegelmeyer, W. P. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, v. 16: p. 321–357.

Courgeau, Daniel. Methodology and Epistemology of Multilevel Analysis. London: Kluwer Academic Publishers, 2003.

Fávero, L. P.; Belfiore, P. 2024. Manual de análise de dados. 2ed. GEN LTC, Rio de Janeiro, RJ, Brasil.

Kubat, Miroslav; Matwin, Stan. 1977. Addressing the Curse of Imbalanced Training Sets: One Sided Selection. In: Proceedings of the Fourteenth International Conference on Machine Learning (ICML). Morgan Kaufmann. p. 179–186.

Raudenbush, S. W., & Bryk, A. S. 2002. Hierarchical linear models: Applications and data analysis methods (2nd ed.). Sage Publications.

Sicsú, A. L., Samartini, A., & Barth, N. L. 2023. Técnicas de machine learning. São Paulo: Editora Blucher.

Snijders, Tom A. B.; Bosker, Roel J. Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling. 2. ed. Thousand Oaks: Sage Publications, 2011.

Resumo executivo oriundo de Trabalho de Conclusão de Curso da Especialização em Data Science e Analytics do MBA USP/Esalq

Para saber mais sobre o curso, clique aqui e acesse a plataforma MBX Academy

Quem editou este artigo

Mais recentes

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade