
16 de janeiro de 2026
Modelo preditivo para detecção de empresas propensas à inscrição em dívida ativa
Autor(a): Jose Marcos Grabicoski — Orientador(a): Henrique Raymundo Gioia
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Esta pesquisa analisa a relação entre a inscrição de empresas em dívida ativa e suas características cadastrais, como setor de atuação, idade, tipo societário e situação cadastral, para desenvolver um modelo preditivo de risco. Utilizando um vasto conjunto de dados públicos, a investigação identifica padrões de endividamento fiscal e valida algoritmos de aprendizado de máquina capazes de prever a probabilidade de uma empresa se tornar devedora da Fazenda Pública. A finalidade é fornecer subsídios para a criação de estratégias de monitoramento mais eficientes e proativas pelos órgãos de fiscalização, otimizando a alocação de recursos e a recuperação de créditos.
A dívida ativa, conjunto de créditos devidos à Fazenda Pública após esgotados os prazos de pagamento, é formalizada pela Certidão de Dívida Ativa (CDA), um título executivo que permite a cobrança judicial (Lei nº 4.320/1964). O volume crescente desses débitos, que na esfera federal ultrapassou três trilhões de reais em 2024, evidencia a necessidade de aprimorar os mecanismos de gestão. A relevância do problema mobiliza órgãos como a Procuradoria Geral da Fazenda Nacional (PGFN), que em 2024 promoveu o I Congresso Nacional de Dívida Ativa para debater temas como governança, fraudes e estratégias de cobrança, refletindo a importância do assunto para a sustentabilidade fiscal.
O impacto da dívida ativa estende-se ao Poder Judiciário. Conforme o relatório “Justiça em Números 2023”, os processos de execução fiscal representam 34% do total de casos pendentes, com uma taxa de congestionamento de 88,4% em 2022 (Conselho Nacional De Justiça, 2023). O tempo médio para baixa processual pode chegar a quase nove anos na Justiça Federal, e apenas 2% das execuções resultam na satisfação integral do crédito. Em resposta, o Judiciário implementou medidas como a Resolução 547/2024 do CNJ, que exige a tentativa de cobrança administrativa antes do ajuizamento da ação.
Na esfera administrativa, iniciativas como o “Manual de Boas Práticas” do Tribunal de Contas do Estado de São Paulo (TCESP) buscam fortalecer a cobrança extrajudicial por meio de instrumentos como o protesto da CDA e a inclusão de devedores em cadastros de proteção ao crédito. A transação tributária, prevista no Código Tributário Nacional (Brasil, 1966), tem se destacado como ferramenta para, por meio de concessões mútuas, resolver litígios e recuperar créditos de forma mais célere. Tais esforços demonstram um movimento para modernizar a gestão da dívida ativa, tornando-a menos dependente da via judicial.
Apesar dos avanços na cobrança, o estoque da dívida continua a crescer, indicando que ações reativas são insuficientes. É imperativo focar na origem do problema: os fatores que levam uma empresa à inadimplência. Compreender o perfil das empresas inscritas em dívida ativa permite a criação de modelos de risco para intervenções preventivas. Este estudo propõe-se a investigar a relação sistemática entre a inscrição em dívida ativa e características empresariais como setor de atividade, situação cadastral, natureza jurídica, idade e composição societária, preenchendo uma lacuna na literatura com uma abordagem analítica.
A pesquisa é de natureza descritiva e exploratória, visando identificar padrões no fenômeno da inscrição em dívida ativa (Gil, 2002). Foram utilizados dados abertos de duas fontes governamentais: o Cadastro Nacional da Pessoa Jurídica (CNPJ), da Receita Federal do Brasil (2024), e a Lista de Devedores, da Secretaria de Estado da Fazenda do Paraná (SEFA/PR, 2024). A combinação dessas fontes permitiu a construção de um dataset com informações cadastrais detalhadas e o histórico de inscrição em dívida ativa no Paraná, que serviu como variável resposta para os modelos.
O processo de preparação dos dados envolveu um pipeline de tratamento (limpeza, cruzamento, normalização, engenharia de atributos) aplicado a mais de 40 arquivos brutos. Foram analisados datasets como “Empresas”, “Estabelecimentos”, “Sócios” e “Simples”, que somam dezenas de milhões de registros. Variáveis categóricas, como natureza jurídica e situação cadastral, foram codificadas numericamente. A partir desse processo, foram selecionadas variáveis com potencial preditivo, como o identificador de matriz/filial, a situação cadastral, o CNAE, a idade do estabelecimento, a natureza jurídica, o capital social, o porte, a opção pelo Simples Nacional e pelo MEI, e o número de sócios, além de variáveis da base de devedores, como número de dívidas e valor total devido.
Para a modelagem preditiva, foram comparados múltiplos algoritmos de machine learning. O ponto de partida foi a regressão logística binária para prever a probabilidade de inscrição em dívida ativa (Fávero e Belfiore, 2024), com parâmetros estimados por máxima verossimilhança. Foram explorados algoritmos baseados em árvores de decisão, como Árvore de Decisão, Random Forest (técnica de ensemble com bagging) e XGBoost (eXtreme Gradient Boosting), conforme descrito por Sicsú, Samartini e Barth (2023), com hiperparâmetros otimizados por pesquisa em grade. Adicionalmente, foi adotada uma abordagem de modelagem multinível, ou Modelos Hierárquicos Lineares (HLM), para investigar a estrutura aninhada dos dados, onde empresas (nível 1) estão agrupadas por categorias (nível 2). Essa técnica captura variações tanto dentro quanto entre os grupos (Courgeau, 2003; Snijders; Bosker, 2011). A construção dos modelos HLM seguiu a “step-up strategy” (Raudenbush e Bryk, 2002), com estimação por máxima verossimilhança restrita (REML), adequada para componentes de variância (Goldstein, 2011). O desenvolvimento foi realizado em Python e R, com suporte do ambiente Apache Spark.
A análise inicial, “Modelo_0”, aplicou a regressão logística a um dataset nacional com mais de 58 milhões de registros, dos quais 52.482 tinham dívida ativa no Paraná. O severo desbalanceamento de classes exigiu a aplicação de pesos para a classe minoritária (Hosmer, Lemeshow e Sturdivant, 2013). Os resultados mostraram um trade-off: com um ponto de corte (cutoff) de 0.3, a sensibilidade foi de 97,7%, mas a precisão de apenas 0,46%, gerando excesso de falsos positivos. Com um cutoff de 0.7, a precisão subiu para 23,5%, mas a sensibilidade caiu para 71,7%.
O “Modelo_1” restringiu a análise aos contribuintes do Paraná, com uma base de quase 4 milhões de registros e 50.016 devedores. A proporção menos desbalanceada melhorou o desempenho. Com cutoff de 0.5, a sensibilidade foi de 85,4% e a precisão de 34,1%. Ao elevar o cutoff para 0.7, a precisão atingiu 80,6%, com sensibilidade de 73,4%, indicando a viabilidade de um modelo útil com a calibração correta do ponto de corte.
O “Modelo_1a” aprofundou a análise comparando três técnicas de tratamento do desbalanceamento: ponderação, SMOTE (Chawla et al., 2002) e undersampling (Kubat & Matwin, 1997). A ponderação apresentou o melhor desempenho, com área sob a curva ROC (AUC) de 0,866 e o maior F1-Score. A análise dos coeficientes revelou que situações cadastrais como “baixada” ou “nula” e naturezas jurídicas como “Sociedade Empresária Limitada” aumentam a chance de inscrição em dívida ativa. Em contrapartida, ser optante pelo MEI ou Simples Nacional teve um forte impacto negativo, justificado pelo regime de tributação unificado.
Os modelos baseados em árvores de decisão confirmaram esses achados. O “Modelo2″ (Árvore de Decisão) identificou natureza jurídica, idade, capital social, opção pelo Simples e situação cadastral como as variáveis de maior impacto. O “Modelo3″ (Random Forest) apresentou desempenho superior, com a ponderação novamente se mostrando a melhor estratégia. As variáveis mais relevantes foram consistentes: naturezas jurídicas “Sociedade Empresária Limitada” (NJCODE2062) e “Empresário Individual” (NJCODE2135), idade, capital social e os indicadores de opção pelo Simples e MEI, que juntos explicaram cerca de 90% da capacidade preditiva.
O “Modelo_4” (XGBoost) demonstrou a performance mais robusta. Com o tratamento de ponderação, alcançou o melhor equilíbrio entre as métricas, destacando-se no AUC e F1-score. A análise de importância das variáveis reforçou a dominância dos indicadores de regime tributário (MEI e Simples) e de natureza jurídica, que responderam por mais de 70% da explicação do modelo. A configuração do algoritmo, otimizada por pesquisa em grade, incluiu parâmetros para controlar o overfitting, tornando-o uma ferramenta poderosa para predição de risco.
A abordagem multinível (“Modelo5″) ofereceu uma perspectiva complementar. O modelo nulo (“Modelo5a”) confirmou a variabilidade significativa entre as naturezas jurídicas. A inclusão de variáveis de nível 1 (características das empresas) no “Modelo5b” gerou um salto no poder explicativo, com a AUC subindo de 0,75 para 0,87. A introdução de inclinações aleatórias (“Modelo5c”) e variáveis de nível 2 (“Modelo_5d”) trouxe ganhos marginais em desempenho preditivo, mas enriqueceu o modelo ao permitir que o efeito de variáveis como a idade variasse entre os grupos de natureza jurídica.
A comparação entre os modelos revelou que a maior parte do poder explicativo provém das variáveis de nível 1. Os pseudo-R² (McFadden, CoxSnell e Nagelkerke) mostraram um aumento substancial do modelo nulo para o modelo com intercepto aleatório, estabilizando-se nos mais complexos. Isso indica que, embora os modelos multinível ofereçam maior robustez teórica e compreensão da heterogeneidade, o ganho em performance preditiva global em relação a um modelo de regressão logística bem calibrado ou ao XGBoost é discreto.
A comparação entre a regressão logística ponderada e o modelo multinível HLM2 mostrou que, embora a primeira capture maior variabilidade global (pseudo-R² mais altos), o HLM2 mantém desempenho preditivo equivalente em métricas como AUC e F1-score. A vantagem do HLM2 reside na sua capacidade de modelar a estrutura hierárquica, fornecendo insights sobre como os efeitos variam entre diferentes contextos, o que é valioso para políticas públicas segmentadas. A escolha entre os modelos depende do objetivo: para maximizar a acurácia preditiva em larga escala, o XGBoost é mais adequado; para compreender as nuances estruturais, a abordagem multinível oferece um arcabouço explicativo mais rico.
A pesquisa abordou o problema da dívida ativa no Brasil, que desafia a saúde fiscal e sobrecarrega o Judiciário. Diante de um cenário onde estratégias reativas são insuficientes, o estudo propôs uma abordagem proativa, focada na identificação de fatores de risco. Utilizando dados públicos e aplicando técnicas de machine learning, desde a regressão logística até XGBoost e modelos hierárquicos, a investigação demonstrou ser possível prever com alta acurácia a propensão de uma empresa se tornar devedora. Os resultados confirmaram que características como natureza jurídica, porte, idade, situação cadastral e, principalmente, o regime tributário (Simples Nacional e MEI), são preditores poderosos do comportamento fiscal. O modelo XGBoost se destacou pela performance preditiva, tornando-se uma ferramenta promissora para sistemas de alerta precoce. A análise multinível complementou os achados ao aprofundar a compreensão da variabilidade entre diferentes grupos de empresas, reforçando que estratégias de fiscalização podem ser mais eficazes se segmentadas. Conclui-se que o objetivo foi atingido: demonstrou-se que, por meio da aplicação de algoritmos de machine learning, é possível identificar com alta performance preditiva as empresas propensas à inscrição em dívida ativa com base em suas características cadastrais, estruturais e operacionais.
Referências:
BRASIL. Lei nº 4.320, de 17 de março de 1964. Estatui normas gerais de direito financeiro para elaboração e controle dos orçamentos e balanços da União, dos Estados, dos Municípios e do Distrito Federal. Diário Oficial da União, Brasília, DF, 23 mar. 1964. Disponível em: http://www. planalto. gov. br/ccivil03/leis/l4320. htm. Acesso em: 16 out. 2024.
Brasil. Lei nº 5.172, de 25 de outubro de 1966. Institui o Código Tributário Nacional. Diário Oficial da União, Brasília, DF, 26 out. 1966.
Brasil. Conselho Nacional de Justiça. Resolução nº 547, de 22 de fevereiro de 2024. Dispõe sobre a tramitação das execuções fiscais no Poder Judiciário. Disponível em: https://atos. cnj. jus. br/atos/detalhar/5455. Acesso em: 20 dez. 2024
Chawla, N. V.; Bowyer, K. W.; Hall, L. O.; Kegelmeyer, W. P. (2002). SMOTE: Synthetic Minority Over-sampling Technique. Journal of Artificial Intelligence Research, v. 16: p. 321–357.
Congresso Nacional da Dívida Ativa, I, 2024, Brasília. Anais do I Congresso Nacional da Dívida Ativa, Brasília: Procuradoria-Geral da Fazenda Nacional, 2024. Disponível em: https://www. gov. br/pgfn/pt-br/central-de-conteudo/publicacoes/icongressonacional-dadivida-ativam. pdf. Acesso em 18 out. 2024.
Conselho Nacional De Justiça. Justiça em números 2023: ano-base 2022. Brasília, DF: CNJ, 2023. Disponível em: https://www. cnj. jus. br/wp-content/uploads/2023/08/justica-em-numeros-2023. pdf. Acesso em: 20 dez. 2024.
Courgeau, Daniel. Methodology and Epistemology of Multilevel Analysis. London: Kluwer Academic Publishers, 2003.
Fávero, L. P.; Belfiore, P. 2024. Manual de análise de dados. 2ed. GEN LTC, Rio de Janeiro, RJ, Brasil.
Gil, A. C. 2002. Como elaborar projetos de pesquisa. 4ed. Atlas, São Paulo, SP, Brasil.
Goldstein, H. 2011. Multilevel statistical models. 4ed. John Wiley & Sons, Chichester, West Sussex, England.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (Vol. 398). John Wiley & Sons.
Kubat, Miroslav; Matwin, Stan. 1977. Addressing the Curse of Imbalanced Training Sets: One-Sided Selection. In: Proceedings of the Fourteenth International Conference on Machine Learning (ICML). Morgan Kaufmann. p. 179–186.
Murphy, K. P. 2012. Machine Learning: A Probabilistic Perspective. Cambridge, MA: MIT Press. ISBN 978-0262018029.
Raudenbush, S. W., & Bryk, A. S. 2002. Hierarchical linear models: Applications and data analysis methods (2nd ed.). Sage Publications.
Receita Federal do Brasil. 2024. Dados abertos CNPJ. Disponível em: https://dadosabertos. rfb. gov. br/CNPJ/dadosabertos_cnpj/. Acesso em: 22 out. 2024.
Secretaria da Fazenda do Estado do Paraná. (2024). Portal de Devedores – Lista de Devedores. Disponível em: https://listadevedores. sefa. pr. gov. br/portal-devedor/arquivo. Acesso em: 22 out. 2024.
Sicsú, A. L., Samartini, A., & Barth, N. L. 2023. Técnicas de machine learning. São Paulo: Editora Blucher.
Snijders, Tom A. B.; Bosker, Roel J. Multilevel Analysis: An Introduction to Basic and Advanced Multilevel Modeling. 2. ed. Thousand Oaks: Sage Publications, 2011.
Tribunal de Contas do Estado de São Paulo. Manual de Boas Práticas: Racionalização na Cobrança da Dívida Ativa. São Paulo: TCESP, 2024. Disponível em: https://www. tce. sp. gov. br/publicacoes/manual-boas-praticas-recuperacao-extrajudicial-creditos. Acesso em: 22 out. 2024.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































