Imagem Risco de inadimplência contratual com algoritmos supervisionados em serviços jurídicos

30 de janeiro de 2026

Risco de inadimplência contratual com algoritmos supervisionados em serviços jurídicos

Bruno Salzane Rocha; Adriana Diniz Gurgel

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este trabalho aplica algoritmos de aprendizado de máquina supervisionado a uma base histórica de recebíveis de um escritório de advocacia para identificar as variáveis mais associadas à inadimplência de clientes corporativos e subsidiar o desenvolvimento de estratégias de controle de risco. A pesquisa propõe uma transição da gestão de crédito baseada em intuição para uma abordagem analítica orientada por dados, fornecendo evidências empíricas para a tomada de decisão. A investigação é necessária pois, no setor jurídico, a sustentabilidade financeira depende da previsibilidade dos fluxos de caixa, e a ausência de critérios sistemáticos para avaliação de risco de crédito compromete o planejamento e expõe as organizações a flutuações de receita e perdas financeiras.

O setor jurídico empresarial compartilha a exposição ao risco de crédito com outros setores ao firmar contratos com clientes corporativos. A inadimplência, neste cenário, é um fator estratégico que impacta a saúde financeira do escritório. Matos (2018) aponta que a falta de mecanismos preditivos torna a concessão de crédito em organizações de serviços especializados vulnerável, especialmente com carteiras de clientes diversificadas e contratos de diferentes naturezas. A heterogeneidade dos perfis de clientes, que incluem empresas de diferentes portes e ramos de atividade, aumenta a complexidade da análise. Fernandes e Silva (2020) argumentam que essa diversificação da carteira demanda modelos analíticos capazes de mapear os fatores determinantes da inadimplência para apoiar decisões preventivas e proativas.

As operações jurídicas, com contratos de longo prazo e serviços recorrentes, exigem que a gestão de crédito considere um conjunto multifacetado de características, como porte da empresa cliente, ramo de atividade, histórico de pagamentos e condições contratuais. A adoção de soluções analíticas é impulsionada pela necessidade de controle financeiro, como evidenciado por relatos de alta exposição financeira de escritórios que acumulam dívidas (Poder360, 2025), o que reforça a urgência de controles internos para o diagnóstico antecipado de riscos. A flexibilidade dos modelos de aprendizado de máquina, como apontado por Martins e Vallim-Filho (2024), é adequada para este desafio, pois são capazes de lidar com relações não lineares entre as variáveis e a inadimplência.

A superação do desafio operacional de identificar riscos de inadimplência pode transformar a gestão financeira dos escritórios. A aplicação de técnicas preditivas, conforme defendido por Souza (2022) e Matos (2018), amplia a previsibilidade de receitas e apoia decisões estratégicas sobre concessão de crédito, renegociação de contratos e definição de prazos de pagamento. A implementação de modelos supervisionados permite um controle mais granular e proativo sobre o comportamento de pagamento dos clientes. Estudos como os de Oliveira et al. (2022) e Martins e Vallim-Filho (2024) corroboram que a aplicação de algoritmos em bases de dados heterogêneas produz resultados robustos, capazes de orientar estratégias preventivas e mitigar perdas financeiras.

A pesquisa é aplicada, pois visa resolver um problema prático de gestão financeira em um escritório de advocacia (Gil, 2010). A abordagem é quantitativa, utilizando procedimentos estatísticos e algoritmos de aprendizado de máquina para testar hipóteses e construir modelos preditivos (Malhotra, 2019). O delineamento do estudo é descritivo, por buscar descrever as características do fenômeno da inadimplência com base em dados históricos (Vergara, 2011), e também preditivo, ao utilizar algoritmos para antecipar ocorrências futuras com base em padrões passados (Gil, 2010).

A investigação utilizou dados secundários de registros administrativos internos de um escritório jurídico com mais de 40 anos de atuação, sem intervenção nos processos operacionais (Vergara, 2011). Os dados foram anonimizados para garantir a confidencialidade. Por se tratar de uma análise de dados secundários institucionais sem identificação pessoal, a pesquisa foi isenta da necessidade de avaliação por um Comitê de Ética em Pesquisa, em conformidade com a Resolução nº 510/2016 do Conselho Nacional de Saúde. O caso de estudo envolveu um escritório de Direito Empresarial cuja carteira de clientes é composta por empresas dos setores industrial, comercial e de serviços, operando com pagamentos mensais recorrentes, o que acentua a necessidade de controles de recebimento.

O processo metodológico iniciou com o tratamento de uma base de dados histórica de quatro anos de contas a receber, envolvendo verificação de consistência e remoção de valores nulos. A variável-alvo, “Atrasou?”, foi criada como um indicador binário (1 para inadimplente, 0 para adimplente), considerando inadimplente qualquer título pago após o vencimento. Variáveis derivadas foram construídas, como a “Faixa do Vencimento” (início, meio ou fim do mês) e a categorização do “Valor Total” em seis faixas. As variáveis categóricas “Ramo de Atividade” e “Porte da empresa” foram mantidas. Registros da variável “Prazo” com valores inconsistentes (≤0 dias) foram excluídos. O tratamento foi executado em Python com as bibliotecas Pandas e Numpy, resultando em uma base de dados estruturada para a modelagem.

Para a análise preditiva, foram selecionados quatro algoritmos de classificação: Regressão Logística, Random Forest, Gradient Boosting e Support Vector Machine (SVM). A Regressão Logística foi usada como modelo de base por sua interpretabilidade (Hosmer et al., 2013). O Random Forest foi escolhido por sua robustez e capacidade de evitar sobreajuste (Breiman, 2001). O Gradient Boosting foi incluído por sua alta capacidade preditiva (Friedman, 2001). O SVM foi testado por sua eficácia em encontrar um hiperplano ótimo de separação (Cortes & Vapnik, 1995). O desempenho foi avaliado com métricas como acurácia e Área Sob a Curva ROC (AUC), que mede a capacidade de discriminação entre classes (Bradley, 1997). Métricas adicionais como precisão, recall e F1-score também foram consideradas para uma avaliação completa (Powers, 2011; Provost & Fawcett, 2013).

A análise descritiva mostrou um leve desequilíbrio na base de dados, com 51,74% dos registros classificados como inadimplentes e 48,26% como adimplentes. Títulos com vencimento no meio do mês (dias 11 a 20) apresentaram a maior taxa de atraso (60,42%). Em relação ao valor, observou-se um comportamento não linear: faixas intermediárias (R$ 501 a R$ 5.000) concentraram os maiores percentuais de inadimplência (entre 58,75% e 60,25%), enquanto a faixa mais alta (acima de R$ 10.000) registrou a menor taxa (33,58%), sugerindo que contratos de maior valor recebem prioridade de pagamento.

A análise por ramo de atividade revelou heterogeneidade nas taxas de inadimplência. O setor de Serviços apresentou a maior taxa (64,81%), seguido por Pessoa Física (59,05%) e Indústria (50,24%). Em contrapartida, Saneamento e Abastecimento (21,99%) e outros Escritórios de Advocacia (32,17%) exibiram as menores taxas. A análise por porte da empresa também mostrou padrões distintos: empresas de médio porte registraram a maior taxa de inadimplência (71,42%), seguidas pelas de pequeno porte (61,88%), enquanto as de grande porte apresentaram a menor taxa (45,50%). Este resultado sugere que empresas com estruturas menores podem enfrentar maiores dificuldades de fluxo de caixa.

Esses achados descritivos reforçaram a complexidade da inadimplência e a importância de utilizar modelos de aprendizado de máquina para capturar as interações entre as múltiplas variáveis. A diversidade nas taxas de atraso entre os diferentes segmentos de clientes justificou a necessidade de uma abordagem de modelagem que fosse além de regras simplistas. A combinação de variáveis como valor, prazo, ramo de atividade e porte da empresa mostrou-se promissora para a construção de um modelo preditivo robusto.

Na modelagem preditiva, a comparação de desempenho indicou a superioridade do Random Forest, que alcançou uma acurácia de 72,43% e uma AUC de 0,8035. Este resultado superou a Regressão Logística (acurácia de 67,18%; AUC de 0,7262), o Gradient Boosting (acurácia de 68,89%; AUC de 0,7635) e o SVM (acurácia de 66,84%; AUC de 0,7372). A acurácia de 72,43% significa que o modelo classificou corretamente quase três em cada quatro contratos, e a AUC de 0,8035 indica uma excelente capacidade de discriminação entre clientes adimplentes e inadimplentes. A robustez do Random Forest, derivada da agregação de múltiplas árvores de decisão, justifica sua performance superior.

O modelo Random Forest foi selecionado para a análise de importância das variáveis. Os resultados revelaram que a variável “Valor Total” foi o fator mais influente na previsão da inadimplência, com uma importância relativa de 0,4981. Em segundo lugar, a variável “Prazo” de pagamento apresentou uma importância de 0,3148. Juntas, essas duas variáveis contratuais explicaram mais de 81% da capacidade preditiva do modelo, ressaltando a importância de analisar as condições financeiras na negociação do contrato.

As características do cliente também se mostraram relevantes. A variável “Ramo de Atividade” foi a terceira mais importante, com uma contribuição de 0,1498, confirmando que o setor de atuação da empresa se relaciona com seu comportamento de pagamento. O “Porte da empresa” teve uma importância menor (0, 0298), mas contribuiu para o modelo, enquanto a variável “Parcela” (0, 0074) demonstrou influência quase desprezível. A análise detalhada das categorias mostrou que segmentos específicos, como Saneamento e Abastecimento e Indústria Química, juntamente com empresas de grande e médio porte, foram os que mais contribuíram para a discriminação do risco.

A discussão dos resultados integra os achados com a literatura. O desempenho superior do Random Forest está em linha com estudos que destacam a eficácia de modelos de ensemble em problemas de classificação de risco (Breiman, 2001). A proeminência das variáveis “Valor Total” e “Prazo” corrobora as preocupações de Matos (2018) e Fernandes e Silva (2020) sobre a vulnerabilidade de contratos de serviços com valores elevados e prazos estendidos. A relevância do “Ramo de Atividade” reforça a necessidade de ferramentas analíticas para gerenciar carteiras heterogêneas, como defendido por Fernandes e Silva (2020) e Souza (2022). A análise das subcategorias alinha-se às conclusões de Oliveira et al. (2022), que destacaram a importância de variáveis setoriais na previsão de risco.

Na prática, os resultados fornecem um roteiro para a implementação de um processo de concessão de crédito baseado em evidências. A avaliação de risco pode ser estruturada em torno das variáveis mais preditivas: contratos de alto valor e com prazos longos devem ser submetidos a uma análise rigorosa, especialmente se o cliente pertencer a um setor com histórico de inadimplência. A aplicação do modelo permite não apenas a redução de perdas, mas também o aumento da previsibilidade do fluxo de caixa. A implementação de tais algoritmos pode ajudar a antecipar riscos, apoiar decisões de renegociação e informar a recusa de contratos com perfis de risco elevado, alinhando a gestão financeira às práticas de ciência de dados, conforme sugerido por notícias sobre dificuldades no setor jurídico (Poder360, 2025).

Este estudo demonstrou a viabilidade e o valor da aplicação de aprendizado de máquina supervisionado para a previsão de inadimplência em serviços jurídicos. A pesquisa identificou os principais fatores de risco associados aos contratos e ao perfil dos clientes, fornecendo um modelo preditivo robusto. A análise de importância das variáveis destacou que o “Valor Total” e o “Prazo” do contrato são os determinantes mais críticos do risco, seguidos pelo “Ramo de Atividade” e “Porte da empresa”. Estes achados oferecem subsídios para aprimorar as políticas de concessão de crédito, tornando-as mais objetivas e baseadas em dados. A principal contribuição do trabalho reside na tradução de um problema de negócio em um modelo analítico funcional, que pode ser implementado para gerar benefícios como a redução de perdas e o aumento da previsibilidade de receitas. Ao quantificar o risco, o estudo oferece uma ferramenta estratégica para a gestão financeira. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de algoritmos de classificação supervisionada possibilitou a identificação dos fatores associados ao risco de inadimplência, fornecendo um modelo preditivo robusto para aprimorar a gestão financeira em ambientes jurídicos.

Referências:
Bradley, A. P. (1997). The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognition, 30(7), 1145–1159.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32.
Breiman, L., Friedman, J., Olshen, R., & Stone, C. (1984). Classification and regression trees. Belmont, CA: Wadsworth International Group.
Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3), 273–297.
Fernandes, M. M., & Silva, R. P. (2020). Risco financeiro em contratos de prestação de serviços recorrentes: Um estudo em escritórios de advocacia. Revista de Gestão e Projetos, 11(2), 115–130.
Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. Annals of Statistics, 29(5), 1189-1232.
Gil, A. C. (2010). Como elaborar projetos de pesquisa (5ª ed.). São Paulo: Atlas.
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied logistic regression (3rd ed.). Hoboken, NJ: Wiley.
Malhotra, N. K. (2019). Pesquisa de marketing: Uma orientação aplicada (7ª ed.). Porto Alegre: Bookman.
Martins, R. C., & Vallim-Filho, P. (2024). Aplicações de aprendizado de máquina em setores jurídicos: Abordagens não lineares e predição de risco. Cadernos de Administração e Inovação, 18(1), 51–66.
Matos, J. L. (2018). Gestão de crédito em organizações de serviços especializados: Limites da abordagem tradicional. Revista Brasileira de Administração Contemporânea, 22(3), 390–407.
Oliveira, R. A., Stoll, L. D., & Goldner, D. C. (2022). Modelos de previsão de inadimplência com aprendizado de máquina: Evidências em serviços jurídicos. Revista Gestão e Tecnologia, 22(2), 88–102.
Poder360. (2025, fevereiro). Escritórios jurídicos acumulam perdas com contratos inadimplentes. Recuperado de https://www. poder360. com. br
Powers, D. M. (2011). Evaluation: From precision, recall and F-measure to ROC, informedness, markedness and correlation. Journal of Machine Learning Technologies, 2(1), 37–63.
Provost, F., & Fawcett, T. (2013). Data science for business: What you need to know about data mining and data-analytic thinking. Sebastopol, CA: O’Reilly Media.
Resolução nº 510, de 7 de abril de 2016. (2016). Dispõe sobre as normas aplicáveis a pesquisas em Ciências Humanas e Sociais. Conselho Nacional de Saúde.
Souza, E. P. (2022). Machine learning na gestão de inadimplência: uma proposta para serviços profissionais. Revista Brasileira de Ciência de Dados, 6(1), 21–35.
Vergara, S. C. (2011). Projetos e relatórios de pesquisa em administração (13ª ed.). São Paulo: Atlas.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade