24 de fevereiro de 2026
Predição da duração de processos judiciais brasileiros através de machine learning
Lucas Santos Borba de Araujo; Édipo Menezes da Silva
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este trabalho implementa um modelo de machine learning supervisionado para predizer a duração de processos judiciais brasileiros, usando dados da API DataJud e técnicas de modelagem preditiva. A pesquisa constrói uma pipeline completa, desde a coleta e tratamento de dados públicos até a avaliação e interpretação de um modelo de regressão, oferecendo uma ferramenta de apoio à gestão judiciária. A solução supera os métodos tradicionais de estimativa, baseados em análises empíricas, que não capturam a complexa interação de fatores na tramitação. O estudo valida a viabilidade técnica da abordagem e fornece artefatos de explicabilidade para interpretar os vetores de influência na duração processual.
O sistema judiciário brasileiro enfrenta o desafio do volume de processos e da morosidade. O relatório Justiça em Números 2024 aponta um aumento de 9,8% em novos casos, o maior da série histórica, intensificando a pressão sobre os tribunais (Conselho Nacional de Justiça [CNJ], 2024a). Essa sobrecarga e a imprevisibilidade da duração dos litígios afetam todos os atores do sistema. Advogados têm dificuldade em fornecer estimativas de prazo, e gestores judiciários carecem de ferramentas preditivas para otimizar a alocação de recursos e estabelecer metas de produtividade realistas (Verçosa et al., 2024).
A estimativa tradicional da duração processual baseia-se em métodos empíricos ou análises estatísticas descritivas, insuficientes para modelar a complexidade do fenômeno. Abordagens simplistas não capturam as interações não lineares entre variáveis como classe processual, assuntos, movimentos, órgão julgador e instância (Cruz et al., 2023). Cada processo é um sistema dinâmico, cujo percurso é determinado por uma sequência de eventos (Rosa, 2022). A ausência de modelos preditivos resulta em planejamentos inadequados e dificulta a formulação de políticas públicas eficientes para a celeridade processual.
A transformação digital do Judiciário e a criação da base de dados DataJud pelo CNJ representam um marco em transparência e disponibilidade de informações. Lançado em 2020, o DataJud fornece, via API pública, dados estruturados de milhões de processos, propiciando a aplicação de ciência de dados e machine learning (Conselho Nacional de Justiça [CNJ], 2023). Essa infraestrutura permite construir modelos quantitativos para analisar padrões na tramitação processual e gerar predições acuradas sobre sua duração.
A aplicação de machine learning no direito não é nova. Surden (2014) discutiu o potencial da tecnologia para a análise jurídica. Katz et al. (2017) alcançaram mais de 70% de precisão na predição de decisões da Suprema Corte americana, e Aletras et al. (2016) obtiveram 79% de acurácia ao prever vereditos da Corte Europeia de Direitos Humanos. Juranek e Otneim (2024) desenvolveram modelos para estimar a duração de processos de patentes. No Brasil, a área enfrenta desafios, com trabalhos baseados em datasets limitados (Pavanelli, 2007; Menon et al., 2021) ou dados não públicos, o que limita a reprodutibilidade (Gruginskie e Vaccaro, 2018; Oliveira et al., 2022). Este trabalho preenche essa lacuna ao utilizar exclusivamente dados públicos para construir um modelo robusto e replicável.
A metodologia quantitativa segue o paradigma de Descoberta de Conhecimento em Bases de Dados (KDD) (Fayyad, 1996) e as etapas de um fluxo de machine learning: compreensão do problema, preparação de dados, modelagem, avaliação e interpretação (Witten et al., 2016). A solução foi implementada em Python (versão 3.13.7) com bibliotecas especializadas, garantindo uma pipeline automatizada. O foco foi um modelo de regressão supervisionada para prever a duração do processo em dias com base em metadados processuais.
Os dados foram coletados via API do DataJud, que opera sobre Elasticsearch. O escopo foi definido para processos de natureza bancária, selecionados a partir de sete assuntos processuais, como “Bancários” e “Empréstimo consignado”. Foram aplicados filtros para incluir apenas processos ajuizados após a vigência do CPC de 2015 e que continham o movimento de “arquivamento definitivo” (código 246), critério para calcular a duração total. A coleta iniciou no primeiro grau, e os números de processo foram usados para buscar registros em instâncias superiores. Bases auxiliares dos Sistemas de Gestão de Tabelas Processuais Unificadas (SGTPU) foram extraídas para enriquecer os dados com hierarquias de classes, assuntos e movimentos (Conselho Nacional de Justiça [CNJ], 2024b).
A engenharia de dados foi uma etapa crítica. Os dados brutos da API (chave-valor) foram transformados em formato tabular (pandas. DataFrame), com cada linha representando um processo. Variáveis multivaloradas, como “assuntos” e “movimentos”, foram tratadas por agregação e dummificação. Uma limpeza baseada em regras de negócio jurídicas removeu inconsistências. A partir dos dados limpos, foram criadas features para capturar sinais da tramitação, como o grau máximo alcançado (grau_max), a quantidade de sistemas e órgãos julgadores, e contagens de classes e movimentos agrupados por hierarquia. Após a remoção de outliers pela regra de 1,5 vezes o intervalo interquartílico (IQR), o dataset final consolidou 21.816 observações e 5.601 variáveis, caracterizado por alta dimensionalidade e esparcidade.
A pipeline de pré-processamento usou um ColumnTransformer para aplicar StandardScaler às variáveis numéricas e preservar as dummies. A matriz resultante foi convertida para uma representação esparsa (CSR) para otimizar memória e processamento. A técnica de TruncatedSVD foi aplicada para redução de dimensionalidade linear. A modelagem comparou três algoritmos de regressão baseados em árvores: LightGBM, XGBoost e Random Forest. A otimização de hiperparâmetros foi conduzida com a biblioteca Optuna, que implementa busca bayesiana (TPE). Em validação cruzada K-Fold (k=5), o Optuna buscou a melhor combinação de hiperparâmetros para o estimador e o TruncatedSVD, minimizando o Erro Absoluto Médio (MAE). O MAE foi escolhido por sua interpretabilidade, sendo complementado por RMSE e R².
O pipeline vencedor, com o estimador LightGBM, alcançou no conjunto de teste um Erro Absoluto Médio (MAE) de 240.999 dias, um Erro Quadrático Médio da Raiz (RMSE) de 334.957 dias e um coeficiente de determinação (R²) de 0.486. O desempenho indica que, em média, as previsões do modelo se desviam em aproximadamente 241 dias do tempo real, e o modelo explica cerca de 48,6% da variabilidade na duração dos processos. A comparação com outros algoritmos mostrou que, embora as diferenças em RMSE e R² fossem marginais, o LightGBM apresentou vantagem no MAE, sugerindo maior consistência.
A análise comparativa entre os modelos finalistas (LightGBM, XGBoost e Random Forest) validou a seleção. O MAE foi o critério principal por sua robustez a outliers e interpretação direta em dias, mais intuitiva para gestores e operadores do direito. A consistência do desempenho entre os modelos também validou a solidez da pipeline de pré-processamento e engenharia de features, que forneceu uma base informativa para os algoritmos.
O TruncatedSVD foi fundamental, viabilizando o treinamento em um dataset com mais de 5.000 variáveis. A técnica preservou aproximadamente 99,77% da variância original, otimizando o custo computacional e atuando como regularização para evitar sobreajuste. A análise de explicabilidade com SHAP, no espaço dimensional reduzido, mostrou que o poder preditivo se concentrou em poucos componentes latentes, sugerindo que combinações lineares de variáveis originais (características cadastrais, tipos de movimento, informações de tribunais) foram os principais determinantes da duração.
Para aprofundar a interpretabilidade, foi realizada uma análise dos componentes do SVD que mais impactaram as predições, conforme o SHAP. Os componentes truncatedsvd0 e truncatedsvd25 emergiram como os mais influentes. A investigação de sua composição revelou que capturavam combinações de informações como a presença do processo em determinados tribunais, a ocorrência de tipos específicos de movimentos e a atribuição de certos assuntos. Isso permitiu traduzir os achados do espaço latente para o espaço original, fornecendo insights sobre quais características processuais estão associadas a durações mais longas ou curtas.
A retroprojeção dos valores SHAP para o espaço original das variáveis ofereceu uma visão global da importância de cada feature. Embora uma aproximação linear, os resultados corroboraram a importância de variáveis como tribunal de origem, grau máximo de jurisdição e quantidade de determinados movimentos como os preditores mais fortes. Essa técnica de explicabilidade permite que gestores judiciários identifiquem gargalos e fatores de morosidade com base em variáveis que podem monitorar, apoiando a criação de políticas de gestão baseadas em evidências.
A comparação das métricas de MAE e R² entre os conjuntos de treino e teste revelou uma pequena queda de desempenho no teste, indicando que o modelo generaliza bem, sem sobreajuste (overfitting) significativo. A proximidade entre as métricas sugere que o modelo aprendeu padrões gerais da tramitação, o que é essencial para sua aplicação em novos processos.
O gráfico de paridade, que compara valores preditos e reais, confirmou a correlação positiva entre as predições e a realidade. Observou-se uma leve tendência do modelo a subestimar a duração de processos excepcionalmente longos, comportamento esperado devido à remoção de outliers, que tornou o modelo mais conservador para a cauda longa da distribuição. O desempenho geral na maioria dos casos foi considerado satisfatório.
O histograma da distribuição dos erros de predição reforçou a qualidade do ajuste. A distribuição, aproximadamente simétrica e centrada em zero, indicou que o modelo não possui viés sistemático, ou seja, não tende a superestimar ou subestimar as durações de forma consistente. A ausência de assimetrias pronunciadas na distribuição dos erros aumenta a confiança em sua aplicação prática.
A predição da duração de processos com machine learning é uma abordagem viável e de alto impacto para o sistema jurídico brasileiro. A implementação de uma pipeline robusta, integrando coleta de dados públicos, engenharia de features, redução de dimensionalidade com TruncatedSVD e otimização bayesiana, estabelece um método reprodutível para enfrentar a morosidade processual. Os resultados indicam que é possível gerar estimativas consistentes do tempo de tramitação, e os artefatos de explicabilidade do SHAP fornecem insights sobre os fatores de influência, oferecendo subsídios para uma gestão judiciária mais estratégica e baseada em dados.
Como trabalhos futuros, sugere-se a expansão da base de dados para outras naturezas processuais, a exploração de variáveis temporais mais granulares e a aplicação de modelos mais complexos, como redes neurais recorrentes, para capturar dinâmicas sequenciais e aprimorar a precisão. Conclui-se que o objetivo foi atingido: a implementação de um modelo supervisionado de machine learning, utilizando dados públicos do DataJud, é capaz de predizer com precisão a duração de processos judiciais no contexto brasileiro, contribuindo para a modernização e a melhoria da gestão processual.
Referências:
Aletras, N., Tsarapatsanis. D; Preoţiuc-Pietro, D; Lampos, V. 2016. Predicting judicial decisions of the European Court of Human Rights: A Natural Language Processing perspective. PeerJ Computer Science.
Conselho Nacional de Justiça [CNJ]. 2023. DataJud. Disponível em <https://datajud-wiki. cnj. jus. br/api-publica>. Acesso em: 26 mar. 2025.
Conselho Nacional de Justiça [CNJ]. 2024a. Justiça em números. Disponível em: <https://www. cnj. jus. br/wp-content/uploads/2025/02/justica-em-numeros-2024. pdf>. Acesso em: 25 mar. 2025.
Conselho Nacional de Justiça [CNJ]. 2024b. Sistemas de Gestão de Tabelas Processuais Unificadas. Disponível em: <https://www. cnj. jus. br/sgt/login. php>. Acesso em: 26 mar. 2025.
Cruz, J. K. L.; Verçosa, L. F. V.; Silva, V. F.; Bastos-Filho, C.; Bezerra, B. L. D. 2023. O Uso da Mineração de Processos na Análise do Tempo das Movimentações Processuais. Revista de Engenharia e Pesquisa Aplicada, 9(1): 97-104.
Fayyad, U.; Piatetsky-Shapiro, G.; Smyth, P. 1996. From data mining to knowledge discovery in databases. AI Magazine, 17(3): 37-54.
Gruginskie, L. A. d. S.; Vaccaro, G. L. R. 2018. Lawsuit lead time prediction: Comparison of data mining techniques based on categorical response variable. Public Library of Science San Francisco, 13(6): e0198122.
Juranek, S.; Otneim, H. 2024. Predicting patent lawsuits with machine learning. International Review of Law and Economics, 80(1).
Katz, D. M.; Bommarito, M. J.; Blackman, J. 2017. A general approach for predicting the behavior of the Supreme Court of the United States. PLoS ONE, 12(4): e0174698.
Menon, L. T.; Britto, M. C. d. S.; Moreira, G. M.; Cruz, F. B. 2021. Inteligência artificial e Direito: uma solução computacional capaz de prever decisões judiciais. Revista Humanidades e Inovação 8(47): 151-167.
Oliveira, R. S. de; Junior, A. S. R.; Nascimento, E. G. S. 2022. Predicting the number of days in court cases using artificial intelligence. Public Library of Science San Francisco, 17(5): e0269008.
Pavanelli G. 2007. Análise do tempo de duração de processos trabalhistas utilizando redes neurais artificiais como apoio a tomada de decisões. Dissertação de Mestrado em Métodos Numéricos em Engenharia. Universidade Federal do Paraná, Curitiba, Paraná, Brasil.
Rosa, F. I. 2022. O Tempo Processual: um estudo matemático preditivo dos fatores associados ao tempo de tramitação dos processos em Juizados Especiais Cíveis. 1ed. Editora Dialética, São Paulo, SP, Brasil.
Surden, H. 2014. Machine learning and law. Washington Law Review, 89(1): 87-115.
Verçosa, L.; Silva, V.; Cruz, J; Bastos-Filho, C.; Bezerra, B. L. D. 2024. Investigation of lawsuit process duration using machine learning and process mining. Discover Analytics, 2(9).
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:




























