Resumo Executivo

Imagem Sumarização automática de acórdãos jurídicos com modelos transformer

25 de fevereiro de 2026

Sumarização automática de acórdãos jurídicos com modelos transformer

Diogo Lima Alcarde; Maurício Acconcia Dias

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este estudo teve como objetivo central o desenvolvimento e a validação de um sistema de sumarização automática de acórdãos do Superior Tribunal de Justiça (STJ), utilizando modelos de linguagem de grande escala baseados na arquitetura Transformer. A pesquisa buscou criar uma ferramenta computacional capaz de gerar resumos abstrativos, claros e objetivos de documentos jurídicos complexos, com a finalidade de auxiliar profissionais do direito na análise célere e eficiente de processos judiciais, mitigando os desafios impostos pelo crescente volume de informações no sistema judiciário brasileiro. A abordagem proposta visou não apenas a implementação técnica, mas também a avaliação rigorosa de sua performance, viabilidade operacional e equidade de desempenho em diferentes áreas do direito.

O sistema judiciário brasileiro enfrenta um desafio estrutural de sobrecarga processual, uma realidade documentada pelo Conselho Nacional de Justiça (CNJ, 2023), que reportou a existência de mais de 80 milhões de ações pendentes em tramitação. Este volume massivo de processos, gerenciado por um número limitado de magistrados e servidores, resulta em morosidade e impõe barreiras significativas à análise aprofundada de documentos jurídicos, que são caracteristicamente extensos e de alta complexidade técnica. Neste cenário, a automação de tarefas analíticas emerge como uma solução estratégica para otimizar os fluxos de trabalho e aumentar a eficiência do Judiciário. A aplicação de técnicas de Processamento de Linguagem Natural (PLN) no domínio jurídico tem demonstrado um potencial transformador, conforme evidenciado por estudos que apontam para uma redução substancial no tempo de revisão de documentos processuais (Chalkidis et al., 2021).

Os avanços recentes em inteligência artificial, impulsionados pela arquitetura Transformer (Vaswani et al., 2017), inauguraram uma nova era para o PLN. Modelos pré-treinados de grande escala, como BERT (Devlin et al., 2019), RoBERTa (Liu et al., 2019) e T5 (Raffel et al., 2020), estabeleceram novos patamares de desempenho em tarefas de compreensão e geração de linguagem natural. Especificamente para o português brasileiro, modelos como o BERTimbau (Souza; Nogueira; Lotufo, 2020) demonstraram alta eficácia, validando a adaptação dessas tecnologias para o contexto linguístico local. A sumarização automática, em particular, representa uma das aplicações mais promissoras, oferecendo um caminho para condensar informações essenciais de longos acórdãos judiciais.

Diferentemente das abordagens extrativas tradicionais, que se limitam a selecionar e concatenar sentenças do texto original, os métodos abstrativos são capazes de gerar um novo texto, sintetizando as informações de maneira coesa e semanticamente fiel. Modelos como BART (Lewis et al., 2020) e PEGASUS (Zhang et al., 2020) exemplificam o poder das arquiteturas Transformer para gerar resumos informativos e fluentes. A evolução desses modelos culminou em arquiteturas como o FLAN-T5 (Chung et al., 2022), que utiliza o ajuste fino instrucional (instruction fine-tuning) para aprimorar a capacidade do modelo de seguir instruções específicas, tornando-o particularmente adequado para tarefas controladas como a sumarização de textos jurídicos, que exigem alta precisão e fidelidade ao conteúdo original.

Este trabalho se insere no crescente campo de pesquisa em PLN aplicado ao direito brasileiro, que já conta com iniciativas importantes como o dataset Victor para classificação de documentos (Luz de Araujo et al., 2018) e diversas análises automatizadas de textos jurídicos (Silva et al., 2021). Contudo, o domínio jurídico nacional ainda apresenta desafios únicos, como a complexidade terminológica e a necessidade de modelos especializados que compreendam as nuances do sistema legal brasileiro (Almeida; Santos, 2022). Ao focar na sumarização de acórdãos do STJ, este estudo contribui diretamente para o avanço de soluções práticas e especializadas, alinhando-se a esforços internacionais como a criação do corpus BillSum para legislação americana (Kornilova; Eidelman, 2019) e demonstrando a aplicabilidade de tecnologias de ponta para resolver problemas concretos do Judiciário.

A metodologia adotada para o desenvolvimento do sistema foi estruturada em um pipeline completo de engenharia de dados e aprendizado de máquina, seguindo o paradigma Extract, Transform, Load (ETL). A primeira fase, de extração, consistiu na coleta automatizada de dados públicos do portal do STJ. Para tal, foi implementado um sistema de web scraping robusto, utilizando a biblioteca Selenium para interagir com interfaces web dinâmicas e a biblioteca requests para o download direto de arquivos JSON e PDF. Este processo permitiu a coleta de 85.456 documentos válidos, abrangendo seis turmas do tribunal, que foram posteriormente mapeadas para as três seções jurídicas principais: Direito Público, Direito Privado e Direito Penal. A automação da coleta garantiu a escalabilidade e a consistência da base de dados, superando os desafios impostos pela heterogeneidade dos sistemas de informação do tribunal.

A fase de transformação foi a mais complexa e crítica do pipeline, envolvendo múltiplas etapas de pré-processamento para garantir a qualidade e a conformidade dos dados. Primeiramente, realizou-se uma limpeza textual sistemática para remover artefatos de formatação, como cabeçalhos, rodapés e numeração de páginas, que não continham valor semântico para a tarefa de sumarização. Em seguida, aplicaram-se técnicas de normalização textual, incluindo a padronização de acentos e caracteres especiais e a regularização de quebras de linha, seguindo as melhores práticas para o processamento do português brasileiro (Nóbrega; Pardo, 2018). A etapa mais sensível foi a anonimização dos documentos, realizada em estrita conformidade com a Lei Geral de Proteção de Dados (LGPD). Utilizando expressões regulares sofisticadas, foram identificados e substituídos dados pessoais como nomes, CPFs, CNPJs e números de registro da OAB por marcadores genéricos, preservando a integridade semântica do texto enquanto se garantia a privacidade dos indivíduos mencionados.

Na fase de carregamento (Load), os dados processados foram organizados em um formato estruturado, ideal para o treinamento de modelos de linguagem. Foram criados pares de dados contendo o texto integral do acórdão e sua respectiva ementa (resumo de referência), juntamente com metadados relevantes como a seção jurídica. O dataset completo foi então estratificado para garantir uma representação proporcional das seções jurídicas e dividido em conjuntos de treino (80%), validação (10%) e teste (10%). Devido a severas limitações computacionais, que impediram o uso do modelo FLAN-T5-base (248 milhões de parâmetros), optou-se pragmaticamente pelo modelo google/flan-t5-small (76,9 milhões de parâmetros). Consequentemente, o treinamento final foi conduzido utilizando um subconjunto de 10% do dataset (8.544 documentos), mantendo a estratificação original para assegurar a validade dos resultados.

Os resultados quantitativos demonstraram a eficácia da abordagem proposta. O modelo final (v3), treinado com o dataset de 8.544 documentos, apresentou ganhos consistentes e estatisticamente significativos em todas as métricas ROUGE em comparação com uma versão preliminar treinada com apenas 600 documentos. A pontuação ROUGE-1 alcançou 0,315 (+0,010), ROUGE-2 atingiu 0,221 (+0,009) e ROUGE-L chegou a 0,273 (+0,005). Testes de significância estatística, realizados por meio de bootstrap pareado com 10.000 iterações, confirmaram que as melhorias em ROUGE-1 e ROUGE-L foram altamente significativas (p < 0,001), enquanto o ganho em ROUGE-2 também foi estatisticamente significativo (p = 0,047). Estes resultados indicam que o aumento na quantidade de dados de treinamento, mesmo que modesto, foi crucial para aprimorar a capacidade do modelo de capturar tanto o conteúdo informativo (unigramas) quanto a fluência e coerência (bigramas) dos resumos de referência.

Uma comparação direta com um baseline extrativo, implementado com o algoritmo TextRank (Mihalcea; Tarau, 2004), reforçou a superioridade do método abstrativo. O modelo final superou o TextRank com uma margem expressiva, registrando uma melhoria de 12,5% em ROUGE-1 e, mais notavelmente, de 31,6% em ROUGE-2. Este último resultado é particularmente relevante, pois sugere que o modelo Transformer foi capaz de aprender e reproduzir bigramas e frases curtas que são semanticamente importantes no domínio jurídico, uma capacidade que métodos puramente extrativos não possuem. A análise de métricas auxiliares revelou que o sistema alcançou uma taxa de compressão média de 38,4%, gerando resumos concisos e eficientes. A latência de processamento manteve-se estável em 0,846 segundos por documento, um tempo de resposta compatível com aplicações práticas e operacionais em larga escala.

A análise de fairness, estratificada por seção jurídica, revelou um desempenho robusto e relativamente equilibrado entre as diferentes áreas do direito. A Terceira Seção (Direito Penal) apresentou consistentemente as melhores pontuações ROUGE, um fenômeno que pode ser atribuído a uma maior padronização terminológica e estrutural nos acórdãos criminais, conforme sugerido por estudos sobre estilo judicial (Livermore; Riddell; Rockmore, 2018). As seções de Direito Público e Privado, embora com pontuações ligeiramente inferiores, também se beneficiaram do treinamento, exibindo melhorias moderadas. Esta análise é fundamental para garantir que a ferramenta não introduza vieses que favoreçam ou prejudiquem a análise de casos em áreas específicas, assegurando uma aplicação equitativa da tecnologia.

A discussão crítica dos resultados reconhece tanto as forças quanto as fraquezas do sistema desenvolvido. Entre as principais vantagens, destacam-se a capacidade de preservar bigramas juridicamente relevantes, a estabilidade de desempenho entre as seções e a alta eficiência computacional. No entanto, o sistema enfrenta limitações significativas, sendo a principal delas o contexto de entrada restrito a 512 tokens. Esta restrição, imposta por limitações de hardware, impede que o modelo processe a integralidade de acórdãos mais longos, que frequentemente ultrapassam 8.000 tokens, resultando em uma potencial perda de informações contextuais importantes. Consequentemente, observou-se uma tendência do modelo em gerar resumos que, embora concisos, podem omitir detalhes procedimentais específicos ou referências normativas cruciais para uma análise jurídica aprofundada.

A implementação de sistemas de inteligência artificial no Judiciário também levanta importantes considerações éticas. A transparência algorítmica e a responsabilidade são princípios fundamentais. Embora o modelo FLAN-T5 seja baseado em arquiteturas bem documentadas, a natureza de “caixa-preta” das redes neurais profundas dificulta a auditabilidade completa de suas decisões. É imperativo que os resumos gerados sejam tratados como ferramentas de apoio, não substituindo o julgamento crítico de profissionais do direito qualificados. Além disso, o risco de perpetuar vieses presentes nos dados históricos de treinamento é uma preocupação central. A análise de fairness realizada é um primeiro passo, mas um monitoramento contínuo e análises mais granulares são necessários para garantir a equidade e a justiça na aplicação da tecnologia.

A perspectiva de escalabilidade do sistema para um contexto nacional é promissora, mas desafiadora. A arquitetura do modelo permite escalabilidade horizontal, e a eficiência computacional demonstrada viabiliza o processamento em larga escala. Contudo, a heterogeneidade dos sistemas de informação dos diferentes tribunais estaduais e federais no Brasil representa um obstáculo significativo. Uma implementação bem-sucedida em escala nacional exigiria um esforço coordenado, possivelmente liderado pelo CNJ, para padronizar interfaces de acesso aos dados e criar uma infraestrutura centralizada que ofereça serviços de sumarização como uma API para todo o sistema judiciário, democratizando o acesso à tecnologia e garantindo consistência na qualidade.

Em suma, este trabalho demonstrou com sucesso a viabilidade técnica e a utilidade prática de um sistema de sumarização automática para acórdãos do STJ. O modelo desenvolvido, baseado na arquitetura FLAN-T5, não apenas alcançou um desempenho quantitativo robusto, superando baselines extrativos, mas também provou ser computacionalmente eficiente para aplicação operacional. A solução tem o potencial concreto de reduzir significativamente o esforço manual na análise de jurisprudência, acelerando os fluxos de trabalho de advogados, juízes e outros profissionais do direito e contribuindo para a modernização e a eficiência do Judiciário brasileiro.

As limitações encontradas, principalmente de natureza computacional, destacam as áreas para desenvolvimentos futuros, incluindo a exploração de modelos de maior capacidade e a utilização de datasets mais extensos. A validação contínua dos resumos por especialistas jurídicos permanece como um requisito indispensável para assegurar a adequação terminológica e a precisão conceitual da ferramenta antes de sua implementação em ambientes de produção. Conclui-se que o objetivo foi atingido: demonstrou-se a viabilidade técnica e a utilidade prática de um sistema de sumarização automática de acórdãos do STJ baseado em modelos Transformer, que superou baselines extrativos e demonstrou potencial para otimizar a análise de jurisprudência.

Referências:
ALMEIDA, J. R.; SANTOS, M. P. Processamento de linguagem natural aplicado ao direito brasileiro: desafios e oportunidades. Revista Brasileira de Informática Aplicada, v. 14, n. 3, p. 45-62, 2022.
CHALKIDIS, I. et al. LEGAL-BERT: The muppets straight out of law school. In: Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics, 2021, p. 2898-2904.
CHUNG, H. W. et al. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416, 2022.
CONSELHO NACIONAL DE JUSTIÇA. Relatório Justiça em Números 2023: Ano-base 2022. Brasília: CNJ, 2023.
DEVLIN, J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 2019, p. 4171-4186.
FONSECA, E. R. et al. Visão geral da avaliação de similaridade semântica e inferência textual em português. Linguamática, v. 11, n. 2, p. 3-13, 2019.
KORNILOVA, A.; EIDELMAN, V. BillSum: A corpus for automatic summarization of US legislation. In: Proceedings of the 2nd Workshop on New Frontiers in Summarization, 2019, p. 48-56.
LEWIS, M. et al. BART: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, p. 7871-7880.
LIN, C. Y. ROUGE: A package for automatic evaluation of summaries. In: Text Summarization Branches Out: Proceedings of the ACL-04 Workshop, 2004, p. 74-81.
LIU, Y. et al. RoBERTa: A robustly optimized BERT pretraining approach. arXiv preprint arXiv:1907.11692, 2019.
LIVERMORE, M. A.; RIDDELL, A.; ROCKMORE, D. N. The Supreme Court and the Judicial Genre. Arizona Law Review, v. 59, n. 4, p. 837-864, 2018.
LUZ DE ARAUJO, P. H. et al. Victor: a dataset for Brazilian legal documents classification. In: Proceedings of the 12th Language Resources and Evaluation Conference, 2018, p. 1449-1458.
MIHALCEA, R.; TARAU, P. TextRank: Bringing order into text. In: Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, 2004, p. 404-411.
NALLAPATI, R. et al. Abstractive text summarization using sequence-to-sequence RNNs and beyond. In: Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning, 2016, p. 280-290.
NÓBREGA, F. A. A.; PARDO, T. A. S. General purpose word embeddings for multi-domain applications in Portuguese. In: Proceedings of the 13th International Conference on the Computational Processing of Portuguese, 2018, p. 430-439.
OPENAI. GPT-4 Technical Report. arXiv preprint arXiv:2303.08774, 2023.
PILAULT, J. et al. On extractive and abstractive neural document summarization with transformer language models. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, 2020, p. 9308-9319.
RAFFEL, C. et al. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, v. 21, n. 140, p. 1-67, 2020.
REIMERS, N.; GUREVYCH, I. Sentence-BERT: Sentence embeddings using siamese BERT-networks. In: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing, 2019, p. 3982-3992.
SILVA, N. C.; NUNES, M. G. V.; RIBEIRO JR., L. C. Análise automatizada de textos jurídicos brasileiros usando técnicas de processamento de linguagem natural. Revista de Informática Teórica e Aplicada, v. 28, n. 4, p. 78-95, 2021.
SOUZA, F.; NOGUEIRA, R.; LOTUFO, R. BERTimbau: Pretrained BERT models for Brazilian Portuguese. In: Proceedings of the 9th Brazilian Conference on Intelligent Systems, 2020, p. 403-417.
VASWANI, A. et al. Attention is all you need. In: Advances in Neural Information Processing Systems, 2017, p. 5998-6008.
ZHANG, J. et al. PEGASUS: Pre-training with extracted gap-sentences for abstractive summarization. In: International Conference on Machine Learning, 2020, p. 11328-11339.
ZHONG, M. et al. Extractive summarization as text matching. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, p. 6197-6208.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade