18 de maio de 2026
LLMs na Análise de Constitucionalidade de Projetos de Lei
Tatiana Sciammarella; Lauro Marques Vicari
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A Constituição Federal de 1988 estabelece a existência de três Poderes da União, independentes e harmônicos entre si: o Legislativo, o Executivo e o Judiciário (Brasil, 1988). Este modelo de repartição, fundamental para a manutenção do Estado Democrático de Direito, foi consolidado na obra iluminista de Montesquieu (1748/2000) com o propósito de limitar o poder estatal e evitar injustiças. No cenário brasileiro, a doutrina reconhece a existência de um único poder político, cujas funções estatais são distribuídas entre órgãos com atribuições típicas e atípicas (Dallari, 2000). Dentro desta estrutura, o Poder Legislativo desempenha papel central, sendo encarregado de criar, modificar ou revogar normas, além de fiscalizar o Executivo. No âmbito federal, o Congresso Nacional, composto pela Câmara dos Deputados e pelo Senado Federal, processa propostas de normas que podem ser apresentadas por diversos agentes, incluindo parlamentares, o Presidente da República e tribunais superiores (Brasil, 1988).
As normas assumem diferentes espécies legislativas, como leis ordinárias, complementares e emendas à Constituição. Para que uma proposição seja aprovada, deve percorrer um rito rigoroso chamado processo legislativo, respeitando sempre a Constituição, que ocupa o ápice da hierarquia normativa (Kelsen, 2005). No caso das leis ordinárias, a análise inicial ocorre em comissões temáticas e, posteriormente, na Comissão de Constituição e Justiça e de Cidadania (CCJC), que avalia a conformidade dos projetos com a Carta Magna. Projetos considerados inconstitucionais são arquivados, garantindo a segurança jurídica do ordenamento (Câmara dos Deputados, 2025). Entretanto, a alta demanda gera gargalos operacionais significativos. Em 2024, dos 1.885 projetos recebidos pela CCJC, apenas 386 foram apreciados, o que representa menos de 25% do total (CCJC, 2024). Essa sobrecarga evidencia a necessidade de soluções tecnológicas que otimizem a análise técnica.
Nesse cenário, a aplicação de modelos de linguagem de grande escala (LLMs) surge como uma alternativa inovadora. Baseados em arquiteturas de aprendizado de máquina, esses modelos são treinados em volumes massivos de dados e conseguem processar relações linguísticas complexas de maneira similar à humana (Dam et al., 2024). Estudos recentes demonstram o potencial dessas ferramentas no setor jurídico, desde o desenvolvimento de assistentes para profissionais até a extração automática de resultados em tribunais (Mohamed et al., 2025; Zambrano, 2024). Modelos como o GPT-3 e o Llama já foram utilizados para classificar normas jurídicas em categorias de obrigações e permissões, superando métodos tradicionais de processamento de linguagem natural (Liga e Robaldo, 2023). A integração dessas tecnologias ao fluxo da CCJC pode auxiliar relatores na identificação preliminar de vícios de inconstitucionalidade, agilizando a elaboração de pareceres.
A tecnologia dos LLMs ganhou destaque global com o lançamento de modelos otimizados para diálogo, que atingiram milhões de usuários em curtos períodos (Abdullah et al., 2022). A maioria desses sistemas utiliza a arquitetura Transformer, que emprega mecanismos de autoatenção para extrair significado dos dados de entrada conforme o contexto (Vaswani et al., 2017). O avanço do hardware, como as unidades de processamento gráfico (GPU), permitiu o treinamento de modelos com dezenas de bilhões de parâmetros em grandes bases de dados, como a Wikipedia e o CommonCrawl (Touvron et al., 2023). Apesar da eficiência na geração de textos coerentes, a utilização dessas ferramentas exige cautela devido ao fenômeno das alucinações, em que o modelo gera informações não factuais ou divergentes do contexto fornecido (Zhang et al., 2025). Portanto, a avaliação rigorosa de seu desempenho em tarefas específicas, como a análise constitucional brasileira, é indispensável para garantir a confiabilidade dos resultados.
Para a condução dos experimentos práticos, estruturou-se uma metodologia detalhada dividida em coleta de dados, seleção de modelos, engenharia de prompt e análise quantitativa. A base de dados foi construída a partir do portal de Dados Abertos da Câmara dos Deputados, utilizando a Application Programming Interface (API) oficial para coletar projetos de lei ordinária submetidos entre 2010 e 2024. Foram consultados cinco endpoints específicos para listar tipos de proposições, códigos de tramitação e temas. O endpoint de proposições permitiu filtrar o código 139, correspondente a projetos de lei (PL), enquanto o endpoint de tramitações identificou o código 322, referente ao parecer do relator. Ao todo, foram consultados 47.500 projetos de lei, salvos em arquivos de formato Comma-Separated Values (CSV) para processamento posterior.
O processo de filtragem foi rigoroso para garantir a qualidade da amostra. Analisou-se o texto do despacho do relator para verificar a existência das palavras “constitucionalidade” ou “inconstitucionalidade”. Projetos com classificações mistas, apensados ou sem despacho foram removidos. Após a extração de texto dos documentos em formato Portable Document Format (PDF), restaram 2.402 proposições viáveis. Observou-se um comportamento cíclico na produção legislativa, com reduções em anos de eleição presidencial (2010, 2014, 2018 e 2022) e picos nos anos subsequentes. Do total viável, apenas 97 apresentaram parecer inconstitucional. Para equilibrar a base de dados dos experimentos, selecionaram-se todas as 97 inconstitucionais e 97 constitucionais de forma aleatória, respeitando a proporcionalidade por tema, totalizando 194 projetos de lei.
Os modelos selecionados para os testes incluíram o GPT-5, Gemini 2.5 Pro, Claude Sonnet 4, Llama 4 Maverick 17B Instruct e DeepSeek R1 0528. A escolha baseou-se no suporte ao idioma português, capacidade de raciocínio em cadeia e viabilidade econômica das APIs via plataforma OpenRouter. O custo das chamadas foi monitorado em dólares por milhão de tokens, garantindo que a inferência ocorresse dentro de limites orçamentários pré-definidos. Não houve treinamento adicional dos modelos, focando-se exclusivamente na capacidade de inferência a partir de parâmetros pré-treinados. A engenharia de prompt foi a principal estratégia para orientar o comportamento dos modelos, utilizando técnicas documentadas como instrução direta, atribuição de papel (role prompting) e cadeia de raciocínio (chain-of-thought) (Sahoo et al., 2024).
A técnica de Retrieval-Augmented Generation (RAG) também foi implementada para fornecer contexto jurídico atualizado aos modelos. O processo envolveu a divisão de textos de referência em trechos, convertidos em vetores por meio do modelo gemini-embedding-001 e armazenados no banco de dados vetorial Chroma. A biblioteca LangChain gerenciou a recuperação desses vetores durante as consultas. Os textos de referência incluíram a Constituição de 1988, tratados internacionais de direitos humanos com status de emenda, súmulas vinculantes do Supremo Tribunal Federal (STF) e a obra A Constituição e o Supremo (STF, 2018). Foram testados quatro cenários de RAG, variando a quantidade de trechos recuperados (quatro ou oito) e a diversidade das fontes documentais, visando reduzir alucinações e fundamentar as respostas em dados factuais (Lewis et al., 2020).
A avaliação dos resultados baseou-se em métricas de classificação binária, similaridade lexical e similaridade semântica. Para a classificação, a classe inconstitucional foi definida como evento positivo, dada a importância crítica de detectar tais irregularidades para evitar danos à população. Utilizaram-se as métricas de acurácia, precisão, sensibilidade (recall) e F1-score. A sensibilidade foi priorizada para minimizar falsos negativos, garantindo que projetos inconstitucionais não fossem erroneamente validados. A similaridade lexical foi medida pelo cosseno entre vetores de unigramas e bigramas ponderados por Term Frequency-Inverse Document Frequency (TF-IDF), comparando o parecer humano com a resposta da máquina (Chiny et al., 2022). Já a similaridade semântica empregou embeddings para capturar o significado profundo dos textos, independentemente da escolha exata das palavras (Kenter e De Rijke, 2015).
Os resultados da avaliação de classificação revelaram que cerca de 95% das respostas dos modelos apresentaram conclusões claras e unívocas. No entanto, 5% dos dados exibiram ambiguidades, sendo classificados como “mix” por conterem termos contraditórios ou expressões como “com reservas” e “parcialmente”. Nestes casos específicos, observou-se que a expressão “com ressalvas” próxima ao termo constitucional frequentemente ocorria em projetos que os relatores humanos declararam inconstitucionais. Para garantir a segurança do processo, todos os casos ambíguos ou sem atribuição de classe foram tratados como inconstitucionais nos cálculos das métricas, forçando uma revisão humana mais cautelosa. O modelo DeepSeek R1 0528 foi o que gerou o maior número de casos ambíguos, totalizando 89 ocorrências, enquanto o Llama 4 apresentou a menor quantidade, com 18 casos.
Dentre os modelos testados sem o auxílio de RAG, o Gemini 2.5 Pro obteve os melhores resultados de F1-score em quase todos os cenários. Quando utilizado o prompt de atribuição de papel combinado com cadeia de raciocínio, o Gemini 2.5 Pro e o DeepSeek R1 0528 alcançaram sensibilidade superior a 80% e F1-score de 0,66. O modelo Llama 4 Maverick 17B Instruct apresentou a maior precisão, indicando que ele apenas classifica um projeto como constitucional quando possui alto grau de certeza, o que, por outro lado, resultou em baixa sensibilidade e muitos falsos negativos. O uso de prompts complexos, que exigem que o modelo descreva o raciocínio passo a passo antes da conclusão final, mostrou-se superior às instruções diretas, permitindo que a arquitetura processe melhor as nuances jurídicas (Wei et al., 2022).
A integração da técnica RAG trouxe resultados inesperados. O cenário v1, que utilizou quatro trechos de contexto da Constituição e decretos, apresentou o melhor desempenho entre as variantes de RAG, com sensibilidade de 0,70 e F1-score de 0,64 para o modelo Gemini 2.5 Pro. Contudo, esses valores não superaram os resultados obtidos com o prompt de atribuição de papel e cadeia de raciocínio sem contexto adicional. A análise sugere que a inclusão de grandes volumes de texto externo pode ter restringido excessivamente as respostas do modelo ao contexto passado, prejudicando a flexibilidade necessária para analisar projetos de lei inéditos. Além disso, o aumento do tamanho do contexto não resultou em melhoria proporcional, indicando que a qualidade e a relevância dos trechos recuperados são mais críticas do que a quantidade bruta de informação.
Na comparação lexical, o modelo Gemini 2.5 Pro atingiu valores de similaridade de cosseno próximos a 0,6 para os prompts de cadeia de raciocínio, indicando uma sobreposição moderada de termos com os pareceres dos relatores da CCJC. O Llama 4 ocupou a segunda posição nesta métrica, apesar de seu desempenho inferior na classificação binária. Já na avaliação semântica, os resultados foram mais uniformes e significativamente mais altos, com médias de similaridade de cosseno superiores a 0,8 para quase todas as configurações. Isso sugere que, embora os modelos não utilizem exatamente as mesmas palavras que os relatores humanos, o significado e a fundamentação jurídica das respostas estão altamente alinhados com o conteúdo dos pareceres oficiais. O Gemini 2.5 Pro manteve uma leve vantagem, consolidando-se como a ferramenta mais equilibrada para esta tarefa.
A discussão dos dados evidencia que a seleção do modelo e a estruturação do prompt são variáveis determinantes para o sucesso da aplicação. O desempenho superior do DeepSeek R1 e do Gemini 2.5 Pro com técnicas de cadeia de raciocínio reforça a importância de permitir que o modelo “pense” sobre as disposições constitucionais antes de emitir um veredito. A identificação de temas com 100% de constitucionalidade, como Ciência e Tecnologia, em contraste com temas de alta inconstitucionalidade, como Relações Internacionais, sugere que o modelo pode ser calibrado para atuar com diferentes níveis de rigor dependendo da matéria legislativa. Reconhece-se, contudo, que a base de dados de 194 projetos, embora balanceada, representa uma fração da produção legislativa total, e a expansão para bases maiores é necessária para validar a robustez dos achados.
As limitações encontradas, como as respostas inconclusivas em cenários de RAG e a ocorrência de classificações ambíguas, indicam que os LLMs devem ser encarados como ferramentas de apoio e não como substitutos dos consultores legislativos. A alucinação continua sendo um risco, especialmente em temas jurídicos onde a precisão terminológica é vital (Huang et al., 2025). Recomenda-se que, em uso institucional, os modelos sejam empregados para apontar riscos e destacar trechos potencialmente problemáticos, facilitando o trabalho humano de revisão. O treinamento de modelos de código aberto, como o DeepSeek, em infraestrutura própria da Câmara dos Deputados, poderia oferecer maior controle sobre a privacidade dos dados e permitir ajustes finos (fine-tuning) específicos para a linguagem jurídica brasileira.
Conclui-se que o objetivo foi atingido, demonstrando que modelos de linguagem de grande escala possuem capacidade técnica para identificar inconstitucionalidades em projetos de lei com alto grau de sensibilidade. A combinação de modelos avançados como o Gemini 2.5 Pro com técnicas de engenharia de prompt de cadeia de raciocínio mostrou-se a abordagem mais eficaz, superando inclusive métodos complexos de recuperação de documentos. A tecnologia apresenta potencial promissor para reduzir a sobrecarga de trabalho da Comissão de Constituição e Justiça e de Cidadania, promovendo maior agilidade e transparência no processo legislativo federal. Pesquisas futuras devem focar na mitigação de vieses e na integração dessas ferramentas em interfaces de auditoria que permitam a supervisão humana contínua.
Referências Bibliográficas:
Brasil. 1988. Constituição da República Federativa do Brasil. Brasília, DF: Senado Federal, 2016. Disponível em: https://www2.senado.leg.br/bdsf/bitstream/handle/id/518231/CF88_Livro_EC91_2016.pdf. Acesso em: 3 de abril de 2025.
Comissão de Constituição e Justiça e de Cidadania [CCJC]. 2024. Relatório anual. Disponível em: <https://www2.camara.leg.br/atividade-legislativa/comisso
Câmara dos Deputados. 2025. Projeto de lei ordinária. Disponível em: <https://www.camara.leg.br/entenda-o-processo-legislativo/>. Acesso em: 03 de abril de 2025.
Dallari, D. A.. 2000. Elementos da Teoria Geral do Estado. 21ª ed. Saraiva, São Paulo, SP, Brasil.
Kelsen, H. 2005. Teoria geral do direito e do Estado. 4ª ed. Martins Fontes, São Paulo, SP, Brasil.
Montesquieu, C. D. S. 2000. O espírito das leis. 2ª ed. Martins Fontes, São Paulo, SP, Brasil.
Resumo executivo oriundo de Trabalho de Conclusão de Curso da Especialização em Data Science e Analytics do MBA USP/Esalq
Para saber mais sobre o curso, clique aqui e acesse a plataforma MBX Academy




























