
Educação
10 de dezembro de 2025
Seleção de modelo de linguagem para julgamento de redações do Enem
Heitor Dutra de Assumpção; Adriana Camargo de Brito
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo verifica a viabilidade do uso de Modelos de Linguagem (LLMs) como avaliadores automáticos, sob o paradigma “LLM-as-a-Judge”, para a correção de redações do Exame Nacional do Ensino Médio (ENEM). A pesquisa compara sistematicamente a qualidade da avaliação, a consistência, a latência e o custo computacional de cinco modelos distintos, submetidos a um protocolo reprodutível. Foi empregado um prompt único e estável, projetado para instruir os modelos a aplicarem estritamente a rubrica oficial do exame, desdobrada nas cinco competências (C1 a C5). A avaliação foi conduzida sobre um corpus público de redações com nota máxima (1.000 pontos) nas edições de 2022 a 2024 do ENEM, utilizando um sistema automatizado para a coleta padronizada de métricas de desempenho e validações da conformidade das saídas.
A correção de redações em avaliações de larga escala como o ENEM representa um grande desafio logístico e financeiro. No Brasil, o procedimento tradicional, envolvendo duplas de corretores humanos e auditorias, acarreta custos operacionais elevados e prolonga o tempo para a divulgação dos resultados. Estimativas apontam para custos diretos de milhões de reais associados à correção humana (Oliveira Júnior, 2025), impulsionando a busca por soluções tecnológicas. O desafio é desenvolver sistemas que preservem a aderência à complexa rubrica oficial e introduzam ganhos de escala, celeridade, rastreabilidade e auditabilidade em cada julgamento.
A literatura sobre Avaliação Automática de Redações (AAR), ou Automated Essay Scoring (AES), tem uma longa trajetória. As origens remontam ao Project Essay Grade (PEG), que usava preditores superficiais como comprimento de palavras para estimar uma nota (Page, 1966). Sistemas mais sofisticados, como o e-rater, incorporaram indicadores linguísticos mais ricos e demonstraram alta concordância com avaliadores humanos (Attali; Burstein, 2006). Apesar dos avanços, a área de AES enfrenta críticas sobre a falta de transparência, os potenciais efeitos pedagógicos negativos e o risco de que os sistemas sejam suscetíveis a estratégias de gaming por parte dos estudantes (Dikli, 2006; Perelman, 2014).
No ENEM, a correção é ancorada em cinco competências detalhadas, exigindo uma avaliação multifacetada. Uma limitação prática para a pesquisa de AAR no Brasil é a política de dados do Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP), que divulga publicamente apenas as redações com nota máxima de 1.000 pontos. Essa restrição impede a aplicação de abordagens de aprendizado supervisionado tradicionais, que requerem um conjunto de dados diversificado. Diante disso, o presente estudo adota um desenho metodológico que prioriza a transparência do protocolo, a comparabilidade direta entre modelos e a implementação de controles automáticos rigorosos para a validação do formato e da aritmética das saídas.
A abordagem “LLM-as-a-Judge” é uma alternativa alinhada a estudos recentes que exploram a capacidade de LLMs para realizar julgamentos complexos com base em instruções explícitas (Liu et al., 2023; Zheng et al., 2023). A estratégia consiste em instruir os LLMs, por meio de um prompt detalhado, a aplicar a rubrica do ENEM e retornar a avaliação em um formato JSON controlado, contendo notas discretas para cada competência e a soma final. Esta formulação permite uma comparação direta e justa entre os modelos sob critérios idênticos. O sistema proposto materializa essa abordagem em um pipeline automatizado em Python, que gerencia a leitura dos textos, a montagem dos prompts com o tema de cada ano, a execução de múltiplas repetições por redação para robustez estatística e a coleta padronizada de métricas.
O pipeline experimental foi implementado em Python, automatizando o fluxo de trabalho. O sistema lê cada redação, insere o tema correto no prompt e submete o texto a cada um dos cinco LLMs. Para avaliar a estabilidade, cada redação foi processada cinco vezes por cada LLM, com temperatura de inferência em 0.0 para maximizar o determinismo. A cada execução, o sistema registrou métricas detalhadas, incluindo tokens de entrada, de saída e totais, bem como os tempos de resposta e processamento. A análise dos dados combina estatísticas descritivas com indicadores como a taxa de erro de soma e a contagem de acertos. A escolha dos modelos abrangeu uma diversidade de arquiteturas, incluindo modelos densos como o Llama 3.3, modelos de Mistura de Especialistas (MoE) como o Llama 4, e um sistema composto como o Groq/Compound. Diferenças arquiteturais, como mecanismos de atenção (VASWANI et al., 2017; SHAZEER, 2019; AINSLIE et al., 2023) e tipo de pós-treinamento (OUYANG et al., 2022), impactam o equilíbrio entre acurácia, latência e custo.
A disponibilidade limitada de corpora públicos para AES em português brasileiro é um obstáculo histórico. Iniciativas como o Essay-BR representaram um avanço ao oferecer redações anotadas (Marinho et al., 2021; Marinho et al., 2022), mas a origem dos textos, de simuladores, pode introduzir vieses. Esforços recentes focaram em melhorar a curadoria e documentação dos dados (Silveira et al., 2024), mas a carência de amostras amplas e representativas persiste. A metodologia deste trabalho contorna parcialmente essa limitação ao focar em um protocolo que não depende de ajuste fino, mas da capacidade dos modelos de seguir instruções complexas.
As métricas de avaliação foram selecionadas para uma visão multidimensional do desempenho. Além de estatísticas descritivas para notas, tokens e latência, foi realizada uma análise da conformidade da saída, verificando a validade do formato JSON e a correção da soma aritmética. A capacidade de cada modelo de acertar a nota de referência (1000 pontos) foi quantificada, assim como a proporção de notas em faixas próximas (acima de 900 e 800). Para a latência, foi utilizada a Função de Distribuição Acumulada Empírica (FDAE), uma ferramenta visual para comparar a distribuição dos tempos de resposta entre os modelos. Esta análise permite identificar não apenas o modelo mais acurado, mas também compreender os trade-offs operacionais para uma implementação em larga escala.
Os resultados da validação da saída revelaram diferenças operacionais significativas. A coerência entre a nota final e a soma das competências foi a primeira métrica. O modelo Llama 4 apresentou um desempenho inferior, com uma taxa de erro de soma de aproximadamente 45,6%, indicando uma falha sistemática em seguir uma instrução básica do prompt. Em contraste, o Llama 3.3 demonstrou consistência perfeita, com 0% de erros de soma. Os demais modelos apresentaram taxas de erro negligenciáveis ou nulas. Para garantir a integridade das análises, a “nota agregada” foi recalculada para todas as execuções como a soma das cinco competências, substituindo a “nota final” do LLM quando havia discrepância.
No desempenho agregado, o Llama 3.3 emergiu como o vencedor. Ele acertou a nota de referência de 1000 pontos em 85% das execuções, resultado superior ao dos concorrentes, e exibiu a maior média e mediana de notas agregadas, com o menor desvio padrão, indicando alta consistência. O sistema Groq (Orquestrado) ficou em segundo lugar em qualidade. O GPT OSS mostrou um desempenho intermediário, com variabilidade maior. O Llama 4, além dos problemas operacionais, obteve notas inferiores, enquanto o Gemma 2 apresentou o desempenho mais fraco, com nenhuma avaliação atingindo as faixas de 800, 900 ou 1000 pontos. O desempenho superior do Llama 3.3 pode ser atribuído à sua arquitetura densa e grande número de parâmetros.
A análise por competência individual mostrou que, para quase todos os modelos, a Competência II (Compreensão da proposta e gênero) recebeu as notas médias mais altas, sugerindo que esta tarefa é mais acessível para os LLMs. A exceção foi o Gemma 2, que atribuiu sua maior nota média à Competência I (Domínio da norma culta). Os modelos Llama 3.3 e Groq (Orquestrado) demonstraram coerência em suas avaliações entre as competências. A interpretação desses resultados é limitada pela natureza do corpus, que reduz a discriminabilidade. A análise por ano/tema indicou que o tema de 2023 (“Desafios para o enfrentamento da invisibilidade do trabalho de cuidado realizado pela mulher no Brasil”) pareceu apresentar dificuldade ligeiramente maior, mas o ranking de desempenho entre os LLMs permaneceu consistente.
As métricas de custo computacional e latência forneceram insights cruciais. A análise de tokens mostrou que o sistema Groq (Orquestrado) foi o que mais utilizou tokens, devido ao seu extenso prompt. Os modelos da família Llama e o Gemma 2 foram mais eficientes. Essa diferença se correlacionou com a latência. O Groq (Orquestrado) e o GPT OSS foram os mais lentos, com tempos de resposta de até 30 segundos e 5 segundos, respectivamente. O grupo dos mais rápidos, composto por Gemma 2, Llama 4 e Llama 3.3, apresentou latências consistentemente abaixo de 0,5 segundos. Dentro deste grupo, o Gemma 2 foi o mais rápido, seguido pelo Llama 4 e pelo Llama 3.3. A análise evidencia um claro trade-off entre qualidade, custo e velocidade. O Llama 3.3, modelo de melhor acurácia, não foi o mais rápido, mas operou em uma faixa de latência baixa, tornando-o viável para aplicações em larga escala.
O estudo possui limitações importantes. A principal é a restrição do corpus a redações de nota 1000, o que impede a avaliação do comportamento dos modelos em notas inferiores e pode superestimar a acurácia. Futuros trabalhos devem buscar acesso a corpora mais diversificados. Os erros operacionais, como a alta taxa de erro de soma do Llama 4, ressaltam a necessidade de implementar camadas de validação e pós-processamento. A variação de custo e latência entre arquiteturas (denso vs. MoE vs. orquestrado) é um fator crítico para a escalabilidade. Questões sobre generalização, vieses e contaminação por dados públicos exigem investigação contínua.
Em suma, entre os modelos avaliados, o Llama 3.3 demonstrou o melhor desempenho geral, combinando alta acurácia, consistência operacional (0% de erro de soma) e baixo desvio-padrão. O sistema Groq (Orquestrado) se posicionou como uma alternativa de alta qualidade, mas com penalidade em consumo de tokens e latência. O GPT OSS apresentou resultados intermediários com maior variabilidade, enquanto o Llama 4 se mostrou operacionalmente falho e o Gemma 2, embora mais rápido, foi o menos acurado. As recomendações para uma implementação institucional são: o Llama 3.3 deve ser priorizado quando qualidade e consistência forem críticas; o Gemma 2 pode ser uma opção quando a latência mínima for o requisito principal; e o sistema Groq (Orquestrado) só se justifica se suas capacidades de orquestração compensarem o alto custo computacional.
O estudo fornece um framework para a seleção de LLMs em tarefas de avaliação automática, baseando a decisão no balanço entre qualidade, velocidade e custo. A pesquisa valida a abordagem “LLM-as-a-Judge” como uma metodologia promissora, mas destaca a necessidade de protocolos rigorosos, validações contínuas e uma compreensão das limitações de cada modelo. Conclui-se que o objetivo foi atingido: demonstrou-se a viabilidade do uso de LLMs como avaliadores, com o modelo Llama 3.3 apresentando o melhor equilíbrio entre acurácia, consistência e custo computacional para a tarefa de correção de redações do ENEM.
Referências:
AINSLIE, Joshua; LEE-THORP, James; DE JONG, Michiel; ZEMLYANSKIY, Yury; LEBRÓN, Federico; SANGHAI, Sumit. GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. In: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023.
ATTALI, Y.; BURSTEIN, J. 2006. Automated essay scoring with e-rater® v.2. The Journal of Technology, Learning, and Assessment, 4(3): 1–29.
DIKLI, S. 2006. An overview of automated scoring of essays. The Journal of Technology, Learning, and Assessment, 5(1): 1–36.
GOOGLE. Gemma 2-9B-IT — Model Card. 2025. Disponível em: https://console. groq. com/docs/model/gemma2-9b-it e https://huggingface. co/google/gemma-2-9b-it. Acesso em: 26 set. 2025.
GROQ. Compound Systems — Visão geral. 2025. Disponível em: https://console. groq. com/docs/compound e https://console. groq. com/docs/compound/systems. Acesso em: 26 set. 2025.
HOLTZMAN, A.; BUYS, J.; DU, L.; FORBES, M.; CHOI, Y. 2020. The curious case of neural text degeneration. In: International Conference on Learning Representations (ICLR), 2020, Addis Ababa, Etiópia. Disponível em: https://openreview. net/forum? id=rygGQyrFvH. Acesso em: 9 jun. 2025.
INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA [INEP]. 2024. A redação do Enem 2024: cartilha do(a) participante. Disponível em: https://download. inep. gov. br/publicacoes/institucionais/avaliacoeseexamesdaeducacaobasica/aredacaonoenem2024cartilhadoparticipante. pdf. Acesso em: 5 jul. 2025.
LIU, Y.; et al. 2023. G-Eval: NLG evaluation using GPT-4 with better human alignment. In: Conference on Empirical Methods in Natural Language Processing (EMNLP), 2023, Cingapura. Anais… p. 2511–2522. Association for Computational Linguistics.
MARINHO, J. C.; ANCHIÊTA, R. T.; MOURA, R. S. 2021. Essay-BR: a Brazilian corpus of essays. Disponível em: https://arxiv. org/abs/2105.09081. Acesso em: 1 jul. 2025.
MARINHO, J. C.; ANCHIÊTA, R. T.; MOURA, R. S. 2022. Essay-BR: a Brazilian corpus to automatic essay scoring task. Journal of Information and Data Management, 13(1): 65–76.
META. Llama-3.3-70B — Model Card. 2024. Disponível em: https://www. llama. com/docs/model-cards-and-prompt-formats/llama3_3/ e https://huggingface. co/meta-llama/Llama-3.3-70B-Instruct. Acesso em: 26 set. 2025.
META. Llama-4-Scout-17B-16E — Model Card. 2025. Disponível em: https://huggingface. co/meta-llama/Llama-4-Scout-17B-16E e https://build. nvidia. com/meta/llama-4-scout-17b-16e-instruct/modelcard. Acesso em: 26 set. 2025.
NATIONAL COUNCIL OF TEACHERS OF ENGLISH [NCTE]. 2013. Machine Scoring Fails the Test: NCTE Position Statement on Machine Scoring. Disponível em: https://cdn. ncte. org/nctefiles/press/machinescoring-2013. pdf. Acesso em: 1 jul. 2025.
OPENAI. gpt-oss-120b & gpt-oss-20b — Model Card. 2025. Disponível em: https://openai. com/index/gpt-oss-model-card/. Acesso em: 14 de ago. 2025
OUYANG, Long et al. Training language models to follow instructions with human feedback. In: Advances in Neural Information Processing Systems (NeurIPS), 2022.
PAGE, E. B. 1966. The imminence of grading essays by computer. Phi Delta Kappan, 47(5): 238–243.
PERELMAN, L. 2014. When “the state of the art” is counting words. Assessing Writing, 21: 104–111.
PONTES, A.; PRISCILLA, R.; LOPES, A. Capítulo 24 Correção automática de redação. [s. l: s. n.]. Disponível em: <https://brasileiraspln. com/livro-pln/2a-edicao/parte-aplicacoes/cap-aes/cap-aes. pdf>. Acesso em: 27 set. 2025.
SHAZEER, Noam. Fast Transformer Decoding: One Write-Head is All You Need. 2019.
SILVEIRA, I. C.; BARBOSA, A.; MAUÁ, D. D. 2024. A new benchmark for automatic essay scoring in Portuguese. In: International Conference on Computational Processing of Portuguese (PROPOR), 16., 2024, Santiago de Compostela, Espanha. Anais… p. 228–237. Association for Computational Linguistics.
VASWANI, Ashish et al. Attention Is All You Need. In: Advances in Neural Information Processing Systems (NeurIPS), 2017.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:



































