Imagem Avaliação comparativa de arquiteturas RAG para mitigação de alucinações em LLMs

09 de fevereiro de 2026

Avaliação comparativa de arquiteturas RAG para mitigação de alucinações em LLMs

Ighor Felipe de Melo Queiroz; Adriana Camargo de Brito

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Esta pesquisa avaliou comparativamente o desempenho de três arquiteturas de Recuperação Aumentada por Geração (RAG) — RAG Tradicional, Tree-RAG e MultiQuery RAG — com o framework LangChain, para identificar a abordagem mais eficaz na redução de alucinações e no aumento da precisão de Modelos de Linguagem Grandes (LLMs) em bases de conhecimento textuais e complexas. O estudo buscou preencher uma lacuna na literatura, que carece de comparações sistemáticas do desempenho de diferentes arquiteturas RAG em um corpus técnico com forte dependência contextual, utilizando uma combinação de métricas quantitativas e qualitativas.

Apesar da proliferação de ferramentas de Inteligência Artificial (IA) (Sichman, 2021), uma limitação crítica dos LLMs é a “alucinação”, a geração de informações factualmente incorretas. Esse fenômeno ocorre porque os modelos geram texto com base em padrões estatísticos, sem acesso a fontes externas para verificação em tempo real (Rapp et al., 2025). A plausibilidade dessas respostas compromete a confiabilidade da tecnologia em aplicações críticas (Sun et al., 2025).

Para mitigar esse risco, a técnica de Recuperação Aumentada por Geração (RAG), introduzida por Lewis et al. (2020), integra um mecanismo de recuperação de informações ao processo de geração. Antes de responder, o sistema RAG consulta uma base de dados externa e específica, fornecendo os trechos mais relevantes ao LLM como um contexto adicional. O modelo é instruído a basear sua resposta exclusivamente nessas informações, o que aumenta a precisão factual e garante que as saídas sejam auditáveis e baseadas em evidências (Arslan et al., 2024; Zhao et al., 2024).

A versatilidade do RAG impulsionou variações para domínios específicos. Em saúde, Ye (2024) aplicou RAG a registros eletrônicos com aprendizado de ranqueamento, enquanto Ozmen & Mathur (2025) destacam seu potencial para suporte à decisão clínica. Em saúde mental, a combinação de RAG com feedback humano reduziu alucinações (Soman et al., 2025a). A técnica também foi aplicada em engenharia, como na Análise de Modo e Efeitos de Falha (FMEA), usando grafos de conhecimento para aprimorar a recuperação de dados (Bahr et al., 2025).

Arquiteturas mais sofisticadas surgiram para otimizar a recuperação. O Tree-RAG (Fatehkia et al., 2024) utiliza a estrutura hierárquica de documentos para gerar descrições contextuais, alcançando alta precisão em consultas factuais. O DMQR-RAG (Li et al., 2024) emprega uma estratégia de reescrita de múltiplas consultas para ampliar a cobertura da busca. Apesar desses avanços, a literatura carece de uma análise comparativa dessas arquiteturas em um mesmo corpus técnico. Este estudo realiza essa avaliação usando o Livro do Jogador de Dungeons & Dragons 5ª Edição como corpus, escolhido por sua complexidade normativa, interdependência conceitual e estrutura formal, que desafiam os sistemas de IA.

A metodologia garantiu uma comparação rigorosa mantendo o pipeline de processamento constante, variando apenas a estratégia de recuperação. O corpus foi o Livro do Jogador de Dungeons & Dragons 5ª Edição, um manual de 315 páginas e aproximadamente 212.919 palavras, escolhido por sua estrutura, densidade informacional e dependência contextual. O conteúdo foi extraído do PDF com a biblioteca PyMuPDF, tratando a formatação em colunas, e a estrutura hierárquica foi extraída com expressões regulares e armazenada em JSON.

Após a extração, o texto foi segmentado em unidades menores, ou chunks, utilizando o método RecursiveCharacterTextSplitter, com um comprimento máximo de 850 caracteres e uma sobreposição de 150 caracteres. Essa configuração equilibra a granularidade da informação e a preservação do contexto semântico. Em seguida, os chunks foram convertidos em representações vetoriais (embeddings) através do modelo all-MiniLM-L6-v2 da biblioteca Sentence Transformers. Os vetores resultantes foram indexados na biblioteca FAISS (Facebook AI Similarity Search), otimizada para buscas de similaridade em alta dimensionalidade, permitindo uma recuperação de informações eficiente.

O pipeline foi orquestrado pelo framework LangChain, utilizando o modelo de linguagem openai/gpt-oss-120b, acessado via infraestrutura da Groq, para a geração das respostas. Para cada consulta, o sistema recuperava os 10 chunks mais semanticamente similares do índice FAISS. Estes eram inseridos em um prompt que instruía o LLM a gerar uma resposta baseada exclusivamente no contexto fornecido, com a diretiva de responder “Não sei com base nas informações disponíveis” caso a resposta não pudesse ser encontrada. As três arquiteturas diferenciaram-se na utilização do contexto: o RAG Tradicional usou a concatenação direta dos chunks recuperados; o Tree-RAG explorou a estrutura hierárquica do documento para realizar sumarizações progressivas; e o MultiQuery RAG gerou múltiplas reformulações da pergunta para buscas paralelas.

O desempenho dos modelos foi avaliado por meio de uma abordagem híbrida. Foram elaboradas cinco perguntas de complexidade variada (factual, conceitual, procedural, analítica e exploratória), cada uma com uma resposta de referência. Para a avaliação quantitativa, foram empregadas as métricas ROUGE-1, ROUGE-2 e ROUGE-L (Lin, 2004) para medir a sobreposição lexical, e BERTScore F1 (Mirtaheri et al., 2025) para avaliar a similaridade semântica. A avaliação qualitativa foi conduzida em duas etapas: uma análise humana atribuindo notas de 1 a 5 em uma escala Likert para quatro critérios (fidelidade, completude, clareza e relevância), seguida por uma validação cruzada na qual um LLM externo (Gemini 2.5) realizou a mesma avaliação para reduzir vieses individuais.

Os resultados da avaliação revelaram que a eficácia de cada arquitetura está ligada à natureza da consulta. Para a pergunta factual “Qual é o dado de vida de um guerreiro?”, o Tree-RAG foi o único a fornecer a resposta correta e direta (“d10”), demonstrando a superioridade de sua abordagem hierárquica para localizar informações pontuais, o que corrobora as observações de Fatehkia et al. (2024). Em contraste, o RAG Tradicional e o MultiQuery RAG falharam, afirmando que a informação não estava disponível no contexto.

Em perguntas conceituais e procedimentais, como “O que são testes de resistência?” e “Quais são as etapas para criar um personagem?”, o RAG Tradicional apresentou o desempenho mais equilibrado. Suas respostas foram consistentemente mais completas e bem estruturadas. Por exemplo, na explicação sobre testes de resistência, o RAG Tradicional definiu o conceito e detalhou a mecânica, recebendo nota máxima em todos os critérios qualitativos. O Tree-RAG e o MultiQuery RAG também forneceram respostas corretas, mas foram menos detalhados, indicando que a concatenação direta de fragmentos do RAG Tradicional é mais eficaz para preservar o encadeamento semântico.

A análise de perguntas mais complexas, como “Como funciona a vantagem e desvantagem?” (analítica) e “Explique como funciona a progressão de magias de um mago” (exploratória), expôs as limitações das arquiteturas mais sofisticadas. O Tree-RAG falhou em ambas, indicando que sua estrutura hierárquica pode fragmentar o contexto quando a resposta exige a integração de informações dispersas. O MultiQuery RAG também falhou na pergunta sobre a progressão de magias e foi menos detalhado na outra. O RAG Tradicional, embora também não tenha conseguido explicar completamente a progressão de magias, forneceu uma resposta parcial e relevante, demonstrando maior robustez.

A análise qualitativa, tanto humana quanto a realizada pelo LLM Gemini, consolidou essas observações. O RAG Tradicional obteve a maior pontuação global em ambas as avaliações. O Tree-RAG destacou-se pela precisão factual, mas recebeu notas baixas em completude e relevância nas perguntas em que falhou. O MultiQuery RAG apresentou desempenho intermediário, mas a avaliação humana apontou que a diversidade de queries por vezes introduziu ruído e fragmentou o contexto. A avaliação do Gemini confirmou a superioridade geral do RAG Tradicional.

A análise quantitativa reforçou os achados qualitativos. O Tree-RAG alcançou os maiores scores de ROUGE-1 (0.421) e ROUGE-2 (0.235) na pergunta factual, refletindo sua alta fidelidade lexical. Por outro lado, o RAG Tradicional obteve consistentemente os maiores valores de BERTScore F1 em perguntas conceituais e procedimentais (e. g., 0.838 na pergunta sobre vantagem/desvantagem), indicando uma melhor preservação da similaridade semântica. O MultiQuery RAG apresentou maior variabilidade nos scores, sugerindo que sua estratégia de reformulação pode levar a uma recuperação de contexto menos focada em um corpus estruturado.

A discussão dos resultados, quando confrontada com a literatura, oferece insights. A superioridade do Tree-RAG em consultas factuais está alinhada com os achados de Fatehkia et al. (2024), mas este estudo também evidencia sua fragilidade em consultas que demandam a síntese de informações dispersas. O desempenho inconsistente do MultiQuery RAG contrasta com os ganhos de precisão reportados por Li et al. (2024) em corpora mais diversos, sugerindo que a reformulação de perguntas pode introduzir mais ruído do que sinal em um corpus técnico com terminologia bem definida.

Este estudo comparou com sucesso as arquiteturas RAG Tradicional, Tree-RAG e MultiQuery RAG, avaliando sua capacidade de mitigar alucinações em um corpus técnico. Os resultados indicam que o RAG Tradicional oferece o melhor equilíbrio geral entre fidelidade, clareza e completude, sendo particularmente eficaz em respostas conceituais e procedimentais. O Tree-RAG demonstrou precisão superior em consultas factuais e objetivas. O MultiQuery RAG, por sua vez, apresentou maior variabilidade e introduziu ruído no contexto recuperado, o que reduziu a consistência das respostas neste cenário. As conclusões reforçam que a arquitetura RAG ideal é dependente do contexto da aplicação. Para sistemas que lidam com a recuperação de fatos diretos, o Tree-RAG é a escolha indicada. Para aplicações que exigem explicações detalhadas, o RAG Tradicional se mostra mais robusto. As limitações observadas, como a dificuldade em processar conteúdo tabular, apontam para a necessidade de desenvolver abordagens híbridas. Conclui-se que o objetivo foi atingido: demonstrou-se que a eficácia de cada arquitetura RAG depende intrinsecamente da natureza da consulta, com o RAG Tradicional apresentando o melhor equilíbrio geral, o Tree-RAG se destacando em precisão factual e o MultiQuery RAG mostrando potencial limitado em corpus altamente estruturados. Recomenda-se, para trabalhos futuros, a expansão da análise para corpora não estruturados, a exploração de estratégias que integrem dados tabulares e textuais, e a avaliação da viabilidade de implementação dessas arquiteturas em contextos corporativos.

Referências:
Arslan, M., Ghanem, H., Munawar, S., & Cruz, C. (2024). A Survey on RAG with LLMs. Procedia Computer Science, 246(C), 3781–3790. https://doi. org/10.1016/j. procs.2024.09.178
Bahr, L., Wehner, C., Wewerka, J., Bittencourt, J., Schmid, U., & Daub, R. (2025). Knowledge graph enhanced retrieval-augmented generation for failure mode and effects analysis. Journal of Industrial Information Integration, 45, 100807. https://doi. org/10.1016/J. JII.2025.100807
Fatehkia, M., Lucas, J. K., & Chawla, S. (2024). TREE-RAG: Lessons from the LLM Trenches. http://arxiv. org/abs/2402.07483
Heredia Álvaro, J. A., & Barreda, J. G. (2025). An advanced retrieval-augmented generation system for manufacturing quality control. Advanced Engineering Informatics, 64, 103007. https://doi. org/10.1016/J. AEI.2024.103007
Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W.-T., Rocktäschel, T., Riedel, S., & Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. https://github. com/huggingface/transformers/blob/master/
Li, Z., Wang, J., Jiang, Z., Mao, H., Chen, Z., Du, J., Zhang, Y., Zhang, F., Zhang, D., & Liu, Y. (2024). DMQR-RAG: Diverse Multi-Query Rewriting for RAG. http://arxiv. org/abs/2411.13154
Lin, C.-Y. (2004). ROUGE: A Package for Automatic Evaluation of Summaries.
Mirtaheri, S. L., Pugliese, A., Movahed, N., & Shahbazian, R. (2025). A comparative analysis on using GPT and BERT for automated vulnerability scoring. Intelligent Systems with Applications, 26, 200515. https://doi. org/10.1016/J. ISWA.2025.200515
Ozmen, B. B., & Mathur, P. (2025). Evidence-based artificial intelligence: Implementing retrieval-augmented generation models to enhance clinical decision support in plastic surgery. Journal of Plastic, Reconstructive & Aesthetic Surgery, 104, 414–416. https://doi. org/10.1016/J. BJPS.2025.03.053
Rapp, A., Di Lodovico, C., & Di Caro, L. (2025). How do people react to ChatGPT’s unpredictable behavior? Anthropomorphism, uncanniness, and fear of AI: A qualitative study on individuals’ perceptions and understandings of LLMs’ nonsensical hallucinations. International Journal of Human-Computer Studies, 198, 103471. https://doi. org/10.1016/J. IJHCS.2025.103471
Shang, Y., Ke, Z., Lin, P., Ren, Q., Zhang, W., Wang, X., Li, X., Gong, F., Wang, S., Wang, B., Xu, Z., Sun, M., & Tan, S. (2025). Empowering knowledge graphs with hybrid retrieval-augmented generation for the intelligent mix scheme of mass concrete. Case Studies in Construction Materials, 23, e04979. https://doi. org/10.1016/J. CSCM.2025. E04979
Sichman, J. S. (2021). Inteligência Artificial e sociedade: avanços e riscos. Estudos Avancados, 35(101), 37–49. https://doi. org/10.1590/s0103-4014.2021.35101.004
Soman, G., Judy, M. V., & Abou, A. M. (2025a). Human guided empathetic AI agent for mental health support leveraging reinforcement learning-enhanced retrieval-augmented generation. Cognitive Systems Research, 90, 101337. https://doi. org/10.1016/J. COGSYS.2025.101337
Sun, S., Lin, Z., & Wu, X. (2025). Hallucinations of large multimodal models: Problem and countermeasures. Information Fusion, 118, 102970. https://doi. org/10.1016/J. INFFUS.2025.102970
Vidivelli, S., Ramachandran, M., & Dharunbalaji, A. (2024). Efficiency-Driven Custom Chatbot Development: Unleashing LangChain, RAG, and Performance-Optimized LLM Fusion. Computers, Materials and Continua, 80(2), 2423–2442. https://doi. org/10.32604/CMC.2024.054360
Ye, C. (2024). Exploring a learning-to-rank approach to enhance the Retrieval Augmented Generation (RAG)-based electronic medical records search engines. Informatics and Health, 1(2), 93–99. https://doi. org/10.1016/J. INFOH.2024.07.001
Zhao, P., Zhang, H., Yu, Q., Wang, Z., Geng, Y., Fu, F., Yang, L., Zhang, W., Jiang, J., & Cui, B. (2024). Retrieval-Augmented Generation for AI-Generated Content: A Survey. http://arxiv. org/abs/2402.19473


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade