Imagem Avaliação comparativa de técnicas RAG em documentos do Imposto de Renda

19 de fevereiro de 2026

Avaliação comparativa de técnicas RAG em documentos do Imposto de Renda

Rafael Araújo Oliveira Gomes; Gustavo Dantas Lobo

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este estudo avalia comparativamente o desempenho de duas abordagens de Geração Aumentada por Recuperação (RAG) — uma convencional e outra otimizada — aplicadas a um corpus de documentos públicos sobre o Imposto de Renda da Pessoa Física (IRPF) de 2024. A análise foi conduzida com métricas de qualidade e relevância das respostas, incluindo precisão semântica, fidelidade factual e aderência ao contexto. Os resultados culminaram no desenvolvimento de uma aplicação web para consultas semânticas em publicações oficiais sobre o IRPF, demonstrando a viabilidade da solução em um ambiente corporativo com grande volume de informações dispersas.

O crescente volume e a dispersão de informações documentais nas organizações dificultam a recuperação eficiente do conhecimento, um cenário crítico em ambientes corporativos onde decisões dependem de consultas a fontes heterogêneas. Essa fragmentação causa esforços duplicados, perda de produtividade e inconsistências informacionais. Métodos de busca tradicionais, baseados em palavras-chave, são limitados por não capturarem o significado semântico, frequentemente gerando resultados incompletos ou irrelevantes (Jurafsky e Martin, 2021). Nesse contexto, Modelos de Linguagem de Larga Escala (LLMs) surgem como uma alternativa para aprimorar a extração de conhecimento com consultas contextualmente alinhadas.

Apesar de sua capacidade em tarefas como geração de resumos e tradução (Brown et al., 2020), a aplicação prática de LLMs enfrenta limitações. O treinamento exige infraestrutura computacional robusta, com altos custos operacionais e consumo energético (Humza et al., 2025). Além disso, a aquisição e o pré-processamento de dados são complexos e demorados, restringindo a atualidade do conhecimento do modelo e impactando a agilidade da inferência em tempo real, especialmente em modelos de grande escala ou consultas complexas.

Para contornar essas limitações, a técnica de Geração Aumentada por Recuperação (RAG) permite que um LLM consulte bases de dados externas antes de formular uma resposta (Lewis, 2020). Essa arquitetura híbrida combina a recuperação de informações com a capacidade generativa dos LLMs. Estudos como o de Izacard e Grave (2021) demonstram que aprimorar modelos generativos com mecanismos de recuperação para perguntas abertas resulta em redução de “alucinações” (informações factualmente incorretas), melhora na precisão e maior alinhamento ao contexto da pergunta.

A motivação deste estudo partiu de uma demanda organizacional real: a necessidade de realizar consultas contínuas em um grande volume de documentos dispersos para subsidiar atendimentos corporativos. O processo manual de análise e pesquisa era ineficiente, propenso a erros e consumia tempo excessivo. Uma solução baseada em RAG surgiu como alternativa para otimizar a busca e o aproveitamento do conhecimento institucional, justificando a avaliação comparativa de diferentes implementações da técnica para identificar a mais eficaz para uma aplicação prática.

A metodologia incluiu coleta de dados por web scraping, pré-processamento, implementação de duas abordagens RAG (convencional e aprimorada), avaliação de desempenho com diversas métricas e o desenvolvimento de uma aplicação web com o modelo de melhor performance. Os dados foram coletados de duas fontes oficiais: acórdãos sobre IRPF de 2024 do Conselho Administrativo de Recursos Fiscais (CARF) e o documento “Perguntas e Respostas sobre o Imposto de Renda 2024” da Receita Federal, combinando perspectivas jurisprudencial e normativa.

Para coletar os acórdãos do CARF, utilizou-se web scraping com a biblioteca Selenium para automatizar a interação com a página de consulta (Tavares e Cunha, 2021). A automação extraiu 4.047 documentos de 405 seções. Um programa em Python inseriu parâmetros de busca e percorreu as páginas, coletando dados como número do processo, decisão e ementa, consolidados em um arquivo CSV. O documento “Perguntas e Respostas IRPF 2024” foi obtido como um arquivo PDF do site da Receita Federal.

A estratégia de RAG convencional consolidou os 4.048 documentos, dividindo o texto em blocos de 500 tokens com sobreposição de 200. As representações vetoriais (embeddings), que convertem texto em vetores numéricos (Mikolov et al., 2013), foram geradas com o modelo text-embedding-3-small da OpenAI e armazenadas em memória. Na recuperação, o sistema retornava o documento mais relevante (k=1) como contexto para o modelo gpt-3.5-turbo. A RAG aprimorada combinou indexação multivetorial, sumarização automática e fusão de classificações (Chen et al., 2023; Rackauckas, 2024). Nesta abordagem, cada página dos documentos foi tratada de forma independente, com um resumo automático gerado para cada uma. Os vetores desses resumos foram armazenados no banco vetorial FAISS. A busca utilizou expansão de consulta múltipla (Ma et al., 2023); a pergunta original foi expandida para variações semânticas.

Os resultados das buscas paralelas na RAG aprimorada foram combinados e reordenados com a técnica Reciprocal Rank Fusion (RRF), que favorece documentos que aparecem de forma recorrente em diferentes listas de resultados (Rackauckas, 2024). A avaliação da qualidade das respostas de ambas as estratégias usou a plataforma RAGAS para analisar fidelidade factual e relevância (Shahul et al., 2024), além das métricas tradicionais BLEU e ROUGE (Ke, 2024), com um conjunto de dados de 50 pares de perguntas e respostas de referência. A aplicação web foi desenvolvida com Streamlit e um backend FastAPI, utilizando o banco vetorial Qdrant, o modelo de embedding msmarco-bert-base-dot-v5 e a API da OpenAI para gerar as respostas.

A análise dos 4.047 acórdãos do CARF revelou concentração de publicações em fevereiro (758), abril (705) e setembro de 2024. O tempo médio entre a fiscalização que originou o processo e a decisão final do CARF foi de aproximadamente 12 anos. Verificou-se que 73,67% das decisões de 2024 referiam-se a fiscalizações ocorridas entre 2007 e 2012, com 38 decisões emitidas somente após 20 anos da data da fiscalização, indicando morosidade no contencioso administrativo tributário. A análise de frequência de termos nas ementas identificou temas recorrentes como “renda”, “despesas médicas”, “omissão”, “multa”, “isenção” e “pensão alimentícia”.

Na avaliação com métricas tradicionais, o RAG convencional apresentou resultados variáveis. A métrica BLEU teve uma mediana baixa (cerca de 0,10), e as métricas ROUGE-1, ROUGE-2 e ROUGE-L mostraram medianas em torno de 0,3 a 0,4, mas com alta dispersão, sugerindo inconsistência. O RAG aprimorado, por outro lado, demonstrou maior consistência. Embora a mediana do BLEU tenha permanecido baixa, a variabilidade foi menor. As medianas das métricas ROUGE foram ligeiramente inferiores, mas com distribuições mais compactas, indicando um desempenho sintático mais previsível e robusto.

A avaliação com as métricas do framework RAGAS revelou que em ambos os modelos as métricas tradicionais (BLEU, ROUGE) estavam fortemente correlacionadas. No modelo básico, a precisão de contexto teve correlação moderada a alta com a relevância da resposta (0,78) e a correção factual (0,57), mas baixa com a fidelidade (0,32). No modelo aprimorado, a correlação entre precisão de contexto e relevância da resposta aumentou para 0,86. Contudo, a métrica de fidelidade apresentou correlações ainda mais fracas com as demais, sinalizando uma dificuldade persistente em preservar a veracidade factual.

Gráficos de radar mostraram que a estratégia básica foi robusta em precisão de contexto e relevância da resposta (valores > 0,8) e teve uma sensibilidade ao ruído muito baixa. O modelo RAG aprimorado, em contrapartida, exibiu um aumento na sensibilidade ao ruído (de ~0,1 para ~0,3), indicando menor robustez frente a ambiguidades nos dados de entrada. As demais métricas, como precisão de contexto e relevância, permaneceram elevadas, mas a correção factual apresentou uma leve queda. Ambas as abordagens recuperaram o contexto com sucesso em cerca de 70% dos casos, falhando principalmente em perguntas que exigiam a localização de dados pontuais, como números de processo ou alíquotas.

Um ponto crítico identificado foi a precisão factual. Embora as respostas fossem consideradas relevantes em 93% dos casos para ambos os modelos, a acurácia factual foi de apenas 56% no modelo básico e 50% no aprimorado. A análise focada em fidelidade e correção factual mostrou que o modelo aprimorado obteve ganhos expressivos, com uma mediana de fidelidade próxima de 1,0 e uma mediana de correção factual próxima de 0,7, superando o modelo básico. No entanto, essa melhoria veio ao custo de uma maior sensibilidade ao ruído. A análise da relevância da resposta em diferentes níveis de sensibilidade ao ruído confirmou essa troca: no modelo básico, a relevância permaneceu alta e estável mesmo com ruído; no aprimorado, a relevância se degradou severamente com o aumento do ruído, tornando-o menos confiável em cenários de dados imperfeitos.

Considerando a análise global, optou-se por implementar o sistema web com a arquitetura RAG básica. Embora a estratégia aprimorada tenha sido superior em fidelidade e correção factual em condições ideais, sua sensibilidade ao ruído a tornou menos adequada para uma aplicação prática; a qualidade dos dados de entrada não pode ser garantida. A arquitetura básica demonstrou robustez significativamente superior, oferecendo um desempenho mais estável e confiável em cenários adversos, o que é crucial para a implementação em um ambiente corporativo. A aplicação web desenvolvida permitiu aos usuários inserir perguntas em linguagem natural sobre o IRPF e receber respostas com referências aos documentos originais, garantindo transparência e rastreabilidade.

Uma limitação do estudo foi o foco em um único modelo de linguagem proprietário (OpenAI), devido a restrições de tempo e escopo. Os resultados reforçam que projetos de Inteligência Artificial são, essencialmente, projetos de dados, sendo a qualidade do contexto recuperado o fator mais decisivo para o desempenho da arquitetura RAG. A comparação revelou que, embora a estratégia aprimorada tenha avançado em precisão factual, não houve evolução significativa em robustez geral. Ambas as arquiteturas foram eficazes na recuperação de informações relevantes, mas a dependência crítica da qualidade do contexto de entrada reforça a necessidade de aprimorar os mecanismos de seleção de contexto e de mitigar os efeitos de ruídos nos dados.

Conclui-se que as técnicas de geração aumentada por recuperação demonstram relevância prática e estratégica para apoiar a tomada de decisão, como evidenciado na análise de documentos sobre o Imposto de Renda da Pessoa Física. O estudo destaca a importância de integrar métodos de inteligência artificial a uma gestão eficiente do ciclo de dados, pois a eficácia da estratégia depende fortemente da qualidade dos dados que alimentam o sistema. O trabalho aponta oportunidades para o desenvolvimento de soluções de automação e apoio analítico no setor público; a curadoria de dados e a construção de repositórios estruturados podem potencializar o uso de arquiteturas RAG em escala institucional. Os resultados validam o potencial da arquitetura para cenários reais e sinalizam um campo promissor para inovações futuras em análise documental. Conclui-se que o objetivo foi atingido: demonstrou-se que, embora a abordagem RAG aprimorada tenha apresentado ganhos em precisão factual, a arquitetura convencional exibiu maior robustez e estabilidade, tornando-a mais adequada para a implementação prática em cenários com variabilidade de dados.

Referências:
Brown, T.; Mann, B.; Ryder, N.; Subbiah, M.; Kaplan, J.; Dhariwal, P.; Neelakantan, A.; et al. 2020. Language Models are Few-Shot Learners. In: Advances in Neural Information Processing Systems (NeurIPS), 2020, Virtual Conference. Anais… p. 1-10.
Chen, T.; Wang, H.; Chen, S.; Yu, W.; Ma, K.; Zhao, X.; Zhang, H.; Yu, D. 2023. Dense x retrieval: what retrieval granularity should we use. In: Conference on Empirical Methods in Natural Language Processing, 2023, Miami, Florida, USA. Proceedings… p. 15159–15177.
Gao, M.; Hu, X.; Ruan, J.; Pu, X.; Wan, X. 2025. LLM-based nlg evaluation: current status and challenges. Computational Linguistics 51(2): 661-687.
Humza, N.; Khan, A; Qiu, S.; Saqib, M.; Anwar, S. 2025. A comprehensive overview of large language models. ACM Transactions on Intelligent Systems and Technology 16(5):1-72.
Izacard, G.; Grave, E. 2021. Leveraging passage retrieval with generative models for open domain question answering. In: Conference of the European Chapter of the Association for Computational Linguistics,16., 2021, Online. Proceedings… p. 874-880.
Jurafsky, D.; Martin, J. H. 2021. Speech and Language Processing (3rd ed.). Draft version, Stanford University. Stanford, CA, Estados Unidos. Disponível em: <https://web. stanford. edu/~jurafsky/slp3/>. Acesso em: 07 jul. 2025.
Ke, Z.; Kong, W.; Li, C.; Zhang, M.; Mei, Q.; Bendersky, M. 2024. Bridging the preference gap between retrievers and LLMs. In: Annual Meeting of the Association for Computational Linguistics, 62., 2024, Bangkok, Thailand. Proceedings, p. 10438–10451.
Lewis, P.; Perez, E.; Piktus, A.; Petroni, F.; Karpukhin, V.; Küttler, H.; Lewis, Y. 2020. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems 33: 9459-9474.
Lourenço, A. 2013. Web scraping technologies in an API world. Briefings in Bioinformatics 15(5): 788-797.
Ma, X.; Gong, Y.; He, P.; Zhao, H.; Duan, N. 2023. Query rewriting for retrieval-augmented large language models. Disponível em: arXiv preprint arXiv:2305.14283, p. 1-12. Acesso em: 07 jul. 2025.
Mikolov, T.; Chen, K.; Corrado, G.; Dean, J. 2013. Efficient estimation of word representations in vector space. Disponível em: arXiv preprint arXiv:1301.3781. Acesso em: 07 jul. 2025.
Rackauckas, Z. 2024. RAG-Fusion: a new take on retrieval-augmented generation. International Journal on Natural Linguagem Computing 13(1): 37-47.
Secretaria da Receita Federal do Brasil [SRFB]. 2024. Perguntas e Respostas sobre o Imposto de Renda 2024. Disponível em: <https://www. gov. br/receitafederal/pt-br/centrais-de-conteudo/publicacoes/perguntas-e-respostas/dirpf/pr-irpf-2024. pdf/view>. Acesso em: 03 abr. 2025.
Shahul, E.; Jithin, J.; Anke, L.; Shockaert, S. 2024. Ragas: automated evaluation of retrieval augmented generation. In: Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations, 18., 2024, St. Julians, Malta. Proceedings… p. 150-158.
Tavares, F.; Cunha, L. M. 2021. Web Scraping, um caso de uso para coletar metadados de artigos científicos publicados na biblioteca digital da IEEE. Trabalho de Conclusão de Curso em Bacharelado em Sistemas de Informação. Universidade Federal Fluminense, Rio de Janeiro, RJ, Brasil.
Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A. N.; Kaiser, Ł.; Polosukhin, I. 2017. Attention is all you need. In: Advances in Neural Information Processing Systems (NeurIPS), 2017, Long Beach, Califórnia, Estados Unidos. Anais… p. 1-12.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade