Imagem Otimização de tarefas de limpeza de dados em ERP para BI utilizando LLMs

04 de fevereiro de 2026

Otimização de tarefas de limpeza de dados em ERP para BI utilizando LLMs

Clicia Martins Benvinda Nobrega; Daniel Amgarten Simão

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo desta pesquisa é avaliar sistematicamente a eficácia de Modelos de Linguagem de Grande Porte (LLMs) na detecção de erros em dados estruturados, comparando o desempenho dos modelos ChatGPT-4o e ChatGPT-5 sob quatro estratégias de prompting: simples, negativo, Retrieval-Augmented Generation (RAG) e uma abordagem combinada de RAG com prompting negativo. O estudo investiga o impacto dessas variáveis na identificação de quatro tipos de inconsistências — duplicatas, erros tipográficos, anomalias de formatação e valores ausentes — em conjuntos de dados com diferentes níveis de contaminação, visando fornecer um guia prático para a aplicação dessas tecnologias na melhoria da qualidade de dados em sistemas de Business Intelligence (BI).

A integração entre sistemas de Enterprise Resource Planning (ERP) e ferramentas de BI é fundamental para a tomada de decisão, mas sua eficácia depende da qualidade dos dados. Inconsistências como duplicações, erros tipográficos, formatos heterogêneos e valores ausentes degradam a precisão de análises e podem comprometer modelos de aprendizado de máquina (Rahm e Do, 2000; Batini e Scannapieco, 2016). A persistência desses problemas mina a confiança nas decisões orientadas por dados e gera custos operacionais significativos para sua correção (Davenport, 2006).

Historicamente, a limpeza de dados tem sido abordada por meio de inspeções manuais, que são onerosas e propensas a erros, ou por scripts determinísticos. Embora escaláveis, os scripts baseados em regras carecem de flexibilidade para capturar erros sutis ou não antecipados, exigindo manutenção contínua e conhecimento técnico especializado (Hellerstein, 2008; Fan, Geerts e Jia, 2014; Ilyas e Chu, 2019). Essa lacuna entre a sensibilidade contextual dos métodos manuais e a rigidez dos métodos determinísticos motiva a busca por novas tecnologias (Abdelaal et al., 2023).

Recentemente, os LLMs, baseados em arquiteturas como os Transformers (Vaswani et al., 2017), emergiram como uma alternativa para automatizar tarefas cognitivas. Treinados em vastos corpora, esses modelos compreendem o contexto e identificam anomalias que extrapolam simples comparações de strings (Brown et al., 2020; Bommasani et al., 2021). Seu potencial em cenários de BI é reconhecido (Chowdhery et al., 2022), mas a aplicação específica de LLMs para a detecção de erros em dados estruturados, no contexto ERP-BI, permanece uma área pouco investigada.

A literatura aponta que o desempenho dos LLMs é sensível ao design do prompt (Zhao et al., 2021; Ouyang et al., 2022; Liu et al., 2023). Estratégias como RAG, que ancora o raciocínio do modelo em fontes externas (Lewis et al., 2020; Gao et al., 2023), e o prompting negativo, que delimita o escopo da tarefa, são cruciais para otimizar os resultados. Este trabalho busca preencher essa lacuna metodológica, avaliando de forma controlada como diferentes estratégias de prompting afetam a capacidade dos LLMs de identificar os principais tipos de erros de dados, oferecendo evidências para o uso eficaz dessas tecnologias na governança de dados.

A metodologia do estudo partiu da criação de um conjunto de dados sintético limpo com 5.000 registros e 10 colunas, simulando um esquema de dados de ERP. A partir dessa base, foram geradas versões ruidosas do dataset pela injeção controlada de erros. Para cada um dos quatro tipos de erro — duplicações, erros tipográficos, inconsistências de formatação e dados ausentes — foram criadas planilhas contaminadas em níveis de 10% e 15% das células. O processo foi isolado por tipo de erro para permitir uma avaliação focada. Um log de injeção de erros gerou uma máscara binária de referência (ground truth), onde 1 indicava uma célula com erro e 0 uma célula correta.

Para suportar as estratégias de RAG, foi criado um conjunto de dados de referência adicional, limpo e com 3.000 registros distintos. Este dataset funcionou como uma fonte de conhecimento externa, ou “golden record”, para o LLM consultar exemplos de formatação e ortografia corretas. A utilização de dados sintéticos foi uma escolha deliberada para garantir controle total sobre a natureza, localização e prevalência dos erros, permitindo uma avaliação quantitativa precisa do desempenho dos modelos (Chu et al., 2016).

Quatro estratégias de prompting foram avaliadas. O “prompt simples” consistia em uma instrução direta para o LLM identificar um tipo de erro por vez. O “prompting negativo” aprimorava a instrução ao especificar o erro a ser detectado e os outros três a serem ignorados, visando reduzir a confusão entre categorias (Liu et al., 2023). A estratégia “RAG” instruía o modelo a usar o dataset de referência para ancorar suas decisões (Gao et al., 2023). A abordagem “RAG+Negativo” combinava as duas técnicas, fornecendo ao modelo a referência externa e as cláusulas de exclusão.

O desempenho de cada combinação de modelo (ChatGPT-4o e ChatGPT-5), estratégia, tipo de erro e nível de contaminação foi quantificado com o F1-score. O LLM produzia uma máscara binária prevista, que era comparada com a máscara de referência para calcular verdadeiros positivos (VP), falsos positivos (FP) e falsos negativos (FN). Esses valores alimentaram o cálculo da precisão, revocação e do F1-score. Essa métrica foi escolhida por ser uma média harmônica robusta em cenários com desbalanceamento de classes, como a detecção de erros (Sahoo et al., 2022). As execuções foram realizadas com temperatura baixa para minimizar a variabilidade.

Os resultados revelam um desempenho heterogêneo dos LLMs, que varia conforme o tipo de erro, modelo e estratégia de prompting. A detecção de dados ausentes foi a tarefa mais simples, com F1-score entre 0,98 e 1,00 em quase todas as condições. Isso sugere que os sinais para identificar valores ausentes (células vazias, “N/A”) são inequívocos e facilmente capturados pelos modelos, indicando que podem ser implantados com alta confiança para essa finalidade.

Em contraste, a detecção de registros duplicados resultou em um F1-score nulo (0,00) em todas as configurações. Este fracasso evidencia uma limitação fundamental das abordagens baseadas em prompting para problemas de natureza relacional. A identificação de duplicatas exige comparações entre múltiplos registros, um raciocínio que transcende a análise de uma única linha. Sem um mecanismo explícito para essas comparações, os LLMs não inferiram a redundância, reforçando a necessidade de algoritmos especializados para essa tarefa (Elmagarmid et al., 2007; Christen, 2012).

Para a detecção de erros tipográficos, houve uma disparidade de desempenho entre os modelos. O ChatGPT-4o atingiu um F1-score de aproximadamente 0,72 com as estratégias de prompt simples e negativo. Em contrapartida, o ChatGPT-5 apresentou um desempenho inferior, com F1-scores na faixa de 0,11 a 0,16. Isso sugere que o GPT-4o possui maior sensibilidade para anomalias em nível de token. O uso de RAG não melhorou e, em alguns casos, degradou o desempenho, indicando que o contexto externo pode ter dispersado a atenção do modelo.

Para inconsistências de formatação, o padrão foi semelhante, com uma vantagem para o GPT-4o. Com prompts simples e negativo, o GPT-4o alcançou F1-scores entre 0,52 e 0,54, enquanto o GPT-5 ficou em torno de 0,40. A estratégia RAG foi novamente contraproducente, especialmente para o GPT-4o; o F1-score caiu para cerca de 0,32. Isso reforça a hipótese de que, para erros com evidências contidas nos padrões internos da própria coluna, um conjunto de referência externo pode atuar como ruído.

A análise do nível de contaminação revelou que o aumento da proporção de erros de 10% para 15% teve um efeito modesto. Houve uma ligeira queda no F1-score para dados ausentes (de 0,995 para 0,977). Por outro lado, o GPT-4o apresentou ganhos discretos na detecção de erros tipográficos e de formatação com o aumento da contaminação, sugerindo que uma maior densidade de exemplos pode facilitar o aprendizado de padrões. No geral, a baixa sensibilidade à variação da contaminação indica que os modelos são relativamente robustos nessa faixa de ruído.

A comparação entre as estratégias de prompting consolida a superioridade das abordagens diretas para erros locais. O prompt simples e o negativo apresentaram os resultados mais estáveis e elevados para erros tipográficos e de formatação. O desempenho do prompting negativo foi muito similar ao simples, indicando que os modelos já focam adequadamente na tarefa com uma instrução positiva bem definida. A introdução do RAG, isoladamente ou combinado, consistentemente levou a uma queda de performance nessas categorias, confirmando que a ancoragem externa é menos útil quando as convenções de domínio são inferíveis a partir dos próprios dados.

A avaliação comparativa entre os LLMs revela uma clara vantagem do ChatGPT-4o sobre o ChatGPT-5 em tarefas que exigem análise sutil, como a identificação de erros tipográficos e de formatação. O GPT-4o foi consistentemente mais eficaz em reconhecer desvios de padrões locais. Em contraste, o GPT-5, embora perfeito na detecção de dados ausentes, mostrou-se menos robusto para as outras categorias de erro. Esta observação indica que a escolha do modelo é crucial e pode ter um impacto decisivo no sucesso da automação da limpeza de dados.

Em suma, os resultados fornecem um panorama sobre as capacidades e limitações dos LLMs na detecção de erros em dados estruturados. Os modelos têm desempenho quase perfeito na identificação de dados ausentes, mas falham completamente na detecção de duplicatas via prompting, ressaltando que problemas relacionais exigem abordagens algorítmicas específicas. Para erros de tipografia e formatação, a eficácia é moderada a alta, mas dependente do modelo, com o GPT-4o superando o GPT-5, e da estratégia de prompting; abordagens simples se mostraram mais eficazes que as baseadas em recuperação de contexto. O aumento da contaminação de 10% para 15% teve impacto marginal.

Para aplicação prática, a principal implicação é a necessidade de uma arquitetura híbrida. As organizações devem integrar LLMs a validadores determinísticos. A detecção de ausências pode ser tratada com checagens de nulos, inconsistências de formatação com expressões regulares, e a deduplicação com pipelines de resolução de entidades. O LLM encontraria seu papel mais valioso na triagem de casos ambíguos, como erros tipográficos sutis, e na sumarização de alertas, combinando a escalabilidade de métodos determinísticos com a sensibilidade contextual da IA. Conclui-se que o objetivo foi atingido: demonstrou-se que a eficácia dos LLMs na detecção de erros em dados estruturados é altamente dependente do tipo de erro, do modelo específico e da estratégia de prompting, com prompts simples superando abordagens de recuperação para anomalias locais.

Referências:
Abdelaal, M.; Hammacher, C.; Schöning, H. 2023. REIN: A Comprehensive Benchmark Framework for Data Cleaning Methods in ML Pipelines. Proceedings of the 26th International Conference on Extending Database Technology (EDBT 2023). ISBN 978-3-89318-092-9.
Abedjan, Z.; Golab, L.; Naumann, F. 2016. Detecting data errors: where are we and what needs to be done. Proceedings of the VLDB Endowment 9(12): 993–1004.
Ahmad, A. F.; Sayeed, M. S.; Alshammari, K.; Ahmed, I. 2024. Impact of Missing Values in Machine Learning: A Comprehensive Analysis. Disponível em: https://arxiv. org/abs/2410.08295. Acesso em: 8 jul. 2025.
Asai, A.; Wu, Z.; Wang, Y.; Sil, A.; Hajishirzi, H. 2023. Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection. Disponível em: https://arxiv. org/abs/2310.11511. Acesso em: 12 jul. 2025.
Batini, C.; Scannapieco, M. 2016. Data and Information Quality: Dimensions, Principles and Techniques. Springer, Cham.
Bommasani, R.; Hudson, D. A.; Adeli, E.; et al. 2021. On the Opportunities and Risks of Foundation Models. Disponível em: https://arxiv. org/abs/2108.07258. Acesso em: 22 jul. 2025.
Borgeaud, S.; Mensch, A.; Hoffmann, J.; et al. 2022. Improving Language Models by Retrieving from Trillions of Tokens. In: Proceedings of the 39th International Conference on Machine Learning (ICML 2022). PMLR 162: 2206–2240.
Brown, T. B.; et al. 2020. Language Models are Few-Shot Learners. In: Advances in Neural Information Processing Systems (NeurIPS 2020).
Chowdhery, A.; et al. 2022. PaLM: Scaling Language Modeling with Pathways. Disponível em: https://arxiv. org/abs/2204.02311. Acesso em: 3 ago. 2025.
Christen, P. 2012. Data Matching: Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection. Springer.
Chu, X.; Ilyas, I. F.; Krishnan, S.; Wang, J. 2016. Data Cleaning: Overview and Emerging Challenges (SIGMOD Tutorial). ACM SIGMOD 2016, San Francisco, CA, EUA, p. 2201–2206.
Davenport, T. H. 2006. Competing on Analytics. Harvard Business Review 84(1): 98–107.
Devlin, J.; Chang, M.-W.; Lee, K.; Toutanova, K. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Disponível em: https://arxiv. org/abs/1810.04805. Acesso em: 15 ago. 2025.
Dodge, J.; Sap, M.; Marasović, A.; Agnew, W.; Ilharco, G.; Groeneveld, D.; Mitchell, M.; Gardner, M. 2021. Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus. Disponível em: https://arxiv. org/abs/2104.08758. Acesso em: 29 ago. 2025.
Elmagarmid, A. K.; Ipeirotis, P. G.; Verykios, V. S. 2007. Duplicate Record Detection: A Survey. IEEE Transactions on Knowledge and Data Engineering 19(1): 1–16.
Fan, W.; Geerts, F.; Jia, X. 2014. A survey of data quality problems in practice. ACM SIGMOD Record 43(3): 33-38.
Gao, Y.; Xiong, Y.; Gao, X.; Jia, K.; Pan, J.; Bi, Y.; Dai, Y.; Sun, J.; Wang, M.; Wang, H. 2023. Retrieval-Augmented Generation for Large Language Models: A Survey. Disponível em: https://arxiv. org/abs/2312.10997. Acesso em: 5 set. 2025.
Hellerstein, J. M. 2008. Quantitative Data Cleaning for Large Databases. University of California, Berkeley / UNECE (Relatório Técnico).
Ilyas, I. F.; Chu, X. 2019. Data Cleaning. Morgan & Claypool; ACM, San Rafael, CA, EUA.
Kandel, S.; Paepcke, A.; Hellerstein, J. M.; Heer, J. 2011. Wrangler: Interactive Visual Specification of Data Transformation Scripts. In: Proceedings of CHI 2011: 3363–3372.
Kandel, S.; Rattenbury, T.; Heer, J.; Carreras, C.; Hellerstein, J. M. 2017. Principles of Data Wrangling: Practical Techniques for Data Preparation. O’Reilly Media, Sebastopol, CA.
Lewis, P.; Perez, E.; Piktus, A.; et al. 2020. Retrieval-Augmented Generation for Knowledge-Intensive NLP. In: Advances in Neural Information Processing Systems (NeurIPS 2020).
Liu, P.; Yuan, W.; Fu, J.; Jiang, Z.; Hayashi, H.; Neubig, G. 2023. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in NLP. ACM Computing Surveys 55(9): 195.
Ni, W.; Li, X.; Zhang, Y.; Yu, C.; Ji, W. 2024. IterClean: An Iterative Data Cleaning Framework with Large Language Models. ACM Journal of Data and Information Quality (ahead-of-print).
Ouyang, L.; Wu, J.; Jiang, X.; et al. 2022. Training language models to follow instructions with human feedback. In: Advances in Neural Information Processing Systems (NeurIPS 2022), New Orleans, LA, EUA.
Rahm, E.; Do, H. H. 2000. Data Cleaning: Problems and Current Approaches. IEEE Data Engineering Bulletin 23(4): 3–13.
Rekatsinas, T.; Chu, X.; Ilyas, I. F.; Ré, C. 2017. HoloClean: Holistic Data Repairs with Probabilistic Inference. Proceedings of the VLDB Endowment 10(11): 1190–1201.
Sahoo, S. S.; Nguyen, V.; Chen, P.; Rekatsinas, T.; Park, Y.; Nargesian, F.; Franklin, M. J.; Ilyas, I. F. 2022. A survey on data quality: Classification, assessment, and improvement. Journal of Data and Information Quality 14(4): 1–32.
Tay, Y.; et al. 2022. Transcending Scaling Laws with 0.1% Extra Compute (U-PaLM). Disponível em: https://arxiv. org/abs/2210.11399. Acesso em: 12 set. 2025.
Vaswani, A.; et al. 2017. Attention Is All You Need. In: Advances in Neural Information Processing Systems (NeurIPS 2017).
Wang, R. Y.; Strong, D. M. 1996. Beyond Accuracy: What Data Quality Means to Data Consumers. Journal of Management Information Systems 12(4): 5–33.
Zhang, S.; Li, Y.; Chen, Z.; Xiao, C.; Li, G.; Liu, Z.; Tang, N. 2024. Data Cleaning Using Large Language Models (Cocoon). Disponível em: https://arxiv. org/abs/2410.15547. Acesso em: 18 set. 2025.
Zhao, Z.; Wallace, E.; Feng, S.; Klein, D.; Singh, S. 2021. Calibrate Before Use: Improving Few-shot Performance of Language Models. Proceedings of the 38th International Conference on Machine Learning (ICML 2021), PMLR 139: 12697–12706. Disponível em: https://proceedings. mlr. press/v139/zhao21c. html. Acesso em: 18 set. 2025.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade