
20 de fevereiro de 2026
Acuracidade e repetibilidade de agentes de IA em processos de manufatura
Márcio Lutz; Dayane Freire Romagnolo
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este trabalho analisa a acuracidade e repetibilidade de agentes de passos sequenciais em um processo de manufatura, mensurado pela taxa de acerto de decisões para diferentes níveis de instruções e contexto. A pesquisa busca fornecer recomendações para decisões estratégicas e o desenvolvimento de sistemas de automação, auxiliando gestores na aplicação de inteligência artificial, sobretudo com Modelos de Linguagem de Grande Escala (LLMs). A investigação foca em um caso de uso prático: a implementação de alterações de engenharia, processo que exige a coordenação de múltiplos fatores, da cadeia de suprimentos às operações internas.
A ascensão dos sistemas agênticos na automação remonta a décadas de pesquisa, com discussões proeminentes desde os anos 1990, como a proposta de Franklin e Graesser (1996) para formalizar o conceito de agentes autônomos. Eles definiram características como autonomia, adaptabilidade e orientação a objetivos, que permanecem como pilares no desenvolvimento de sistemas inteligentes. Recentemente, os avanços em LLMs catalisaram uma nova era, permitindo que atuem como controladores centrais de sistemas complexos. Conforme Guo et al. (2024), os LLMs introduzem capacidades análogas ao conhecimento humano, como memória, planejamento e a capacidade de interagir com humanos via linguagem natural, simplificando a interface e ampliando o potencial de aplicação.
Apesar do sucesso dos LLMs em tarefas conversacionais, a transição para agentes autônomos que executam ações no mundo real exige a integração de módulos adicionais. Wang et al. (2024) destacam que a principal limitação dos LLMs é sua incapacidade de interagir diretamente com sistemas externos. Para superar essa barreira, agentes são equipados com ferramentas, acessadas via APIs, que lhes permitem executar tarefas como consultar bancos de dados ou interagir com sistemas de gestão empresarial (ERP). Essa capacidade de ação abre oportunidades em diversos setores, com um impacto transformador projetado para a manufatura. Relatórios como o da Precedence Research (Zoting, 2024) estimam que o mercado de IA na manufatura crescerá de aproximadamente 6 bilhões de dólares em 2024 para 230 bilhões até 2034, uma taxa de crescimento anual composta de 45%.
Contudo, a materialização desse potencial enfrenta barreiras. Uma pesquisa do Boston Consulting Group (BCG Global AI Survey, 2023) revelou que 98% das empresas enfrentam desafios para implementar IA de forma eficaz. As principais barreiras são a falta de habilidades técnicas, a ausência de uma estratégia clara e a dificuldade em construir um plano de negócio viável. Nesse cenário, é imperativo que gestores invistam no desenvolvimento de competências internas, compreendendo as limitações tecnológicas e identificando casos de uso com alto retorno. Um campo de conhecimento crítico é a engenharia de “prompts”, que, segundo Bastubbe et al. (2025), envolve a elaboração metódica de conhecimento, contexto e instruções para garantir uma adoção eficaz da IA.
Para este estudo exploratório, foi desenvolvido um sistema agêntico para simular a tomada de decisão na implementação de alterações de engenharia. O agente foi construído com a biblioteca LangGraph e o modelo ChatGPT 4o da OpenAI como motor de raciocínio. A escolha de uma única tecnologia visou isolar as variáveis de interesse — nível de instrução e contexto — e não comparar diferentes IAs. O agente foi projetado para executar quatro macroatividades predefinidas, representando as etapas críticas do processo de decisão em manufatura, considerando fatores internos e externos da cadeia de suprimentos.
As quatro macroatividades sequenciais são: 1) Identificação das alterações de componentes; o agente analisa cada Alteração de Engenharia (AEC) para determinar materiais afetados, tipo de alteração (novo, adição, revisão, remoção, cancelamento) e disposição do estoque (descarte, usar até o fim); 2) Coleta de dados de suprimentos, na qual o agente consulta uma base de dados simulada para obter informações logísticas como tempo de segurança (lead time) e dias de cobertura de estoque; 3) Checagem de pré-requisitos internos, verificando a liberação por departamentos como Qualidade e Compras; e 4) Otimização e tomada de decisão, fase final onde o agente sintetiza as informações para decidir sobre a implementação e calcular a data de efetivação.
A base de dados foi simulada para refletir a estrutura de um sistema ERP como o SAP. Foram geradas 100 AECs distintas, cada uma com materiais e parâmetros aleatórios para garantir variedade de cenários. O experimento foi estruturado em três rodadas; o agente processou o mesmo conjunto de 100 AECs, mas com um nível incremental de detalhe nas instruções e contexto. Os níveis foram classificados como ‘baixo’ (objetivo geral), ‘médio’ (objetivo e instruções detalhadas) e ‘alto’ (objetivo, instruções e três exemplos completos). Para avaliar a consistência, cada AEC foi processada três vezes por nível de instrução, totalizando 900 execuções.
A avaliação de desempenho utilizou duas métricas: acuracidade e repetibilidade. A acuracidade, conforme práticas de avaliação de algoritmos (Optiz, 2024), foi calculada como a razão entre as decisões corretas e o total de decisões, comparando os resultados com um gabarito de referência. A repetibilidade foi avaliada pela capacidade do agente de produzir o mesmo resultado em execuções independentes sob as mesmas condições, alinhado à norma ISO 5725-2:2019. A análise dos desvios entre os resultados do agente e os valores de referência, por meio de histogramas, permitiu a identificação de tendências de erro, fornecendo uma visão aprofundada sobre as limitações do sistema.
A análise dos dados das 100 AECs revelou cenários de complexidade variável, com 529 materiais distintos e uma média de 5,3 materiais por AEC. A distribuição homogênea de materiais por AEC minimizou o viés de complexidade. No entanto, a diversidade nos tipos de alteração, com predominância de materiais ‘novos’ e ‘cancelados’ e a presença de categorias semanticamente próximas como ‘remoção’ e ‘cancelamento’, aumentaram o desafio. A complexidade foi acentuada pela simulação de uma cadeia de suprimentos realista, com tempos de entrega de 1 a 180 dias e coberturas de estoque de 15 a 360 dias. A necessidade de o agente conciliar múltiplos materiais com restrições de tempo distintas dentro de uma mesma AEC elevou a dificuldade da otimização. Adicionalmente, a inclusão de variáveis internas, como as liberações de Qualidade e Compras, que seguiam distribuições de probabilidade, garantiu que o agente fosse testado em cenários representativos dos desafios operacionais reais.
O agente foi arquitetado em LangGraph como um grafo de cinco nós sequenciais, conforme as práticas sugeridas por Ruan et al. (2023). Cada nó (AEC, BOM, Supply, Readiness, EFD) tinha acesso a ferramentas específicas para interagir com as bases de dados. Por exemplo, o nó ‘Supply’ usava a ‘supply_tool’ para obter dados de suprimentos, enquanto o nó final ‘EFD’ (Effective Date) usava ferramentas para obter a data atual e calcular dias úteis. Essa arquitetura modular permitiu que o agente focasse em uma subtarefa de cada vez, processando a informação de forma incremental, uma abordagem que teoricamente melhora a robustez do raciocínio, como sugerido por Wang et al. (2024). O fluxo de trabalho era determinístico na sequência dos nós, mas a decisão de usar uma ferramenta ou avançar era deixada a cargo do LLM.
Apesar do aumento na acuracidade, a repetibilidade do sistema permaneceu um desafio. A repetibilidade média foi de 53,8%, significando que em 46,2% das vezes, o agente produziu resultados diferentes para a mesma AEC sob as mesmas condições. Mesmo no cenário de instrução de nível ‘alto’, a consistência só foi alcançada em 65% dos casos. Este resultado evidencia a natureza probabilística dos LLMs, projetados para prever a próxima palavra mais provável, não para seguir uma lógica determinística. Essa variabilidade é inaceitável para muitos processos críticos de manufatura. Para mitigar esse risco, estratégias como fluxos de trabalho paralelos podem ser adotadas. Conforme sugerido pela documentação da LangChain (2024), uma mesma tarefa pode ser executada múltiplas vezes, e um resultado congruente entre as execuções aumenta a confiança na resposta.
A análise qualitativa das respostas revelou outras falhas de raciocínio. Em diversas ocasiões, o agente identificava corretamente as restrições (ex: um longo tempo de entrega), mas tomava uma decisão que contradizia sua própria análise. Outros erros incluíram o “esquecimento” de usar a data atual como referência, a falha em considerar restrições de aprovação e a consideração de materiais irrelevantes. Esses erros, embora esporádicos, poderiam levar a consequências graves em um ambiente real, como paradas de linha ou a implementação prematura de alterações. Tais falhas reforçam as conclusões da pesquisa do BCG Global AI Survey (2023) sobre a dificuldade das empresas em construir sistemas de IA robustos.
Do ponto de vista da gestão, os resultados indicam que a autonomia total para agentes em processos críticos de manufatura não é recomendada no estágio atual da tecnologia. Seguindo os níveis de maturidade de Bastubbe et al. (2025), o agente se enquadraria no nível de “recomendação” em vez de “automação”. Nessa configuração, o agente atua como um assistente, automatizando a coleta de dados e propondo uma decisão, mas a validação final permanece com um especialista humano. A inserção de um ponto de verificação humana no fluxo funciona como uma salvaguarda, aumentando a segurança e a confiança na tecnologia. Além disso, técnicas de reflexão, como o padrão ‘ReAct’ (LangChain, 2024); um segundo passo do agente revisa o trabalho do primeiro, poderiam ser exploradas para aumentar a resiliência do sistema.
A sensibilidade dos LLMs às instruções e a necessidade de resiliência, acuracidade e consistência são os principais desafios para a aplicação autônoma em manufatura. O investimento em sistemas agênticos deve ser cauteloso, com um design que mitigue o fator probabilístico inerente aos modelos. Isso implica em mecanismos de intervenção humana e em uma engenharia de instruções sofisticada, que minimize a verbosidade e maximize a clareza. A segmentação de tarefas complexas em múltiplos passos, como a arquitetura adotada, prova ser uma estratégia eficaz para reduzir a carga cognitiva do modelo e aumentar a acuracidade, alinhando-se com as descobertas de Ruan et al. (2023).
Este trabalho analisou a performance de um agente de IA em um processo de manufatura, revelando que, embora a tecnologia seja promissora, sua implementação requer uma abordagem estratégica. A acuracidade média de 68,3% e a repetibilidade média de 53,8% são insuficientes para uma automação completa e sem supervisão. Os resultados destacam a importância do conhecimento de negócio para a criação de instruções eficazes e a necessidade de projetar sistemas agênticos robustos, que incorporem mecanismos de verificação, como a intervenção humana, para garantir a confiabilidade. A experimentação contínua com diferentes modelos, arquiteturas e técnicas de engenharia de prompt será essencial para avançar na maturidade dessas soluções.
Para futuras pesquisas, recomenda-se a expansão do estudo para incluir a comparação entre diferentes LLMs e a avaliação de fluxos de trabalho paralelos como meio de reduzir a variabilidade. A análise da acuracidade e repetibilidade também pode ser estendida a outros processos de manufatura ou setores de negócio para generalizar os achados. Conclui-se que o objetivo foi atingido: demonstrou-se que a acuracidade e a repetibilidade de agentes de IA em processos de manufatura são diretamente influenciadas pelo nível de detalhamento das instruções e que, apesar do potencial, desafios significativos de consistência e confiabilidade precisam ser superados para viabilizar sua aplicação autônoma em ambientes críticos.
Referências:
Bastubbe, Y.; Jain, D.; Torti, F. 2025. Frontier Technologies in Industrial Operations: The Rise of Artificial Intelligence Agents. White paper January 2025. World Economic Forum.
Boston Consulting Group [BCG]. 2023. BCG Global AI Survey. Disponível em: <https://www. bcg. com/about/partner-ecosystem/world-economic-forum/ai-project-survey>. Acesso em 15 mar. 2025.
Chase, H. 2024. What is a “cognitive architecture”?. Disponível em <https://blog. langchain. dev/what-is-a-cognitive-architecture/>. Acesso em 15 mar. 2025.
Franklin, S.; Graesser, A. 1996. Is it an Agent, or just a Program?: A Taxonomy for Autonomous Agents. In: Third International Workshop on Agent Theories, Architectures, and Languages, 1996, Budapest, Hungary. Anais… p. 21-35.
Guo, T.; Chen, X.; Wang, Y.; Chang, R.; Pei, S.; Chawla, N. V.; Wiest, O.; Zhang, X. 2024. Large Language Model based Multi-Agents: A Survey of Progress and Challenges.
International Organization for Standardization. (2019). ISO 5725-2:2019 – Accuracy (trueness and precision) of measurement methods and results – Part 2: Basic method for the determination of repeatability and reproducibility of a standard measurement method. Geneva, Switzerland
LangChain. 2024. Agent architectures. Disponível em < https://langchain-ai. github. io/langgraph/concepts/agentic_concepts/ >. Acesso em 15 mar. 2025.
LangChain, 2024. Introduction to LangGraph. Disponível em <https://academy. langchain. com/courses/intro-to-langgraph>. Acesso em 7, junho, 2025.
Levy, M,; Jacoby, A.; Goldberg, Y. 2024. Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models.
Opitz, J. 2024. A Closer Look at Classification Evaluation Metrics and a Critical Reflection of Common Evaluation Practice. Transactions of the Association for Computational Linguistics
Ruan, J.; Chen, Y.; Zhang, B.; Xu, Z.; Bao, T.; Du, G.; Shi, S.; Mao, H.; Li, Z.; Zeng, X.; Zhao, R. 2024. TPTU: Large Language Model-based AI Agents for Task Planning and Tool Usage.
Wang, L.; Feng, X. 2024. A survey on large language model based autonomous agents. Frontiers of Computer Science, vol. 18.
Zoting, S. 2024. Precedence Research: Artificial Intelligence (AI) in Manufacturing Market Size, Share, and Trends 2024 to 2034. Disponível em <https://www. precedenceresearch. com/artificial-intelligence-in-manufacturing-market>. Acesso em 15 mar. 2025.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Digital Business do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































