Resumo Executivo

Imagem Segurança de Agentes de IA: Guia Prático e Mitigação de Riscos

31 de março de 2026

Segurança de Agentes de IA: Guia Prático e Mitigação de Riscos

Ariel Novoa Comin; Juliano Schimiguel

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Nos últimos anos, a adoção global de agentes de Inteligência Artificial baseados em modelos generativos, conhecidos como Large Language Models ou LLMs, cresce de forma exponencial e redefine a interação entre organizações e usuários finais. O caso mais emblemático dessa transformação é o ChatGPT, desenvolvido pela OpenAI, que atingiu a marca de 100 milhões de usuários mensais em apenas dois meses (Hu; Hu, 2023). Em nível corporativo, as estatísticas indicam que 65 % das organizações já utilizam IA generativa em pelo menos uma função-chave (Singla et al., 2024), enquanto estudos de mercado apontam uma penetração superior a 90 % em aplicativos de mensagens (Vonage, 2024). Esses dados demonstram não apenas a aceitação, mas o potencial de expansão desses agentes, reforçando a relevância das tecnologias tanto no ambiente empresarial quanto na experiência do consumidor. Esta rápida expansão reflete a versatilidade dos chatbots em diversos setores, abrangendo desde o atendimento ao cliente até áreas críticas como finanças e saúde. Dados históricos indicavam que 41 % das organizações utilizavam chatbots para engajar clientes, com 37 % empregando-os no suporte técnico (Yin, 2019). Como as LLMs permitem interações mais naturais, a adoção evolui significativamente, ampliando o engajamento e a eficácia dos serviços automatizados. Instituições financeiras, como seguradoras nos Estados Unidos e no Reino Unido, já implementaram soluções de IA generativa em aproximadamente 59 % dos casos analisados em amostras setoriais (Amir, 2025). Além disso, a popularidade de modelos abertos, como o Llama da Meta, com mais de 350 milhões de downloads, reforça o interesse transformador dessas tecnologias (Al-Dahle, 2024). No contexto brasileiro, o interesse é corroborado por estudos que apontam que 54 % da população já utiliza soluções de IA generativa em atividades profissionais e pessoais (Softex, 2025).

Contudo, apesar dos benefícios expressivos, o crescimento acelerado evidencia uma lacuna crítica relacionada à segurança cibernética. A implantação massiva de LLMs superou o desenvolvimento de protocolos de segurança robustos, trazendo desafios significativos (Steve; Ads, 2024). Além de endpoints de API públicos que podem expor dados sensíveis (Naphtali, 2024), ameaças como ataques por injeção de prompt e adulteração de dados de treinamento ressaltam que as vulnerabilidades desses agentes diferem das falhas tradicionais de software. No cenário bancário nacional, a Federação Brasileira de Bancos destaca os riscos dessas técnicas, alertando para o potencial comprometimento de informações sensíveis e sistemas críticos (Marinho et al., 2025). Paralelamente, a convergência entre IA e tecnologias Web3 impulsiona a criação de frameworks descentralizados que integram agentes em aplicações distribuídas. Ferramentas experimentais demonstram a possibilidade de combinar capacidades de LLMs com funcionalidades on-chain, permitindo a execução de transações inteligentes e a interação com carteiras de criptomoedas (Walters et al., 2025). Projetos como o Virtuals Protocol possibilitam a tokenização de agentes interativos, transformando-os em ativos digitais geridos via contratos inteligentes (Ballew, 2024). Essa interseção amplia as aplicações, mas impõe novos desafios em termos de governança e ética. Diante desse cenário, a carência de um guia consolidado e prático justifica a investigação das melhores práticas para a implementação segura de agentes generativos, focando especialmente no uso de APIs e técnicas de Retrieval-Augmented Generation para atendimento direto ao usuário.

A metodologia adotada para a elaboração deste estudo baseia-se em um estudo de caso único aplicado, de natureza exploratória e descritiva, utilizando um método misto que combina análise qualitativa e estatística descritiva. O estudo foi conduzido em uma empresa situada em Mountain View, Califórnia, especializada no desenvolvimento de protocolos de finanças descentralizadas que permitem a integração de aplicações blockchain a tokens digitais. A organização conta com aproximadamente 30 funcionários e atua no segmento de tecnologias Web3. O projeto visou implementar e validar um chatbot assistente baseado em modelos generativos acessados via API para auxiliar parceiros estratégicos, como desenvolvedores de jogos e exchanges centralizadas, no processo de integração ao protocolo. A pesquisa caracterizou-se pela revisão sistemática em bases acadêmicas como IEEE Xplore, Springer e arXiv, além da análise de referências técnicas de organizações como OWASP, NIST e CISA para mapear e classificar ataques contra agentes generativos (Gil, 2002). O levantamento de dados secundários focou em relatórios técnicos recentes sobre injeção de prompt, envenenamento de dados e alucinações em cascata.

Para a avaliação dos ataques identificados, utilizou-se uma matriz adaptada das metodologias recomendadas pelo National Institute of Standards and Technology, que sugere o mapeamento da superfície de ataque para avaliar vulnerabilidades específicas (Souppaya et al., 2024). Complementarmente, aplicou-se a metodologia de modelagem de ameaças MAESTRO, uma extensão do Open Worldwide Application Security Project adaptada para agentes baseados em IA generativa (Open Worldwide Application Security Project, 2025). O ambiente de testes controlado, denominado Crash Pay, foi desenvolvido para replicar a topologia de um banco digital contemporâneo por meio de 11 microsserviços intencionalmente vulneráveis, incluindo API Gateway, LLM Service, RAG Service e Tools Service. A arquitetura foi desenhada para refletir os dez riscos do OWASP Top 10 para aplicações LLM, permitindo mensurar custo, latência e eficácia das contramedidas. O projeto inspirou-se no conceito do OWASP Juice Shop, estendendo a ideia ao domínio dos grandes modelos de linguagem e incorporando vetores como agência excessiva. No fluxo de geração aumentada por recuperação, substituiu-se o repositório local por um GitBook versionado e atualizado por webhooks, introduzindo deliberadamente riscos de vulnerabilidades na cadeia de suprimentos, onde commits maliciosos podem contaminar o corpus de recuperação.

A metodologia MAESTRO, que abrange Memória, Autonomia, Execução, Superfície de Segurança, Confiança/Identidade, Recursos e Orquestração, foi fundamental para complementar modelos clássicos de modelagem de ameaças. O diferencial desta abordagem reside na capacidade de tratar riscos específicos de agentes de IA, como o envenenamento da memória contextual ou a manipulação de objetivos, que não são plenamente contemplados por modelos tradicionais. No âmbito normativo, as diretrizes do NIST SP 800-218A recomendam que projetos identifiquem, quantifiquem e tratem riscos ao longo de todo o ciclo de vida do software. O modelo MAESTRO aporta granularidade a essas etapas ao classificar memória e autonomia como categorias independentes de risco e introduzir recursos e orquestração como domínios de governança operacional contínua. Desse modo, oferece a profundidade analítica exigida pelas diretrizes normativas, mantendo o foco na natureza agentiva dos modelos de linguagem e constituindo uma ponte metodológica sólida entre a segurança de software tradicional e os desafios emergentes da IA generativa.

Para a execução dos ensaios, realizou-se uma análise documental entre maio e junho de 2025, abrangendo 44 modelos largamente utilizados na indústria, provenientes de provedores como OpenAI, Anthropic, Google, Cohere, Mistral e Fireworks. Para cada modelo, registraram-se indicadores como amplitude de custo, suporte a chamadas de função e janela de contexto. A amplitude de custo observada variou entre US$ 0,11 e US$ 90,00 por um milhão de tokens, exemplificada pelos modelos Gemini-Flash 8B e Claude-Opus 4, respectivamente. O suporte a chamadas de função foi identificado em 86 % dos modelos avaliados, enquanto as janelas de contexto atingiram até dois milhões de tokens. A distribuição de custos mostrou-se fortemente assimétrica, com 45 % dos modelos custando até US$ 1,50 por milhão de tokens e 30 % ultrapassando a marca de US$ 10,00. Essa assimetria sugere um mercado em processo de comoditização com poucos exemplares de categoria premium. Os testes quantitativos concentraram-se em modelos de baixo custo e em representantes da faixa superior para avaliar se o maior investimento se traduz em ganho efetivo de segurança.

A bancada de testes Crash Pay Bank utilizou uma interface acessível ao usuário onde mensagens eram enviadas ao modelo LLM com um prompt de sistema padronizado. O assistente foi configurado para auxiliar clientes com serviços bancários e orientações financeiras, utilizando funções apropriadas para consultas de saldo e transferências. Para o controle da plataforma, designou-se um sistema de controle de acesso baseado em atributos com usuários de diferentes níveis: usuário, premium e administrador. O adversário simulado nos testes pertencia ao nível mais baixo, sem acesso a transferências, mas com permissão para consultas via RAG. O sistema verificava duplamente se a função poderia ser executada, baseando-se no princípio de Zero Trust. A bateria de testes incluiu prompts legítimos para estabelecer uma base de comparação de tokens, latência e custo, seguida por ataques de injeção de prompt direta e indireta, negação de serviço do modelo e exploração de chamadas de função. Os indicadores-chave de desempenho definidos foram a Taxa de Sucesso de Ataque, que mede a proporção de tentativas que resultam em violação efetiva, e o Custo Efetivo por Transação Segura, que quantifica o valor gasto para cada chamada bem-sucedida e protegida.

Os resultados dos testes realizados nas camadas de injeção de prompt indicaram que a sequência de ataques executada sob a perspectiva de um agente adversário obteve diferentes níveis de sucesso dependendo do modelo. A bateria de testes foi ampliada para atingir as camadas de manipulação de saída, onde cadeias de scripts ofuscados na resposta do modelo poderiam executar comandos no frontend. Na camada de cadeia de suprimentos, documentos envenenados no GitBook foram utilizados para injeção indireta. Os canários de informações pessoalmente identificáveis foram empregados para verificar vazamentos de dados sensíveis. A análise estatística revelou que, em média, os modelos mais caros exibem uma Taxa de Sucesso de Ataque menor em comparação aos modelos mais acessíveis. O teste de hipótese Mann-Whitney U resultou em um valor de p igual a 0,023, permitindo rejeitar a hipótese nula com 5 % de significância e confirmando que a diferença de resiliência entre as faixas de preço é estatisticamente relevante. Modelos com cadeias de raciocínio mais recentes mostraram-se mais resistentes devido aos múltiplos loops de revisão interna, que permitem ao modelo depurar ou negar comandos ofuscados.

O destaque em termos de resiliência foi observado nos modelos Claude Opus 4 e Sonnet 4, que demonstraram capacidade de resistir a ataques complexos de ofuscação e múltiplos passos. Entretanto, a dispersão dos dados indica que o preço isolado não é um preditor absoluto de segurança, exigindo uma avaliação criteriosa de cada provedor. As mitigações essenciais identificadas para a camada de injeção de prompt incluem o endurecimento do prompt de sistema, a implementação de listas de permissões para ferramentas com confirmação fora de banda e o uso de filtros de conteúdo. Para a manipulação de saída, a sanitização rigorosa de entradas e saídas no frontend é indispensável para evitar a renderização de elementos HTML maliciosos. Na gestão da cadeia de suprimentos, recomenda-se a assinatura e curadoria do corpus utilizado no RAG, além da marcação robusta de papéis. Para evitar a divulgação de informações sensíveis, técnicas de redação e prevenção de perda de dados pós-geração devem ser aplicadas antes da exibição da resposta ao usuário.

Na camada de negação de serviço do modelo, os testes focaram no consumo anômalo de recursos por expansão de janela de contexto e recursão de ferramentas. Observou-se que injeções de prompt que induzem loops de ferramentas geram explosões de tokens e latência, elevando drasticamente os custos. Quase todos os modelos testados possuem guardrails internos para evitar abusos de contexto extenso autogerado, mas ataques ofuscados ainda podem causar instabilidade. Em 21 dos ataques bem-sucedidos, a API do serviço LLM registrou erros e esgotamento de tempo. Ataques de rajadas de texto no endpoint de chat demonstraram a necessidade de controles de taxa no gateway. A latência média em casos de carga excessiva no frontend atingiu 42954 ms em modelos específicos, evidenciando a vulnerabilidade a ataques de negação de serviço quando não há limites estritos de tokens por sessão e disjuntores lógicos para chamadas de função. As mitigações propostas incluem a definição de limites máximos de tokens, orçamentos por sessão e a implementação de circuit-breakers para interromper loops infinitos de ferramentas.

A análise da camada de desenho inseguro de plug-ins revelou um nível crítico de risco quando as permissões de chamadas de função não são devidamente restritas. Todos os modelos testados executaram payloads enviados sem questionamento ao receberem um formato JSON preenchido com argumentos necessários, desde que o agente tivesse conhecimento dos elementos esperados. Isso demonstra que a segurança depende da validação rígida de entrada e saída e da aplicação de políticas de privilégio mínimo. A integração do guia prático no cenário real da organização permitiu validar as recomendações. Selecionou-se o modelo Anthropic Sonnet pelo equilíbrio entre custo e segurança para o domínio de finanças descentralizadas. A superfície de ataque foi mitigada pelo desacoplamento entre o agente de interface e subagentes com credenciais distintas e acesso just-in-time. A curadoria do GitBook e a implementação de dashboards para monitoramento de latência e consumo de tokens garantiram a observabilidade necessária para a operação segura em produção.

A discussão dos resultados aponta que, embora exista uma tendência de que modelos mais caros ofereçam maior segurança, essa correlação é moderada por exceções notáveis onde políticas de treinamento e ajuste fino compensam o menor custo. Controles simples e bem posicionados, como a redução do escopo de ferramentas e checagens explícitas antes de ações sensíveis, reduzem significativamente a proporção de ataques bem-sucedidos sem onerar desproporcionalmente o custo operacional. O uso de indicadores como a Taxa de Sucesso de Ataque e o Custo Efetivo por Transação Segura fornece uma base quantitativa para decisões de engenharia de software, permitindo equilibrar a eficiência financeira com a resiliência cibernética. A aplicação da metodologia MAESTRO provou ser eficaz para identificar superfícies de exposição que passariam despercebidas em análises tradicionais, especialmente no que tange à autonomia dos agentes e à integridade da memória contextual.

As limitações do estudo incluem o foco em um ambiente de laboratório que, embora rigoroso, pode não reproduzir integralmente a heterogeneidade do tráfego de rede em escala global ou políticas dinâmicas de provedores de nuvem. Pesquisas futuras devem expandir a bancada de testes para outros frameworks de orquestração e integrar técnicas avançadas de engenharia de contexto, como memória hierárquica em cenários multiagente. A automação da avaliação contínua por meio de equipes vermelhas sintéticas e o uso de técnicas de fuzzing em ferramentas acopladas aos LLMs representam caminhos promissores para fortalecer a postura de segurança. A evolução constante das capacidades dos modelos exige que as diretrizes de segurança sejam atualizadas com frequência, incorporando novos vetores de ataque e contramedidas emergentes.

Conclui-se que o objetivo foi atingido ao propor e validar um guia prático que endereça as principais vulnerabilidades de agentes de inteligência artificial em ambientes corporativos. A investigação demonstrou que a implementação segura de chatbots com geração aumentada por recuperação exige uma abordagem multicamada, integrando controles técnicos de infraestrutura com diretrizes rigorosas de governança de dados e modelos. A utilização do ambiente Crash Pay permitiu evidenciar que a Taxa de Sucesso de Ataque é sensivelmente reduzida quando se aplicam as mitigações propostas, como o endurecimento de prompts de sistema e a validação de chamadas de função sob o princípio de Zero Trust. O equilíbrio entre o custo efetivo por transação e a robustez do sistema mostrou-se viável, oferecendo um roteiro pragmático para organizações que buscam inovar com agentes de inteligência artificial sem comprometer a integridade de suas operações e a privacidade de seus usuários.

Referências Bibliográficas:

AL-DAHLE, A. 2024. With 10x growth since 2023, Llama is the leading engine of AI innovation. Meta AI. Disponível em: <https://ai.meta.com/blog/llama-usage-doubled-may-through-july-2024/>. Acesso em: 15 mar. 2025.

AMIR, R. 2025. Generative AI in Insurance: Trends, benefits and challenges. Disponível em: <https://resources.sprout.ai/generative-ai-in-insurance-trends-benefits-and-challenges>. Acesso em: 15 mar. 2025.

BALLEW, B. 2024. Virtuals Protocol and the AI Agent Economy: A Perfect Synergy for Investors. Oregon Blockchain Group. Disponível em: <https://medium.com/oregon-blockchain-group/virtuals-protocol-and-the-ai-agent-economy-a-perfect-synergy-for-investors-05410f6b7829>. Acesso em: 8 mar. 2025.

GIL, A. C. 2002. Como Elaborar Projetos De Pesquisa. 4. ed. Atlas, São Paulo, Brasil.

HU, K.; HU, K. 2023. ChatGPT sets record for fastest-growing user base – analyst note. Reuters. Disponível em: <https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-2023-02-01/>. Acesso em: 15 mar. 2025.

MARINHO, R. et al. 2025. Os Riscos de Segurança da IA Generativa-compactado. Disponível em: <https://cmsarquivos.febraban.org.br/Arquivos/documentos/PDF/Report%20Febraban%20-%20Os%20Riscos%20de%20Seguran%C3%A7a%20da%20IA%20Generativa-compactado.pdf>. Acesso em: 23 mar. 2025.

NAPHTALI, D. 2024. The Risks Lurking in Publicly Exposed GenAI Development Services. Disponível em: <https://www.legitsecurity.com/blog/the-risks-lurking-in-publicly-exposed-genai-development-services>. Acesso em: 8 mar. 2025.

OPEN WORLDWIDE APPLICATION SECURITY PROJECT [OWASP]. 2025. Agentic AI – Threats and Mitigations. Disponível em: <https://genai.owasp.org/resource/agentic-ai-threats-and-mitigations/>. Acesso em: 18 jan. 2025.

SINGLA, A. et al. 2024. The state of AI in early 2024 | McKinsey. Disponível em: <https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-2024>. Acesso em: 4 mar. 2025.

SOFTEX. 2025. Estudo revela que brasileiros estão acima da média global na adoção da IA. Disponível em: <https://softex.br/estudo-revela-que-brasileiros-estao-acima-da-media-global-na-adocao-da-ia/>. Acesso em: 22 mar. 2025.

SOUPPAYA, M. et al. 2024. Secure software development practices for generative AI and dual-use foundation models: an SSDF community profile, n. NIST SP 800-218A. Disponível em: <https://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.800-218A.pdf>. Acesso em: 9 fev. 2025.

STEVE, W.; ADS, D. 2024. LLM Top 10 for LLMs 2024 – OWASP Top 10 for LLM & Generative AI Security. Disponível em: <https://genai.owasp.org/resource/llm-top-10-for-llms-v1-1/>. Acesso em: 11 fev. 2025.

VONAGE. 2024. Global Customer Engagement Report. Disponível em: <https://www.vonage.com/content/dam/vonage/us-en/whitepapers_ebooks/GCER.pdf.coredownload.pdf>. Acesso em: 15 mar. 2025.

WALTERS, S. et al. 2025. Eliza: A Web3 friendly AI Agent Operating System.(arXiv:2501.06781) Disponível em: <http://arxiv.org/abs/2501.06781>. Acesso em: 25 jan. 2025.

YIN, S. 2019. Where chatbots are headed. The Intercom Blog. Disponível em: <https://www.intercom.com/blog/the-state-of-chatbots/>. Acesso em: 15 mar. 2025.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de MBA em Engenharia de Software

Saiba mais sobre o curso, clique aqui

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade