15 de abril de 2026
Monitoramento de Desempenho de APIs via Observabilidade
Daniele de Freitas Romes; Emerson Aparecido Mouco Junior
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A evolução das arquiteturas de software tem sido impulsionada por novas abordagens e necessidades constantes de escalabilidade, o que exige uma compreensão profunda sobre como os sistemas se comportam sob diferentes condições de carga e estresse (Schmidt, 2023). Nesse cenário de transformação digital, o aumento da complexidade dos sistemas distribuídos torna essencial a adoção de práticas de observabilidade para garantir a estabilidade e a eficiência das aplicações modernas. Entre os principais desafios enfrentados por desenvolvedores e engenheiros de software, destaca-se o monitoramento de desempenho das interfaces de programação de aplicações, as chamadas APIs, considerando fatores críticos como latência, taxa de erro e o volume de processamento de requisições em um determinado período, também conhecido como throughput (Csallner, 2013). Um monitoramento eficaz permite identificar e corrigir problemas rapidamente, prevenindo impactos negativos na experiência do usuário e na operação contínua dos sistemas. Historicamente, o monitoramento em engenharia de software esteve associado a métricas tradicionais, como consumo de unidade central de processamento, memória e disponibilidade básica dos servidores. Entretanto, tais indicadores se mostraram insuficientes diante da crescente complexidade dos sistemas modernos, que exigem uma visão mais granular e contextualizada.
A evolução para a observabilidade, que integra métricas, registros de eventos e rastreamentos distribuídos, representa um marco importante na busca por maior transparência e compreensão do comportamento interno das aplicações. Essa mudança não apenas amplia a capacidade de diagnóstico, mas também contribui para decisões estratégicas relacionadas à confiabilidade e escalabilidade de longo prazo. Ferramentas de observabilidade desempenham papel fundamental ao fornecer visões detalhadas sobre a execução de requisições, tempos de resposta e comportamento das APIs em tempo real. Plataformas modernas possibilitam o rastreamento de chamadas por meio do monitoramento de desempenho de aplicações, a análise de dependências entre serviços com rastreamento distribuído e a correlação de métricas com registros a partir da integração de motores de busca e interfaces de visualização. Esse conjunto de recursos facilita a identificação de gargalos e promove a melhoria contínua dos sistemas, garantindo que a infraestrutura suporte o crescimento da demanda. Estudos anteriores reforçam a importância do monitoramento de APIs para garantir alta disponibilidade e eficiência, destacando o valor dos registros como fonte de dados primária para diagnosticar problemas de desempenho (Nicchi et al., 2020).
A relevância prática da observabilidade se evidencia no impacto que falhas de desempenho podem gerar em ambientes reais, onde milissegundos de atraso em uma requisição podem reduzir significativamente as taxas de conversão e a satisfação do cliente. Evidências indicam que um atraso de apenas 100 ms no carregamento de uma página pode diminuir em até 7% as taxas de conversão em plataformas de comércio eletrônico (Akamai, 2017). Em sistemas financeiros, indisponibilidades momentâneas comprometem a confiança do usuário e podem gerar prejuízos econômicos vultosos. Da mesma forma, em serviços públicos, como plataformas de saúde, a escalabilidade e o monitoramento adequado são fundamentais para assegurar o acesso da população em períodos de alta demanda. A indisponibilidade de serviços digitais governamentais pode comprometer direitos fundamentais do cidadão e prejudicar a confiança da sociedade na administração pública (Brasil, 2020). Esses exemplos ilustram como a adoção de observabilidade em APIs não é apenas uma questão técnica, mas também estratégica para organizações de diferentes segmentos que buscam resiliência operacional. A qualidade de um software está diretamente ligada à sua capacidade de manter desempenho e disponibilidade, mesmo sob condições de carga elevada e falhas imprevistas (Bass et al., 2021).
A metodologia adotada para a investigação do monitoramento de desempenho em APIs seguiu uma abordagem mista, combinando uma revisão rigorosa de literatura com testes exploratórios realizados em um ambiente controlado. A revisão de literatura foi conduzida em bases de dados renomadas, incluindo repositórios de artigos científicos, conferências e normas na área de tecnologia e engenharia, além de bibliotecas digitais focadas em computação. Os critérios de seleção privilegiaram artigos revisados por pares, publicados nos últimos cinco anos, com relevância temática e aplicabilidade prática dos conceitos de observabilidade e monitoramento. Essa fundamentação teórica permitiu a análise de métricas de desempenho, diagnósticos de falhas, registros estruturados e rastreamento distribuído, evidenciando as lacunas existentes no monitoramento tradicional de sistemas (Csallner & Nivas, 2013). A literatura consultada forneceu o suporte necessário para a escolha das ferramentas e técnicas utilizadas, garantindo alinhamento com as práticas atuais da engenharia de software (Nicchi et al., 2020).
Para a fase de experimentação prática, a infraestrutura foi construída utilizando a tecnologia de isolamento por containers, garantindo portabilidade e replicabilidade dos testes. O ambiente experimental foi orquestrado para incluir uma API desenvolvida em Node.js, um motor de busca e armazenamento de dados, uma interface de visualização e um servidor dedicado ao monitoramento de desempenho de aplicações. A configuração contemplou a definição de portas de comunicação, métodos de autenticação, integração entre os serviços e volumes de dados para teste. A API principal foi instrumentada com um agente específico para a geração de métricas de desempenho, latência e captura de exceções de forma automática. O container da aplicação foi configurado para expor a porta 3000 e incluir rotas simuladas que representassem diferentes estados operacionais: um fluxo normal de operação, um cenário de lentidão induzida e falhas propositais com códigos de estado de erro interno e recurso não encontrado.
O processo operacional de coleta de dados envolveu a simulação de volumes variados de requisições por segundo, refletindo cenários de carga realistas. Para o fluxo normal, utilizou-se uma ferramenta de teste de carga capaz de gerar múltiplas conexões paralelas durante uma execução contínua, totalizando centenas de requisições por segundo. O objetivo era validar a linha de base de desempenho e a correta ingestão de dados pelo sistema de monitoramento. No cenário de erro interno, foi programado o lançamento proposital de uma exceção para simular uma falha crítica no servidor, permitindo observar a captura do rastreamento da pilha de execução e a contagem de exceções. Para a simulação de lentidão, configurou-se uma requisição que aguardava 3000 ms antes de responder, mimetizando uma operação custosa de banco de dados ou integração externa. Por fim, o cenário de recurso não encontrado validou o comportamento do sistema diante de acessos a endpoints inexistentes, monitorando a taxa de requisições inválidas.
A análise de desempenho em sistemas distribuídos exige a mensuração precisa de indicadores fundamentais para caracterizar gargalos e validar a confiabilidade de aplicações críticas (Jain, 1991). Durante a execução dos cenários, os dados foram enviados de forma assíncrona para o servidor de monitoramento, garantindo que o processo de coleta não bloqueasse a execução da API principal. O status de recebimento bem-sucedido confirmou a eficácia da comunicação entre os componentes da infraestrutura. A utilização de containers isolados permitiu ajustar rapidamente variáveis de ambiente, permissões e configurações de rede, facilitando a repetição dos experimentos com consistência. A infraestrutura foi projetada para demonstrar a observabilidade em tempo real, permitindo a correlação direta entre métricas de performance e registros estruturados, o que é essencial para antecipar falhas em sistemas complexos.
Os resultados obtidos no cenário de fluxo normal revelaram um desempenho robusto da aplicação, com um tempo médio de resposta de aproximadamente 6,65 ms. Sob uma carga de 1397,5 requisições por segundo, o sistema manteve a estabilidade sem apresentar erros, confirmando que a instrumentação do monitoramento estava operando corretamente e que a infraestrutura suportava alta concorrência. Todas as transações foram registradas como bem-sucedidas na interface de visualização, validando a linha de base saudável para comparações subsequentes. Esse desempenho inicial é crucial para estabelecer parâmetros de normalidade, permitindo que qualquer desvio futuro seja prontamente identificado como uma anomalia (Gregg, 2013).
No cenário de erro interno, a simulação de uma falha crítica resultou em uma taxa de erro de 100% para as requisições direcionadas ao endpoint específico. O sistema de monitoramento capturou com precisão todas as exceções, incluindo mensagens detalhadas de falha e o rastreamento completo da pilha de execução. A latência média registrada nesse cenário foi de 9,31 ms, com um throughput de 508,2 requisições por segundo. A capacidade de visualizar erros completos e as métricas associadas oferece um suporte indispensável para a tomada de decisão e para o diagnóstico de causa raiz, permitindo que as equipes de engenharia identifiquem pontos de exceção críticos de forma proativa (Raj et al., 2019). A análise detalhada desses registros possibilita compreender a sequência de eventos que leva a falhas críticas, oferecendo subsídios para ajustes de infraestrutura.
O teste de lentidão proposital evidenciou o impacto direto de operações demoradas na performance global da API. Com um atraso configurado de 3000 ms, a latência média registrada saltou para aproximadamente 3016,4 ms, enquanto o volume de processamento caiu drasticamente para apenas 1 requisição por segundo. Esse cenário demonstrou a eficácia da plataforma de observabilidade em identificar gargalos de processamento que afetam o tempo de resposta percebido pelo usuário final. A visualização em tempo real permitiu observar como a lentidão em um único componente pode degradar a experiência geral, reforçando a necessidade de estratégias de mitigação, como o uso de caches ou processamento assíncrono, para manter a fluidez do sistema (Nicchi et al., 2020).
Para o cenário de recurso não encontrado, o monitoramento registrou corretamente os erros de rota com uma latência média de 2,55 ms e um throughput de 1638,2 requisições por segundo. Embora esses erros não gerem rastreamentos de pilha complexos, sua contabilização é vital para identificar tentativas de acesso indevido ou links quebrados na interface do usuário. A capacidade do sistema em diferenciar tipos de falhas e fornecer informações úteis para a otimização de endpoints foi validada, mostrando que mesmo requisições inválidas devem ser monitoradas para garantir a integridade da aplicação. A correlação entre métricas de latência, volume de processamento e taxa de erro permitiu analisar o comportamento da API de forma abrangente em todos os cenários testados.
A fase de implantação da infraestrutura revelou desafios práticos significativos que enriquecem a discussão sobre a implementação de sistemas de observabilidade. Inicialmente, enfrentaram-se dificuldades relacionadas à configuração de autenticação entre os serviços, onde erros de acesso não autorizado impediram a ingestão inicial de dados. A solução envolveu o reset de senhas de sistema e a definição rigorosa de credenciais em arquivos de configuração de ambiente. Outro obstáculo técnico foi a ausência de chaves de criptografia para a persistência de objetos salvos na interface de visualização, o que exigiu a inserção manual de chaves de segurança nos arquivos de configuração do servidor. Esses problemas destacam que a observabilidade depende de uma base de infraestrutura configurada corretamente, onde permissões e segurança são pilares fundamentais.
A gestão de dependências também se mostrou um ponto crítico, exemplificado pelo erro de módulo não encontrado durante a inicialização da API. A resolução demandou a reconstrução do container com a instalação explícita das bibliotecas de monitoramento, reforçando a importância de processos de build automatizados e bem definidos. Além disso, erros de diretório inexistente durante a construção da imagem Docker evidenciaram a necessidade de garantir que arquivos essenciais de definição de projeto sejam incluídos corretamente no contexto de cópia do container. Esses obstáculos reforçaram a importância da leitura contínua dos registros de eventos para a identificação rápida de falhas de inicialização e configuração (Nicchi et al., 2020).
A utilização de containers para a construção da infraestrutura experimental promoveu uma integração eficiente entre o motor de busca, a interface de visualização e o servidor de monitoramento. O isolamento dos serviços permitiu padronizar o ambiente e garantir que os resultados obtidos refletissem a capacidade real do sistema instrumentado, sem interferências externas. A padronização e a escalabilidade proporcionadas pelo uso de containers são fundamentais para a implantação de sistemas distribuídos complexos, facilitando a execução de testes controlados e simulações de diferentes cenários operacionais. Essa abordagem possibilitou monitorar a API sob condições variadas, permitindo uma avaliação robusta da eficácia das ferramentas de observabilidade em fornecer visibilidade completa do comportamento da aplicação.
A integração entre registros, métricas e rastreamentos distribuídos permitiu uma visão abrangente do comportamento da aplicação, superando as limitações do monitoramento tradicional. Essa correlação entre diferentes tipos de dados possibilitou diagnósticos mais precisos, facilitando a identificação de padrões de falha e a análise de tendências de desempenho ao longo do tempo. A combinação de informações qualitativas e quantitativas mostrou-se essencial para compreender completamente a dinâmica do sistema em execução. O monitoramento contínuo realizado durante os testes evidenciou a importância da observabilidade para a manutenção preventiva e corretiva, demonstrando que sistemas monitorados de forma adequada apresentam maior confiabilidade e estabilidade operacional (Majors et al., 2022).
Os resultados corroboram a necessidade de monitoramento baseado em dados quantitativos para detectar anomalias e prever falhas em sistemas distribuídos (Gregg, 2013). A metodologia aplicada possibilitou não apenas a validação prática de conceitos teóricos, mas também a análise detalhada de como diferentes tipos de erros e gargalos impactam a performance global de uma API. A integração entre a revisão bibliográfica e a experimentação controlada permitiu criar um ciclo de avaliação robusto, capaz de correlacionar dados de performance com as melhores práticas descritas na literatura técnica, garantindo a consistência e a aplicabilidade dos resultados encontrados.
A observabilidade deve ser considerada uma prática central na engenharia de software moderna, pois fornece insights que o monitoramento tradicional não consegue oferecer. A capacidade de lidar com diferentes tipos de ocorrências, desde operações bem-sucedidas até falhas internas e recursos inexistentes, demonstra a versatilidade das ferramentas de monitoramento de desempenho. A análise detalhada das métricas capturadas fornece visibilidade abrangente, apoiando decisões de engenharia e manutenção com base em dados concretos e atualizados. Trabalhos futuros podem ampliar a aplicação desta metodologia em ambientes de produção, permitindo analisar o impacto de cargas de trabalho reais, imprevisíveis e variáveis, além de avaliar a escalabilidade das ferramentas em cenários ainda mais complexos.
A experiência adquirida reforça que a combinação entre uma infraestrutura adequada, scripts de teste de carga realistas e uma análise detalhada de métricas é fundamental para garantir a confiabilidade do sistema. Esse conjunto de práticas permite antecipar problemas, reduzir o tempo de diagnóstico de falhas e fornecer informações críticas para a melhoria contínua da API. A prática da observabilidade demonstra-se essencial para a manutenção de sistemas distribuídos complexos, consolidando sua importância como ferramenta estratégica para engenheiros de software e equipes de operação que buscam excelência técnica e resiliência.
A análise de desempenho em tempo real, aliada à capacidade de correlacionar eventos, transforma a maneira como as falhas são percebidas e tratadas. Em vez de apenas reagir a incidentes, as equipes podem utilizar os dados de observabilidade para realizar um planejamento de capacidade mais preciso e implementar melhorias preventivas no código. A identificação de tendências de aumento de latência, por exemplo, pode indicar a necessidade de refatoração de componentes específicos antes que eles causem uma interrupção total do serviço (Hu et al., 2025). Essa visão proativa é o que diferencia organizações que conseguem manter altos níveis de serviço em ambientes altamente competitivos e dinâmicos.
Conclui-se que o objetivo foi atingido, uma vez que a experimentação prática confirmou a eficácia da abordagem de observabilidade para o monitoramento de APIs distribuídas, demonstrando que a instrumentação adequada de sistemas complexos permite uma análise precisa de desempenho e a detecção ágil de falhas. O uso da plataforma Elastic Observability mostrou-se capaz de identificar de maneira consistente cenários de sucesso e erro, garantindo visibilidade sobre latência, throughput e taxas de falha mesmo sob carga elevada. A integração de métricas, logs e traces constitui uma estratégia eficiente para identificar causas raiz e otimizar o comportamento de aplicações modernas, consolidando a observabilidade como um pilar indispensável para a confiabilidade e a melhoria contínua na engenharia de software.
Referências Bibliográficas:
AKAMAI. State of Online Retail Performance. 2017. Disponível em: https://www.apmdigest.com/state-of-online-retail-performance. Acesso em: 1 set. 2025.
BASS, L.; CLEMENTS, P.; KAZMAN, R. Software Architecture in Practice. 4. ed. Boston: Addison-Wesley, 2021.
BRASIL. Tribunal de Contas da União (TCU). Governança e gestão de tecnologia da informação: levantamento. Brasília: TCU, Secretaria de Fiscalização de Tecnologia da Informação, 2020. Disponível em: https://portal.tcu.gov.br. Acesso em: 7 set. 2025.
Csallner, C., & Nivas, T. (2013). Avaliação prática de desempenho ponta a ponta de aplicativos de software backend.
Csallner, C., & Nivas, T. (2013). Avaliação prática de desempenho ponta a ponta de aplicativos de software backend.
GREGG, Brendan. Systems Performance: Enterprise and the Cloud. 2. ed. Boston: Addison-Wesley, 2013.
HU, Xing; LIN, Weixin; LIU, Zhuang; XIA, Xin; LING, Michael; WANG, Yuan; LO, David. Towards On-The-Fly Code Performance Profiling. ACM Transactions on Software Engineering and Methodology, v. Just Accepted, p. 1–19, mar. 2025. DOI: https://doi.org/10.1145/3725212. Acesso em: 30 mar. 2025.
JAIN, Raj. The Art of Computer Systems Performance Analysis: Techniques for Experimental Design, Measurement, Simulation, and Modeling. New York: Wiley, 1991.
MAJORS, Charity; FONG-JONES, Liz; MIRANDA, George. Engenharia de observabilidade. Sebastopol: O’Reilly Media, 2022.
Nicchi, S., Mariani, M., Marini, M., Palmaro, F., & D’Elia, D. (2020). Projetando soluções robustas de monitoramento de API. Transações IEEE em computação confiável e segura , 20, 392-406. https://doi.org/10.1109/TDSC.2021.3133729 . Acesso em: 20 jan. 2025.
RAJ, R.; RAMASWAMY, L.; SIVASUBRAMANIAN, V. End-to-End Observability in Distributed Systems. Journal of Systems and Software, v. 149, p. 62-78, 2019.
SCHMIDT, Robin. Evolução do design da arquitetura de software. 21 ago. 2023. Disponível em: https://appmaster.io/pt/blog/evolucao-do-design-da-arquitetura-de-software. Acesso em: 10 jan. 2025.
Resumo executivo oriundo de Trabalho de Conclusão de Curso da Especialização em Engenharia de Software do MBA USP/Esalq
Para saber mais sobre o curso, clique aqui e acesse a plataforma MBX Academy




























