Imagem Modelagem multinível na análise da composição de preços de máquinas virtuais em nuvem

26 de fevereiro de 2026

Modelagem multinível na análise da composição de preços de máquinas virtuais em nuvem

João Paulo Gomes Ricotta; Miguel Ângelo Lellis Moreira

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este estudo aplica a modelagem multinível como técnica unificada para a análise comparativa e a estimativa de custos entre os principais provedores de nuvem pública: Amazon Web Services (AWS), Google Cloud Platform (GCP) e Microsoft Azure. A investigação busca identificar qual provedor ou região geográfica apresenta o menor custo por máquina virtual, considerando suas características de configuração. A crescente adoção de estratégias multicloud, motivada pela busca por resiliência e otimização de custos, introduz complexidade na gestão financeira de TI (Seth et al., 2024). Nesse contexto, a disciplina de FinOps emerge como pilar para garantir a eficiência financeira e maximizar o valor dos investimentos em nuvem (Storment e Fuller, 2024), sendo o planejamento de custos uma de suas capacidades essenciais para a tomada de decisões informadas.

O problema central abordado é a fragmentação das ferramentas de gestão de custos. As calculadoras de preços e painéis de controle oferecidos pelos provedores, como os da Microsoft (2025), são limitados aos seus próprios ecossistemas, não permitindo uma comparação direta com concorrentes. Essa limitação força as organizações a utilizarem ferramentas de terceiros ou a desenvolverem integrações customizadas, o que gera custos e complexidade operacional. A literatura recente aponta para o uso de Inteligência Artificial na previsão de custos (Nawrocki e Smendowski, 2024) e na previsão de preços para instâncias específicas (Fragiadakis et al., 2023). No entanto, essas soluções frequentemente não abordam a composição de preços em um ambiente multicloud, considerando a influência simultânea de variáveis de configuração e de contexto, como provedor e região.

A escolha da modelagem multinível justifica-se por sua capacidade de analisar dados com estrutura hierárquica, que espelha a organização dos recursos de nuvem: máquinas virtuais (instâncias) estão aninhadas em regiões geográficas, que, por sua vez, pertencem a um provedor. Modelos de regressão tradicionais que ignoram essa estrutura podem produzir estimativas de erro padrão enviesadas, pois violam o pressuposto de independência das observações (Snijders e Bosker, 2012). A modelagem multinível, ao contrário, decompõe a variância total do preço em componentes atribuíveis a cada nível da hierarquia, permitindo uma análise mais precisa e contextualizada dos fatores que influenciam os custos.

O estudo foca em máquinas virtuais de propósito geral, seguindo trabalhos correlatos (Zagraba, 2024), por ser um recurso de infraestrutura fundamental. A pesquisa visa preencher uma lacuna ao oferecer uma ferramenta analítica que não apenas prevê custos, mas elucida como as características contextuais (provedor e região) moderam a relação entre as especificações de hardware (CPU e memória) e o preço final. A contribuição prática esperada é fornecer aos praticantes de FinOps um modelo preditivo que auxilie na escolha mais eficiente de infraestrutura. A abordagem multinível permite capturar a complexidade dessa estrutura de precificação de forma mais fidedigna do que as análises de custo tradicionais.

A adoção de uma estratégia multicloud (Mulder, 2023) exige a consolidação de informações de diferentes fontes para permitir análises comparativas. A metodologia deste trabalho estabeleceu um pipeline de coleta, tratamento e análise de dados que abrange os três maiores provedores, que juntos detêm aproximadamente 70% do market share global (Borra, 2024). O processo foi desenvolvido em Python (versão 3.12) e documentado em notebooks do Google Colab (Ricotta, 2025), utilizando bibliotecas como requests para chamadas de API, ijson para processamento de arquivos JSON, pandas para manipulação de dados e statsmodels para a estimação do modelo estatístico.

Após a coleta, os dados foram submetidos a um rigoroso processo de tratamento. Foram obtidos 103.671 registros da AWS, 35.194 da Azure e 6.435 do GCP. Para mitigar o desbalanceamento, aplicou-se uma amostragem estratificada, utilizando o volume de dados do GCP como base e preservando a distribuição regional interna de cada provedor, técnica fundamental para garantir a representatividade e reduzir o viés (Cochran, 1977; Lohr, 2010). As unidades de memória foram padronizadas para Gibibytes (GiB) e os preços, em Dólares Americanos (USD), foram convertidos para Reais (BRL) com base na cotação do Banco Central do Brasil. O dataset final, após todas as etapas, totalizou 19.305 observações de máquinas virtuais de uso geral.

A abordagem metodológica central foi a aplicação de um modelo linear hierárquico de três níveis. O Nível 1 corresponde às observações individuais de cada máquina virtual (número de núcleos de CPU e memória RAM). O Nível 2 agrupa essas observações por região geográfica, capturando a variabilidade de preços entre localidades. O Nível 3 agrupa as regiões por provedor, capturando as diferenças sistêmicas de precificação entre AWS, Azure e GCP. A fundamentação teórica baseia-se na premissa de que as observações não são independentes, mas influenciadas pelo contexto em que estão inseridas (Fávero e Belfiore, 2025). O modelo decompõe a variância total do preço, permitindo investigar como as características dos níveis superiores moderam as relações do Nível 1 (Hox, 2010; Raudenbush e Bryk, 2002).

A análise exploratória dos dados revelou características que exigiram transformações. Gráficos de dispersão entre a variável-alvo (priceOnDemand) e os preditores (numberOfCores e memoryInGiB) exibiram grande dispersão vertical, indicando que para uma mesma configuração de hardware, os preços poderiam variar drasticamente. Este padrão sugeria uma relação não linear que violaria os pressupostos do modelo de regressão. Além disso, a variável-alvo apresentou acentuada assimetria positiva, com uma forte concentração de máquinas de baixo custo, o que poderia comprometer a normalidade dos resíduos.

Para endereçar essas questões, foram aplicadas transformações logarítmicas sobre os preditores numberOfCores e memoryInGiB, para linearizar sua relação com a variável-alvo. Para a variável-alvo priceOnDemand, a transformação de Box-Cox se mostrou mais eficaz que a logarítmica em normalizar a distribuição, conforme demonstrado por gráficos Q-Q. A manutenção de máquinas com preços extremamente altos no dataset foi uma decisão deliberada, pois elas representam ofertas reais e válidas no catálogo dos provedores.

Antes da estimação do modelo, foram realizados testes diagnósticos. O Fator de Inflação de Variância (VIF) foi calculado para avaliar a multicolinearidade. Apesar da alta correlação entre CPU e memória (0,85), o VIF resultante de 4,8 permaneceu em um nível aceitável. Adicionalmente, uma Análise de Variância (ANOVA) confirmou a relevância das variáveis de agrupamento, mostrando uma associação estatisticamente significativa entre o preço e as variáveis provider (p-valor < 0.0001) e region (p-valor = 0.067), validando sua utilização como níveis hierárquicos.

A implementação do modelo iniciou-se com a estimação de um modelo nulo, de intercepto aleatório, para decompor a variância total do preço nos três níveis. Os resultados indicaram que 13,0% da variabilidade total nos preços era atribuída às diferenças entre os provedores (Nível 3), 1,2% às diferenças entre regiões (Nível 2), e 85,7% correspondia à variação residual (Nível 1), confirmando a estrutura hierárquica dos dados.

Posteriormente, o modelo completo foi estimado com a inclusão dos preditores transformados (lognumberOfCores e logmemoryInGiB). O cálculo do Coeficiente de Correlação Intraclasse (ICC) para este novo modelo revelou uma redistribuição da variância. A proporção da variância atribuída aos provedores aumentou para 43,1% e a das regiões para 4,2%, enquanto a variância residual foi reduzida para 52,7%. Esse deslocamento demonstra que os preditores de configuração de hardware ajudaram a explicar uma parte substancial da variabilidade, realocando-a para os níveis contextuais. Isso significa que o efeito da CPU e da memória no preço varia significativamente dependendo do provedor e da região.

Para confirmar a superioridade estatística do modelo com preditores, foi aplicado o Teste da Razão de Verossimilhança (LRT). O teste resultou em uma estatística de 30.041,806 com um p-valor inferior a 0,0001, indicando que a inclusão dos preditores melhorou o ajuste do modelo de forma altamente significativa. A avaliação diagnóstica do modelo final, no entanto, revelou a presença de heterocedasticidade. A inspeção do gráfico de resíduos contra valores previstos mostrou um aumento na dispersão para valores mais altos, e o teste de Breusch-Pagan confirmou formalmente essa observação (p < 0,05).

A investigação da heterocedasticidade foi aprofundada com uma análise segmentada por provedor. Modelos de regressão linear simples (OLS) foram ajustados para cada subconjunto de dados (AWS, Azure e GCP), e o teste de Breusch-Pagan foi aplicado a cada um. Os resultados foram conclusivos: todos os três provedores apresentaram heterocedasticidade significativa, indicando que o problema é uma característica sistêmica dos dados. Essa descoberta implica que o modelo preditivo perde performance e comete erros maiores ao estimar os preços de máquinas virtuais mais caras, embora seja mais preciso para instâncias de menor custo. A persistência da heterocedasticidade sugere a ausência de variáveis preditoras importantes no modelo.

A discussão dos resultados aponta para dois desafios que limitaram o desempenho do modelo: a insuficiência de dados e as dificuldades na coleta. Fatores como a arquitetura do processador, o sistema operacional e as especificações de armazenamento, que influenciam o custo (Tharwani e Purkayastha, 2024), não puderam ser incluídos de forma padronizada devido à falta de uniformidade nos catálogos dos provedores. A ausência de padrões na disponibilização de dados para consumo representou um obstáculo considerável, tornando o desenvolvimento de um pipeline de dados robusto um processo custoso e complexo. A discrepância no volume e detalhe dos dados entre os provedores (com a AWS fornecendo o conjunto mais rico e o GCP o mais enxuto) também reflete diferenças estratégicas que precisam ser consideradas na interpretação dos resultados.

O estudo demonstrou que a modelagem multinível é uma abordagem estatisticamente válida e promissora para a análise comparativa de custos em ambientes multicloud, alinhada aos objetivos do FinOps. O modelo foi capaz de capturar as diferenças significativas de custo entre provedores e regiões, quantificando a influência desses fatores contextuais. No entanto, a qualidade e a abrangência dos dados coletados se mostraram um gargalo crítico. A heterocedasticidade persistente nos resultados indica que, embora a estrutura do modelo seja adequada, a sua capacidade preditiva para configurações de alto custo é limitada pela omissão de variáveis relevantes.

Conclui-se que o objetivo foi atingido: demonstrou-se a viabilidade da aplicação da modelagem multinível como técnica unificada para a análise comparativa e a estimativa de custos de máquinas virtuais entre os principais provedores de nuvem, ao mesmo tempo em que se identificaram os desafios críticos relacionados à coleta e padronização de dados que impactam a acurácia do modelo. As limitações encontradas, principalmente a insuficiência de variáveis preditoras padronizadas, sugerem direções claras para trabalhos futuros. A agenda de pesquisa subsequente deve focar na incorporação de um conjunto mais amplo de variáveis de configuração, possivelmente desenvolvendo métodos para contornar as inconsistências nos catálogos dos provedores. Um passo intermediário seria a aplicação do modelo a um único provedor com dados mais detalhados, como a AWS, para isolar e quantificar o impacto de features adicionais sobre o desempenho preditivo.

Referências:
Borra, P. 2024. Comparison and analysis of leading cloud service providers (AWS, Azure and GCP). International Journal of Advanced Research in Engineering and Technology 15(3): 266-278.
Cochran, W. G. 1977. Sampling techniques. 3ed. Wiley, New York, NY, USA
Fávero, L. P.; Belfiore, P. 2025. Manual de Análise de Dados: Estatística e machine learning com Excel®, SPSS®, Stata®, R® e Python®. 2ed. LTC, Rio de Janeiro, RJ, Brasil.
FinOps Foundation. 2025. FinOps Framework. Disponível em: <https://www. finops. org/framework/>. Acesso em: 20 jun. 2025.
Flexera. 2025. State of the cloud report. Flexera. Disponível em: <https://info. flexera. com/CM-REPORT-State-of-the-Cloud? lead_source=Organic%20Search> . Acesso em: 05 jun. 2025.
Fragiadakis, G.; Filiopoulou, E.; Michalakelis, C.; Kamalakis, T.; Nikolaidou, M. 2023. Applying machine learning in cloud service price prediction: the case of Amazon IaaS. Future Internet 15(8): 277-296.
Hox, J. J. 2010. Multilevel Analysis: Techniques and applications. 2ed. Routledge, London, UK.
Lohr, S. L. 2010. Sampling: Design and analysis. 2ed. Cengage Learning, Boston, MA, USA.
Microsoft. 2025. Preços do Azure. Disponível em: <https://azure. microsoft. com/pt-br/pricing/>. Acesso em: 19 jun. 2025 .
Mulder, J. 2023. Multi-Cloud Strategy for Cloud Architects. 2ed. Packt Publishing, Birmingham, UK.
Nawrocki, P.; Smendowski, M. 2024. FinOps-driven optimization of cloud resource usage for high-performance computing using machine learning. Journal of Computational Science 79(1): n/a.
Raudenbush, S. W.; Bryk, A. S. 2002. Hierarchical Linear Models: Applications and data analysis methods. Sage Publications, Thousand Oaks, CA, USA.
Ricotta, J. P. G. 2025. Código-fonte para coleta e análise de dados do TCC. Disponível em: <https://github. com/ricotta-jpgomes/mod-multinivel-nuvem>. Acesso em: 10 set. 2025 .
Seth, D.; Nerella, H.; Najana, M.; Tabbassum, A. 2024. Navigating the multi-cloud maze: Benefits, challenges, and future trends. International Journal of Global Innovations and Solutions 2024(1): 2-21.
Snijders, T. A. B.; Bosker, R. J. 2012. Multilevel Analysis: An introduction to basic and advanced multilevel modeling. 2ed. Sage Publications, Thousand Oaks, CA, USA.
Storment, J. R.; Fuller, M. 2024. Cloud FinOps: Collaborative, real-time cloud financial management. 2ed. O’Reilly, Sebastopol, CA, EUA.
Tharwani, J.; Purkayastha, A. A. 2024. Cost-Performance Evaluation of General Compute Instances: AWS, Azure, GCP, and OCI. International Journal of Computer Trends and Technology 72(11): 248-255.
Zagraba, M. 2024. Virtual Machine Cloud Infrastructure Management: Determining Differences between Azure Regions within the Same VM Size. European Research Studies Journal XXVII(Special Issue B): 971-982.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade