Imagem Benchmarking de atualização de modelos semânticos do Power BI para fontes on-premise

06 de fevereiro de 2026

Benchmarking de atualização de modelos semânticos do Power BI para fontes on-premise

Enzo Polisel Bonazzi; Miguel Ângelo Lellis Moreira

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Esta pesquisa avalia o desempenho de atualização dos modelos semânticos do Power BI, analisando o impacto de diferentes formatos de arquivo locais: TXT, CSV, XLSX, Parquet e SQL Server. O estudo visa determinar qual formato apresenta maior eficiência em tempo de atualização, buscando gerar insights que orientem profissionais de dados na escolha da arquitetura mais adequada para ambientes on-premise; a otimização de recursos é um fator crítico. A investigação fornece um guia prático, embasado em evidências empíricas, para a tomada de decisão técnica, contribuindo para a melhoria da performance e a redução de custos em projetos de Business Intelligence.

A competição corporativa, focada na maximização de lucros e redução de custos (Lin et al., 2021), consolidou os dados como um ativo estratégico, frequentemente comparado ao “novo petróleo” por sua capacidade de gerar valor (Schwab et al., 2011). A visão de que a era da informação se tornaria o eixo das novas estratégias de mercado, antecipada por Fast (1996), materializa-se hoje; grandes volumes de dados são a fonte primária para a tomada de decisão, como aponta Matsumoto (2006).

Para extrair valor desses dados, ferramentas de Business Intelligence (BI) são essenciais, revolucionando como as organizações processam informação (Adewusi et al., 2024). A Microsoft se destaca com a plataforma Power BI, reconhecida por sua robustez e popularidade (Dutta, 2019). A empresa mantém a liderança no Quadrante Mágico do Gartner para Plataformas de Análise e Inteligência Empresarial há 17 anos consecutivos, um feito atribuído à ampla adoção do Power BI (Microsoft, 2024). A ferramenta se consolidou como uma das soluções de BI mais utilizadas, capacitando usuários a transformar dados brutos em dashboards interativos (Nabil et al., 2023).

O Power BI opera sobre quatro pilares: ingestão de dados de múltiplas fontes; modelagem para estruturar dados e criar lógicas de negócio; criação de visualizações intuitivas; e compartilhamento de informações para democratizar o acesso (Microsoft, 2023). Com o crescimento dos volumes de dados e a necessidade de atualizações frequentes, a escolha do formato de arquivo adequado torna-se uma decisão crucial, impactando velocidade, compressão e acessibilidade dos relatórios (Basani e Kandi, 2024). A padronização e a escolha correta do formato otimizam operações e aceleram a extração de valor (Srinivas et al., 2024).

Este estudo foca em ambientes on-premise, refletindo a realidade de organizações, especialmente no Brasil, que enfrentam barreiras técnicas ou financeiras para a migração para a nuvem (Yeboah-Boateng e Essandoh, 2014). Custos ocultos, desafios operacionais e falta de recursos técnicos são barreiras significativas para a adoção da nuvem (Fisher, 2018). No contexto brasileiro, essa realidade é agravada pelos custos de sustentação em dólar, que impactam o orçamento de pequenas e médias empresas (Feliciano, 2025). Portanto, esta pesquisa busca fornecer diretrizes aplicáveis para profissionais que operam sob essas limitações, permitindo-lhes otimizar o desempenho do Power BI em suas infraestruturas locais.

Para avaliar o impacto dos formatos de arquivo, o estudo adotou uma metodologia experimental estruturada em um ambiente on-premise para simular cenários operacionais reais e avaliar o impacto direto dos formatos sem a interferência de variáveis de rede ou serviços em nuvem. A análise concentrou-se exclusivamente no modelo semântico (o “backend” do Power BI), evitando elementos visuais que poderiam introduzir variáveis de renderização. Os modelos semânticos, ou “datasets”, são o núcleo do Power BI, contendo os dados e a lógica de negócios, e sua atualização eficiente é crucial para a precisão das informações.

A metodologia foi executada em dez etapas. Primeiro, foram coletados dados de uma base pública de criptomoedas do Kaggle (Shpagin, 2025), com aproximadamente 100 milhões de registros. Esses dados foram consolidados em cinco bases com granularidades temporais distintas: Semanal (W1), Diária (D1), Horária (H1), 15 minutos (M15) e 5 minutos (M5). Na segunda etapa, os dados foram transformados e padronizados com Python e a biblioteca pandas. A terceira etapa envolveu o armazenamento dos dados nos cinco formatos avaliados: TXT, CSV, XLSX, Parquet e SQL Server. Cada formato possui características distintas: TXT e CSV são simples, mas pouco otimizados; XLSX é familiar, mas limitado em escala; Parquet é um formato colunar projetado para alta performance; e SQL Server representa uma solução de banco de dados relacional.

Nas etapas seguintes, cada conjunto de dados foi importado para o Power BI Desktop, gerando arquivos PBIX individuais sem visualizações (Etapa 4), e os modelos foram publicados no Power BI Web (Etapa 5). Para a coleta de dados, uma automação com Selenium em Python realizou 60 atualizações cíclicas para cada modelo (Etapa 6). Um script em JavaScript extraiu os tempos de atualização da interface do Power BI Web (Etapa 7). Com os tempos registrados, aplicou-se a técnica de Intervalo Interquartil (IQR) para remover outliers, garantindo que a análise refletisse o comportamento típico (Etapa 8). A nona etapa consistiu na análise comparativa dos tempos médios de atualização. Finalmente, os resultados foram organizados em tabelas e gráficos (Etapa 10). Os testes foram conduzidos em um ambiente controlado: um computador com processador AMD Ryzen 5, 16 GB de RAM e conexão de internet de 700 Mbps, representando uma configuração corporativa típica.

A análise dos resultados, após a remoção de valores atípicos, revelou diferenças significativas no desempenho de atualização entre os formatos de arquivo, especialmente com o aumento do volume de dados. Os dados consolidados na Tabela 2 do estudo original, que resume o tempo médio de atualização em segundos, demonstram que a escolha do formato de dados possui implicações diretas na performance operacional de sistemas de BI em ambientes on-premise.

A comparação direta dos tempos de atualização por formato e granularidade (Figura 3 do TCC) mostra que, para volumes pequenos como na granularidade semanal (W1, com 38.603 registros), todos os formatos apresentam tempos baixos e semelhantes. No entanto, em cenários de grande volume, como na granularidade de 15 minutos (M15, com 25.942.097 registros), as disparidades se tornam evidentes. O formato TXT foi o menos eficiente, com tempo médio de 785 segundos, seguido pelo XLSX com 523 segundos. Em contraste, Parquet e CSV apresentaram desempenho superior, com 332 e 345 segundos, respectivamente. O SQL Server posicionou-se de forma intermediária, com 432 segundos, sendo mais eficiente que formatos de texto e planilhas, mas menos otimizado que Parquet e CSV para essa tarefa de atualização em massa.

A análise da eficiência relativa, medida como tempo de atualização por linha (Figura 4 do TCC), reforça a escalabilidade de cada formato. Parquet e CSV mantêm uma eficiência relativamente constante com o aumento do número de registros, enquanto o desempenho do TXT se deteriora drasticamente, indicando que sua estrutura não é adequada para processamento em larga escala. Isso sugere que formatos otimizados para leitura analítica, como o Parquet (colunar), permitem que o motor do Power BI leia apenas as informações necessárias de forma mais eficiente, resultando em escalabilidade superior. O CSV, embora seja um formato de texto, beneficia-se de uma estrutura mais padronizada que o TXT, o que contribui para seu melhor desempenho.

A tendência do tempo de atualização em função do número de linhas (Figura 6 do TCC) sintetiza a escalabilidade de cada formato. As linhas de tendência para Parquet e CSV mostram um crescimento linear e controlado, enquanto as linhas para TXT e XLSX apresentam uma curva acentuada, confirmando que não são resilientes a aumentos no volume de dados. O SQL Server exibe uma tendência intermediária, refletindo a sobrecarga do sistema de gerenciamento de banco de dados, que pode introduzir latência adicional no processo de atualização via gateway em comparação com a leitura direta de arquivos otimizados.

O mapa de calor (Figura 7 do TCC) oferece uma visão consolidada dos resultados; cores mais quentes indicam tempos de atualização mais longos. Fica visualmente claro que, para as granularidades H1 e M15, os formatos TXT e XLSX se destacam negativamente, enquanto Parquet e CSV permanecem em uma faixa de desempenho muito mais aceitável. Esta visualização reforça a principal conclusão: em ambientes on-premise com grandes volumes de dados, a escolha de formatos colunares e otimizados como Parquet, ou o bem-estruturado CSV, é fundamental para a agilidade e eficiência dos processos de atualização no Power BI.

As implicações práticas desses achados são significativas. A otimização do tempo de atualização melhora a experiência do usuário, que obtém acesso a informações mais recentes rapidamente, e reduz a carga sobre os recursos de hardware e a janela de tempo para processos de ETL. A adoção de formatos como Parquet pode levar a uma redução considerável nos custos operacionais indiretos, liberando recursos computacionais e permitindo que as equipes se concentrem em análises de maior valor agregado.

Em suma, os resultados demonstram que, embora para pequenos conjuntos de dados a diferença de desempenho seja marginal, em cenários de larga escala, a escolha estratégica de formatos como Parquet e CSV é determinante para a performance. O estudo fornece uma base empírica para que organizações on-premise possam tomar decisões informadas, padronizar seus processos de ingestão de dados e maximizar o retorno sobre o investimento em suas plataformas de Business Intelligence.

A crescente dependência de dados para a tomada de decisão exige soluções de BI ágeis. No entanto, muitas organizações, especialmente no Brasil, enfrentam limitações que restringem a adoção de infraestruturas em nuvem, tornando a otimização de ambientes locais uma prioridade. Neste contexto, a performance da atualização de modelos semânticos no Power BI é crucial para evitar lentidão e sobrecarga de recursos. Este estudo experimental avaliou o impacto de cinco formatos de arquivo (TXT, CSV, XLSX, Parquet e SQL Server) no desempenho de atualização, fornecendo um benchmarking prático para ambientes on-premise. Os resultados demonstraram que o formato de arquivo tem uma influência direta e significativa no tempo de atualização, com Parquet e CSV se destacando por sua eficiência e escalabilidade, especialmente com grandes volumes de dados. Em contrapartida, TXT e XLSX mostraram severas limitações de escalabilidade, tornando-se gargalos de desempenho. O estudo, apesar de suas limitações, como o foco exclusivo na camada semântica e a não avaliação de ambientes em nuvem ou híbridos, oferece uma contribuição valiosa.

Este trabalho fornece uma referência empírica para a escolha de formatos de arquivo em ambientes on-premise, promovendo ganhos de desempenho e potencial redução de custos. As conclusões abrem caminho para pesquisas futuras que explorem cenários mais complexos, como o impacto da complexidade visual, diferentes configurações de hardware e técnicas avançadas de otimização. Conclui-se que o objetivo foi atingido: demonstrou-se que os formatos de arquivo Parquet e CSV apresentam desempenho superior e maior escalabilidade na atualização de modelos semânticos do Power BI em ambientes on-premise, especialmente com grandes volumes de dados.

Referências:
Adewusi, A. O.; Okoli, U. I.; Adaga, E.; Olorunsogo, T.; Asuzu, O. F.; Daraojimba, D. O. 2024. Business Intelligence in the era of Big Data: a review of analytical tools and competitive advantage. American Journal of Industrial and Business Management 14: 410-428.
Basani, M. A. R.; Kandi, A. 2024. Optimizing Cloud Data Storage: Evaluating File Formats for Efficient Data Warehousing. International Journal for Research in Applied Science & Engineering Technology 12(10): 923.
Dutta, P. 2019. Business Analytics using Microsoft Power BI and AWS Redshift. International Journal of Trend in Scientific Research and Development 3(2): 984.
Fast, W. R. 1996. Knowledge Strategies: Balancing Ends, Ways, and Means in the Information Age. Strategy Research Project, U. S. Army War College, Carlisle Barracks, PA, 1:30.
Feliciani, P. H. 2025. Quanto custa investir na nuvem? Guia completo sobre preços e otimização de custos. Sky. One.
Fisher, C. 2018. Cloud versus On-Premise Computing. American Journal of Industrial and Business Management 8(9): 1991-2006.
Lin, Z.; Wang, S.; Yang, S. 2021. Influential Factors of Innovation Input Decisions: Evidence of Chinese Listed Companies. American Journal of Industrial and Business Management 11: 261-292.
Matsumoto, C. Y. 2006. A importância do banco de dados em uma organização. Maringá Management: Revista de Ciências Empresariais 3(1): 45-55.
Microsoft. 2023. Introdução ao Power BI Desktop. Microsoft Learn.
Microsoft. 2024. O que é Power BI? Microsoft Learn.
Nabil, D. H.; Rahman, M. H.; Chowdhury, A. H.; Menezes, B. C. 2023. Managing supply chain performance using a real time Microsoft Power BI dashboard by action design research (ADR) method. Cogent Engineering 10(2): 1-19.
Schwab, K.; Marcus, A.; Oyola, J. R.; Hoffman, W.; Luzi, M. 2011. Personal Data: The Emergence of a New Asset Class. World Economic Forum, 1-40.
Shpagin, O. 2025. Bitcoin +233 Crypto Coins Prices. Kaggle.
Srinivas, T. A. S.; Sravanthi, Y.; Kumar, Y. V.; Srihith, I. V. D. 2024. Data Standardization: Key to Effective Data Integration. Advanced Innovations in Computer Programming Languages 6(1): 1-4.
Yeboah-Boateng, E. O.; Essandoh, K. A. 2014. Factors Influencing the Adoption of Cloud Computing by Small and Medium Enterprises in Developing Economies. International Journal of Emerging Science and Engineering 2(4): 13-20.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade