
19 de fevereiro de 2026
Implementação de self-service analytics com linguagem natural no Power BI via Fabric
Roger Ferrer da Silva; Jacques Henrique Dias
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo desta pesquisa foi projetar, implementar e validar um ambiente de self-service analytics com consulta em linguagem natural (Q&A) no Power BI, sustentado pela plataforma Microsoft Fabric e um Lakehouse com arquitetura Medalhão. A finalidade foi disponibilizar um modelo semântico robusto e otimizado para português, permitindo que usuários de negócio formulassem perguntas e obtivessem respostas visuais de forma autônoma, sem intermediação constante da equipe de TI. A motivação surge do desafio de democratizar dados enquanto barreiras técnicas limitam seu aproveitamento. A dependência de especialistas para criar relatórios gera gargalos, retarda insights e subutiliza o potencial analítico das organizações (Davenport & Harris, 2007). Uma solução que traduza a intenção de negócio em análises de dados representa um avanço na agilidade e na cultura orientada a dados.
A premissa do estudo é que a eficácia de sistemas de Processamento de Linguagem Natural (NLP) em business intelligence depende preponderantemente da qualidade, estrutura e semântica do modelo de dados subjacente. A literatura corrobora que a curadoria semântica — que inclui nomes de negócio claros, medidas compreensíveis, hierarquias intuitivas e mapeamento de sinônimos — é o principal fator para o sucesso de ferramentas de Q&A (Hand, Mannila & Smyth, 2001). Sem essa camada de tradução, consultas em linguagem natural produzem resultados ambíguos ou incorretos, frustrando o usuário. Este trabalho, portanto, não visou desenvolver novos algoritmos de NLP, mas demonstrar um protocolo prático para preparar o ecossistema de dados a fim de maximizar a assertividade do motor de Q&A do Power BI.
A escolha da arquitetura Medalhão para o Lakehouse foi estratégica. Este padrão segmenta o repositório em camadas de qualidade progressiva — Bronze (dados brutos), Prata (dados curados) e Ouro (dados agregados para consumo) —, oferecendo uma estrutura governada (Microsoft Corporation, 2025a). A camada Bronze garante rastreabilidade e imutabilidade da origem. A camada Prata aplica regras de qualidade e padronização, transformando dados brutos em um ativo confiável. A camada Ouro consolida os dados em modelos otimizados para análise, como o modelo estrela, eficaz para consultas analíticas (Kimball & Ross, 2013). Essa separação de responsabilidades melhora a governança e isola o usuário final da complexidade da engenharia de dados, expondo-o apenas à camada Ouro.
A plataforma Microsoft Fabric foi selecionada por unificar todas as ferramentas necessárias em um único ambiente SaaS. Dataflows Gen2 foram utilizados para a orquestração dos fluxos de ETL entre as camadas do Lakehouse, com uma experiência visual e de baixo código (Microsoft Corporation, 2025b). A tecnologia Direct Lake foi empregada para conectar o Power BI diretamente aos arquivos Delta/Parquet do Lakehouse, eliminando a necessidade de importar dados. Essa abordagem simplifica a arquitetura, reduz a latência de atualização e garante que as análises sejam executadas sobre os dados mais recentes, com performance otimizada para consultas interativas (Microsoft Corporation, 2025c). A combinação dessas tecnologias cria um pipeline de dados coeso e eficiente.
O sucesso da implementação dependeu da construção de uma camada semântica robusta na camada Ouro. A modelagem dimensional, com esquema em estrela, foi adotada para organizar os dados em tabelas de fatos (métricas quantitativas) e de dimensão (atributos descritivos), estrutura ideal para operações de análise de negócios (Celko, 1999). Sobre este modelo, a camada semântica foi construída, incluindo a tradução de nomes de tabelas e colunas para termos de negócio em português, a criação de medidas em DAX (Data Analysis Expressions) e a configuração de hierarquias e sinônimos no Power BI. O mapeamento de sinônimos, como “faturamento” para “Receita”, foi postulado como o elo indispensável para habilitar uma experiência de self-service fluida para o usuário brasileiro.
Adotou-se a metodologia de pesquisa aplicada com delineamento de construção e avaliação (design-science), focada na criação e validação de um artefato tecnológico. O artefato foi o ambiente de self-service analytics, desenvolvido em nuvem com Microsoft Fabric e Power BI. A fonte de dados foi o conjunto público de varejo “Loja Português” do Kaggle (Hotdomains, 2023). O conjunto foi escolhido por ser público, ter estrutura de varejo e dados em português, permitindo focar na validação semântica. Os dados, em três arquivos CSV, foram armazenados em um repositório SharePoint, servindo como origem para a ingestão.
O procedimento de preparação de dados iniciou-se na camada Bronze. Com um Dataflow Gen2, os arquivos CSV foram ingeridos do SharePoint, preservando seu conteúdo original e adicionando colunas de auditoria para rastreabilidade. O resultado foi a criação de três tabelas no formato Delta (brclientes, brprodutos, br_pedidos), representando uma cópia fiel dos dados brutos e servindo como ponto de partida seguro para as transformações subsequentes.
Na camada Prata, desenvolvida também via Dataflow Gen2, os dados foram curados e padronizados. As tabelas da camada Bronze serviram como fonte para as tabelas da camada Prata (slclientes, slprodutos, sl_pedidos). Foram aplicadas regras de transformação e qualidade: tipagem de dados foi corrigida (e. g., texto para data ou número), registros com chaves primárias nulas foram removidos e transações com valores inconsistentes foram filtradas. Textos foram padronizados com funções de limpeza e valores categóricos foram normalizados. A deduplicação de registros nas tabelas de dimensão garantiu a unicidade das chaves.
A engenharia de dados foi concluída na camada Ouro, projetada para consumo analítico e para o Q&A. A partir das tabelas da camada Prata, foi consolidado um modelo em esquema estrela, com uma tabela de fatos (gdqfatopedidos) e três dimensões (gdqdimcliente, gdqdimproduto, gdqdimtempo). A dimensão de tempo foi derivada da coluna “Data do Pedido” (Inmon, 2005). Todas as colunas foram renomeadas para termos de negócio em português. Sobre este modelo, foi criado o modelo semântico do Power BI em modo Direct Lake; foram implementadas medidas de negócio em DAX, como “Receita” e “Ticket Médio (R$)”, e configuradas hierarquias. A interface de sinônimos do Q&A foi utilizada para mapear termos de negócio aos seus respectivos campos, preparando o ambiente para validação. A avaliação do artefato foi conduzida com um roteiro de oito perguntas-âncora, submetidas ao visual Q&A do Power BI, simulando questões de um gestor de varejo. A eficácia foi medida pelo critério de acerto no primeiro retorno (Top-1).
Os resultados da implementação do pipeline confirmaram a eficácia da arquitetura Medalhão. A ingestão na camada Bronze e a curadoria na Prata resultaram em um conjunto de dados limpo e consistente, pré-requisito para modelagem analítica confiável (Han, Kamber & Pei, 2006). O modelo estrela na camada Ouro, publicado via Direct Lake, proporcionou uma base performática para o Power BI, com tempos de resposta rápidos para as consultas em linguagem natural. O principal resultado foi a alta assertividade do Q&A após a configuração da camada semântica.
A validação com as oito perguntas-âncora demonstrou a robustez do ambiente. Sete das oito perguntas foram respondidas corretamente no primeiro retorno (Top-1). Consultas temporais como “Receita em 2012 por mês” geraram gráficos de linha exibindo a sazonalidade, enquanto “Receita acumulada por ano” produziu um gráfico de área intuitivo. A capacidade de gerar essas visualizações instantaneamente a partir de perguntas simples representa um ganho de agilidade (Few, 2009).
Nas análises de composição e ranking, o sistema também teve excelente desempenho. A pergunta “Receita por categoria” gerou um gráfico de barras que evidenciou a concentração de vendas, e “Top 10 produtos por receita” produziu uma lista ordenada, informação crucial para gestão de estoque e marketing. A capacidade de identificar rapidamente os principais contribuintes para o resultado do negócio de forma direta e visual foi comprovada.
As perguntas sobre eficiência operacional revelaram a capacidade do modelo de suportar análises mais sofisticadas. A consulta “Margem bruta (%) por subcategoria” expôs discrepâncias de rentabilidade entre produtos. A análise de “Frete sobre receita (%) por modo de envio” mostrou o impacto dos custos de entrega, e “Desconto médio (%) por subcategoria” apontou para a necessidade de revisão das políticas comerciais. O sucesso do Q&A em responder a essas questões, que combinam múltiplas métricas, reforça o valor da solução.
O único ponto de falha inicial ocorreu com a pergunta “Ticket médio anual e mensal por categoria”, pois o motor de Q&A teve dificuldade em interpretar duas granularidades de tempo. O problema foi resolvido com um ajuste na configuração de sinônimos, mapeando “anual” para o campo “Ano” e “mensal” para “Mês”. Após a configuração, a pergunta gerou a visualização correta, uma matriz cruzando categorias com valores anuais e mensais. Este resultado prático evidencia que a curadoria semântica é o componente crítico que habilita a inteligência do sistema.
A discussão dos resultados reforça a validade da abordagem. A arquitetura Medalhão desacoplou as responsabilidades, resultando em um processo organizado. O modelo estrela, conforme a teoria (Kimball & Ross, 2013), simplificou a estrutura de dados e aumentou a previsibilidade das consultas. A camada semântica — nomes de negócio, medidas DAX, hierarquias e sinônimos — provou ser o elemento decisivo. Desenvolver o modelo semântico em português, evitando jargões técnicos, foi fundamental para alinhar o sistema ao vocabulário do usuário (Microsoft Corporation, 2025d).
Embora o estudo tenha focado no varejo, a arquitetura e o protocolo são generalizáveis. A aplicação em outros setores exigiria a substituição dos dados e um remapeamento semântico na camada Ouro. A estrutura do pipeline no Microsoft Fabric, contudo, permaneceria, demonstrando a replicabilidade da abordagem. As limitações do estudo incluem o uso de um único domínio e um conjunto restrito de perguntas. Aspectos como segurança em nível de linha (RLS) e atualização incremental não foram abordados.
Em termos de implicações práticas, a pesquisa demonstrou que o sucesso do self-service analytics com Q&A em português depende de quatro fatores: (i) nomes de exibição de colunas e tabelas orientados ao negócio; (ii) um conjunto de medidas DAX com semântica clara; (iii) hierarquias e ordenações bem definidas; e (iv) um mapeamento dos sinônimos mais comuns do domínio. Atendendo a esses requisitos, as organizações podem transformar o Q&A em uma ferramenta de apoio à decisão, reduzindo a dependência de TI e acelerando a obtenção de insights.
Conclui-se que a arquitetura proposta, que integra Microsoft Fabric, um Lakehouse no padrão Medalhão e um modelo semântico em estrela com uma rica camada semântica em português, habilitou o recurso de Q&A do Power BI como uma ferramenta efetiva para self-service analytics. A separação de responsabilidades entre as camadas Bronze, Prata e Ouro foi fundamental para a qualidade e governança dos dados, enquanto a camada semântica foi determinante para a experiência do usuário. O roteiro de validação evidenciou a utilidade da solução para análises de tendências, composição e eficiência. As implicações gerenciais incluem a redução da dependência de TI, a aceleração na obtenção de insights e a criação de uma base para a expansão da cultura de dados. Conclui-se que o objetivo foi atingido: demonstrou-se que a combinação de uma plataforma de dados unificada com práticas rigorosas de modelagem dimensional e curadoria semântica é o caminho para transformar a análise em linguagem natural em uma realidade prática para as organizações.
Trabalhos futuros podem explorar a ampliação da solução para outros domínios, a instrumentação da telemetria do Q&A para refinar o dicionário de sinônimos, e a incorporação de requisitos como segurança em nível de linha. A avaliação da usabilidade com usuários finais também seria um passo importante para quantificar os ganhos de produtividade.
Referências:
Celko, J. (1999). Data and Databases: Concepts in Practice. Morgan Kaufmann.
Davenport, T. H., & Harris, J. G. (2007). Competing on Analytics: The New Science of Winning. Harvard Business Review Press.
Few, S. (2009). Now You See It: Simple Visualization Techniques for Quantitative Analysis. Analytics Press.
Han, J., Kamber, M., & Pei, J. (2006). Data Mining: Concepts and Techniques (2nd ed.). Morgan Kaufmann.
Hand, D. J., Mannila, H., & Smyth, P. (2001). Principles of Data Mining. MIT Press.
Hotdomains. (2023). Loja Português [conjunto de dados]. Kaggle. https://www. kaggle. com/datasets/hotdomains/loja-portugues
Inmon, W. H. (2005). Building the Data Warehouse. John Wiley & Sons.
Kimball, R., & Ross, M. (2013). The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling. John Wiley & Sons.
Microsoft Corporation. (2025a). Microsoft Fabric: Lakehouse. Microsoft Learn. https://learn. microsoft. com/fabric/data-engineering/lakehouse
Microsoft Corporation. (2025b). Dataflows Gen2 no Microsoft Fabric. Microsoft Learn. https://learn. microsoft. com/fabric/data-factory/dataflows-gen2-overview
Microsoft Corporation. (2025c). Power BI em Direct Lake. Microsoft Learn. https://learn. microsoft. com/power-bi/enterprise/direct-lake-overview
Microsoft Corporation. (2025d). Power BI: Q&A em linguagem natural. Microsoft Learn. https://learn. microsoft. com/power-bi/consumer/end-user-q-and-a
Winand, M. (2012). SQL Performance Explained. Markus Winand e. U.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































