
19 de fevereiro de 2026
Previsão do gasto futuro de clientes no varejo digital utilizando modelos preditivos
Renan Eiji Asamura; Gabrielle Lombardi;
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A análise busca gerar insights práticos sobre a previsibilidade do comportamento do consumidor e as limitações de cada técnica. A escolha de um modelo inadequado pode levar a decisões de investimento equivocadas, como alocar orçamentos de marketing a clientes com baixo potencial de retorno ou falhar em identificar clientes valiosos em risco de inatividade. Portanto, a comparação rigorosa entre essas famílias de modelos não é apenas um exercício acadêmico, mas uma necessidade estratégica para empresas que buscam maximizar a eficiência de suas operações e garantir um crescimento sustentável em um mercado cada vez mais competitivo. O setor de varejo é um pilar da economia brasileira, sendo o varejo restrito responsável por 20,45% do PIB nacional em 2023 (SBVC, 2023), destacando sua relevância para o crescimento econômico (Barbosa et al., 2021).
A transformação digital, acelerada pela pandemia (KPMG, 2021), consolidou o e-commerce como um canal de vendas indispensável, alterando permanentemente os hábitos de consumo. O crescimento exponencial das vendas online (Ebit|Nielsen, 2022) gerou um volume massivo de dados transacionais e comportamentais, tornando essencial a adoção de uma gestão orientada por dados para decifrar e antecipar o comportamento do consumidor (Lemon e Verhoef, 2016). Essa nova realidade impõe o desafio de transformar dados brutos em inteligência acionável, permitindo que as empresas passem de uma postura reativa para uma proativa na gestão do relacionamento com o cliente. Prever o comportamento de consumo permite que empresas personalizem campanhas de marketing e otimizem o ciclo de vida do cliente (Kotler et al., 2022). Equipes de mídias digitais, por exemplo, podem utilizar essas previsões para direcionar orçamentos de aquisição de forma mais inteligente, focando em perfis de público com maior valor vitalício (CLV) projetado.
Isso justifica um Custo de Aquisição de Clientes (CAC) mais elevado para esses segmentos, pois o retorno esperado a longo prazo compensa o investimento inicial (Reinartz e Kumar, 2000). Simultaneamente, equipes de CRM podem segmentar a base de clientes existente para desenvolver campanhas específicas e personalizadas, como ações de up-sell para clientes com potencial de aumento do gasto médio, campanhas de cross-sell baseadas em afinidades de compra, ou programas de reativação para clientes com alta probabilidade de churn, maximizando assim o retorno sobre o investimento em marketing (Blattberg et al., 2008). A centralidade no cliente, um paradigma moderno de gestão, preconiza a identificação dos clientes mais valiosos e a concentração de esforços para maximizar sua receita e lealdade, enquanto se buscam novos consumidores com perfis semelhantes (Fader, 2020). Este princípio, muitas vezes associado à regra de Pareto, reconhece que uma minoria de clientes frequentemente gera a maioria da receita.
O crescimento sustentável de uma empresa depende, portanto, de um delicado equilíbrio entre a aquisição de novos clientes, a retenção dos existentes e o aumento do valor gerado por essa base consolidada (Steinman, 2016). Nesse contexto, a modelagem preditiva do gasto futuro emerge como uma ferramenta estratégica fundamental, capacitando gestores a tomar decisões mais informadas e a alinhar as táticas de marketing e vendas com os objetivos financeiros de longo prazo da organização. A literatura acadêmica já explorou diversas metodologias para essa finalidade, evoluindo de modelos estatísticos clássicos para algoritmos de aprendizado de máquina mais sofisticados. Schmittlein et al. (1987) foram pioneiros ao aplicar o modelo probabilístico BG/NBD para prever a frequência de compras em contextos não contratuais, estabelecendo uma base para a modelagem do comportamento do cliente. Fader et al.
(2005) aprimoraram essa abordagem ao combinar o BG/NBD com o modelo Gamma-Gamma para estimar o valor monetário das transações, criando uma estrutura robusta e amplamente utilizada para o cálculo do CLV. Mais recentemente, com o avanço do poder computacional, a pesquisa se voltou para algoritmos de machine learning. Wong et al. (2025) compararam modelos lineares com algoritmos de ensemble como Random Forest, evidenciando que, em certos contextos, modelos mais simples e interpretáveis podem competir favoravelmente com os mais complexos. Esses estudos também apontam consistentemente para a dificuldade de prever com precisão o comportamento de clientes de altíssimo valor, os chamados “outliers” positivos. A metodologia adotada é de natureza quantitativa e preditiva, com o objetivo de comparar sistematicamente seis famílias de modelos para estimar o gasto futuro dos clientes em quatro horizontes de tempo distintos: 1, 3, 6 e 12 meses.
A seleção dos modelos foi projetada para abranger um espectro de complexidade e premissas teóricas. O processo de treinamento e validação dos modelos utilizou um período de observação fixo de 12 meses, compreendido entre 1º de janeiro e 31 de dezembro de 2022, para a construção das variáveis preditoras (features). A variável alvo, o gasto futuro de cada cliente, foi calculada em quatro períodos subsequentes e mutuamente exclusivos, todos iniciando em 1º de janeiro de 2023 e terminando, respectivamente, em 31 de janeiro (1 mês), 31 de março (3 meses), 30 de junho (6 meses) e 31 de dezembro de 2023 (12 meses).
A análise foi estritamente focada nas vendas do comércio digital, e após um rigoroso processo de pré-processamento e limpeza, a base de estudo consolidou-se em 996.482 clientes únicos com histórico de compras no período de observação. No pré-processamento, uma etapa crucial para o sucesso da modelagem, foram criadas diversas variáveis preditoras agrupadas em três categorias: demográficas, de histórico de compras e de interações digitais. A partir do histórico transacional, foram calculadas as variáveis clássicas de RFM (Recência, Frequência, Valor Monetário), além da tenacidade (‘t’, o tempo desde a primeira compra do cliente).
Para capturar a dinâmica temporal do comportamento, as variáveis de frequência e valor monetário foram agregadas em diferentes janelas de tempo (1, 3, 6 e 12 meses), resultando em features como pedidos6m e valor6m. Adicionalmente, foram criadas variáveis para o número de sessões por plataforma (web, Android, iOS) e variáveis de proporção (share) de gastos por categoria de produto, canal de marketing, método de entrega e forma de pagamento, buscando capturar as preferências individuais de cada consumidor. O modelo BG/NBD foi ajustado utilizando as variáveis canônicas frequency, recency, T e monetary_value, seguindo a metodologia proposta por Fader et al. (2005).
Para os modelos da família GLM, utilizou-se a biblioteca statsmodels do Python. No caso da Regressão Linear (OLS), foram testadas variantes com seleção de variáveis Stepwise para buscar um modelo mais parcimonioso e com transformação de Box-Cox na variável alvo para tentar normalizar sua distribuição.
Para o modelo de Poisson, foi realizado um teste de superdispersão para verificar se a variância dos dados era maior que a média, uma premissa do modelo. Como a superdispersão foi confirmada, o modelo Binomial Negativo, que lida melhor com essa característica, foi implementado, buscando-se o parâmetro de dispersão alpha ótimo.
A análise exploratória dos dados revelou uma forte assimetria na distribuição da receita, um padrão comum no varejo; poucos clientes de alto valor (a “cauda longa” da distribuição) respondem por uma parcela desproporcional da receita total.
A análise de correlação de Pearson identificou a variável valor6m (valor total gasto nos últimos 6 meses) como o preditor linear mais forte da receita futura, apresentando um coeficiente de 0,72 com a variável alvo receitafutura6m. Outras variáveis com correlação relevante foram a recência (correlação negativa, indicando que clientes que compraram mais recentemente tendem a gastar mais no futuro) e a tenacidade (correlação positiva, sugerindo que clientes mais antigos na base tendem a ser mais valiosos). A idade, por sua vez, apresentou uma correlação muito baixa (0,09), indicando pouca relevância preditiva quando analisada de forma isolada. Na avaliação de desempenho para o horizonte de 6 meses, as abordagens lineares demonstraram uma superioridade notável. Os modelos OLS e OLS com seleção Stepwise (OLSSW) registraram o melhor desempenho geral, com os menores valores de MAE (aproximadamente 304,6), RMSE (aproximadamente 528) e um RMSE% de 118,5%.
Este resultado indica que esses modelos capturaram de forma eficiente a relação predominantemente linear entre o comportamento de compra passado e o gasto futuro para a maioria da base de clientes. A tentativa de normalizar a variável alvo com a transformação de Box-Cox (OLS_BC) mostrou-se contraproducente, degradando severamente o desempenho e resultando em um RMSE% superior a 9500%. Os modelos de machine learning, LGBM e Random Forest, tiveram um desempenho intermediário na previsão geral do gasto. O LGBM registrou um MAE de 308,2 e um RMSE de 619, enquanto o RF obteve um MAE de 298,9 e um RMSE de 597. Embora o MAE do Random Forest tenha sido o menor entre todos os modelos testados, indicando uma boa performance na previsão do erro médio, seus erros quadráticos (RMSE) foram superiores aos do OLS.
Isso sugere que, embora o RF seja preciso para a maioria dos clientes, ele comete erros maiores em previsões pontuais, resultando em maior variabilidade. O modelo probabilístico BG/NBD também se posicionou no grupo intermediário (MAE 333,0; RMSE 589). Este achado está em consonância com as conclusões de Wong et al. (2025), que também observaram a competitividade de modelos mais simples.
A análise de desempenho por faixas de gasto futuro revelou nuances importantes e limitações em todas as abordagens. Foi observado que todos os modelos subestimaram sistematicamente os gastos dos clientes de maior valor, uma limitação conhecida na literatura e atribuída à alta variabilidade e ao menor número de observações nesses segmentos de alto valor. Em contrapartida, os modelos LGBM e RF mostraram um desempenho significativamente superior no bucket 0, que agrupa os clientes que não compraram no período de predição. Essa acurácia na identificação de clientes inativos é um resultado direto de sua arquitetura em duas etapas (classificação seguida de regressão). Essa capacidade confere a esses modelos uma vantagem prática e estratégica para a gestão de churn e para o desenvolvimento de campanhas de reativação, pois conseguem distinguir com maior precisão quem irá comprar de quem não irá.
A análise de importância de variáveis (feature importance) no modelo LGBM, o melhor entre os de machine learning, revelou insights valiosos sobre os gatilhos do comportamento do consumidor.
Para o modelo de classificação (que visa prever se o cliente comprará), as variáveis mais importantes foram as relacionadas à frequência de compras (pedidos6m, pedidos12m), seguidas pela recência. Isso indica que a atividade passada é o melhor preditor da atividade futura. Já para o modelo de regressão (que visa prever quanto o cliente gastará, caso compre), as variáveis de valor monetário (valor6m, valor12m) foram absolutamente dominantes. Essa distinção é crucial para a estratégia de negócio: a frequência prediz o engajamento e a probabilidade de compra, enquanto o valor gasto no passado prediz o nível de gasto futuro. No entanto, o erro relativo (RMSE%) diminuía, estabilizando-se em torno de 120% para o modelo OLS nos períodos mais longos de 6 e 12 meses.
Isso sugere que os modelos se tornam relativamente mais precisos em previsões de longo prazo, possivelmente porque as flutuações de curto prazo e a sazonalidade do comportamento individual são suavizadas ao longo de um período maior. Um experimento adicional mostrou que treinar os modelos com um subconjunto das dez variáveis mais importantes não resultou em perda significativa de desempenho, indicando que um modelo mais parcimonioso, mais fácil de implementar e manter, pode ser igualmente eficaz. A avaliação abrangente das diferentes famílias de modelos revelou que a simplicidade, robustez e interpretabilidade dos modelos lineares, especificamente o OLS, resultaram no melhor desempenho preditivo global para este contexto de varejo digital. Eles forneceram estimativas mais estáveis e com menor erro quadrático médio, superando abordagens probabilísticas e de machine learning mais complexas na tarefa principal de estimar o valor futuro.
A superioridade do OLS reforça a importância de estabelecer um baseline robusto antes de recorrer a modelos mais sofisticados e de questionar a suposição de que maior complexidade garante, por si só, melhores resultados.
A análise também destacou a utilidade dos modelos de ensemble, como LGBM e RF, não como melhores preditores gerais de valor, mas como ferramentas especialistas para tarefas específicas, como a identificação precisa de clientes propensos à inatividade, uma aplicação de alto valor para o CRM.
Conclui-se que o objetivo foi atingido
Referências:
Barbosa, A. L.; Sousa, R. M.; Ferreira, J. P. 2021. Desafios do varejo brasileiro em um ambiente competitivo. Revista Brasileira de Gestão e Negócios 23(2): 145-162.
Blattberg, R. C.; Kim, B. D.; Neslin, S. A. 2008. Database Marketing: Analyzing and Managing Customers. 2ed. Springer, New York, EUA.
Confederação Nacional do Comércio [CNC]. 2022. Varejo e o PIB brasileiro: panorama e tendências. CNC, Brasília, DF, Brasil.
Ebit|Nielsen. 2022. Webshoppers 46ª edição. Ebit|Nielsen, São Paulo, SP, Brasil.
Fader, P. 2025. The Customer Centricity Playbook: Implement a Winning Strategy Driven by Customer Lifetime Value. Wharton School Press, Philadelphia, PA, EUA.
Fader, P. S. 2020. Customer Centricity: Focus on the Right Customers for Strategic Advantage. Wharton Digital Press, Philadelphia, PA, EUA.
Fader, P. S.; Hardie, B. G. S.; Lee, K. L. 2005. Counting your customers the easy way: An alternative to the Pareto/NBD model. Marketing Science 24(2): 275-284.
KPMG. 2021. Tendências do consumo e transformação digital no varejo. KPMG Brasil, São Paulo, SP, Brasil.
Kotler, P.; Keller, K. L.; Chernev, A. 2022. Administração de Marketing. 16ed. Pearson Education, São Paulo, SP, Brasil.
Lemon, K. N.; Verhoef, P. C. 2016. Understanding customer experience throughout the customer journey. Journal of Marketing 80(6): 69-96.
Reinartz, W.; Kumar, V. 2000. On the profitability of long-life customers in a noncontractual setting: an empirical investigation and implications for marketing. Journal of Marketing 64(4): 17-35.
Schmittlein, D. C.; Morrison, D. G.; Collmar, R. 1987. Counting your customers: Who are they and what will they do next? Management Science 33(1): 1-24.
Sociedade Brasileira de Varejo e Consumo [SBVC]. 2023. O papel do varejo na economia brasileira. SBVC, São Paulo, SP, Brasil.
Steinman, D. 2016. Customer Success. Wiley, New York, EUA.
Theta. 2025. From diligence to growth: Using CLV to unlock post-acquisition value. Disponível em: https://thetaclv. com/resource/pe-value-creation/ . Acesso em: 06 set. 2025.
Theta. 2025. How accurate CLV models drive efficiency in a high-tariff environment. Disponível em: https://thetaclv. com/resource/clv-tariffs/ . Acesso em: 06 set. 2025.
Wong, A.; Garcia, A. V.; Lim, Y. 2025. A data-driven approach to customer lifetime value prediction using probability and machine learning models.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































