
04 de março de 2026
Comparação de Modelos Preditivos para Vendas: LSTM e XGBoost
Cesar Ronai Freitas Da Silva; Renato Godoi Da Cruz
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O avanço vertiginoso do comércio eletrônico nos últimos anos transformou a dinâmica do varejo global, impondo desafios sem precedentes para a gestão de estoques e a precisão na previsão de demanda (Ramanathan, 2019). No cenário digital, a volatilidade do comportamento do consumidor e a sensibilidade a eventos sazonais exigem que as organizações adotem ferramentas analíticas sofisticadas para evitar tanto o excesso de mercadorias quanto a ruptura de estoque. Previsões imprecisas resultam em custos operacionais elevados, obsolescência de produtos e, fundamentalmente, na insatisfação do cliente final, o que compromete a competitividade da empresa (Chopra e Meindl, 2016). Diante dessa complexidade, o uso de algoritmos de aprendizado de máquina tem se consolidado como uma alternativa superior aos métodos estatísticos tradicionais, permitindo a captura de padrões não lineares e dependências temporais complexas que caracterizam as séries de vendas modernas (Wang et al., 2019).
A literatura técnica destaca que a integração de modelos de inteligência artificial na cadeia de suprimentos pode mitigar riscos financeiros e elevar a eficiência do planejamento de compras (Zhang, 2020). Entre as técnicas de maior destaque, o Extreme Gradient Boosting, conhecido como XGBoost, sobressai pela eficiência no processamento de dados estruturados e pela capacidade de lidar com variáveis exógenas por meio de uma estrutura de árvores de decisão impulsionadas por gradiente (Chen e Guestrin, 2016). Estudos anteriores demonstram que o XGBoost apresenta ganhos notáveis de acurácia em plataformas de e-commerce ao ser alimentado com janelas deslizantes e variáveis derivadas da série temporal (Silva, 2022). Paralelamente, as Redes Neurais Recorrentes, especificamente a arquitetura Long Short-Term Memory, ganharam relevância por sua habilidade intrínseca em processar sequências de dados e reter informações de longo prazo, sendo particularmente eficazes em cenários de alta variabilidade e sazonalidade acentuada, como períodos de promoções agressivas (Hochreiter e Schmidhuber, 1997; Oliveira, 2021).
Apesar da popularidade de ambas as abordagens, a escolha entre um modelo baseado em árvores e um modelo sequencial profundo nem sempre é trivial, exigindo uma comparação rigorosa sob condições idênticas de dados e métricas de avaliação (Fernandes et al., 2020). A necessidade de validação estatística dos resultados é frequentemente negligenciada, embora seja essencial para garantir que as diferenças de desempenho não sejam fruto do acaso (Martins, 2023). O objetivo central da análise realizada consiste em comparar o desempenho preditivo dos modelos LSTM e XGBoost na previsão diária de vendas de uma plataforma de comércio eletrônico brasileira, utilizando métricas de erro consolidadas e testes de hipóteses para aferir a significância das discrepâncias encontradas.
O delineamento metodológico da pesquisa estruturou-se em quatro etapas fundamentais: coleta e tratamento de dados, engenharia de atributos, modelagem computacional e avaliação estatística. Todo o processamento foi conduzido no ambiente Google Colab utilizando a linguagem Python, com o suporte das bibliotecas pandas, numpy, scikit-learn, xgboost e tensorflow. O conjunto de dados utilizado é proveniente da Olist, uma plataforma que conecta lojistas a mercados digitais no Brasil, abrangendo um volume total de 99 mil registros de transações ocorridas entre os meses de setembro de 2016 e outubro de 2018. A variável-alvo foi definida como a contagem diária de pedidos efetivamente entregues, o que exigiu um processo inicial de filtragem pelo status da transação e o agrupamento dos dados pela data de compra.
Para garantir a continuidade da série temporal, as lacunas correspondentes a dias sem vendas foram preenchidas com o valor zero, preservando a frequência diária exigida pelos modelos sequenciais (Hyndman e Athanasopoulos, 2018). Essa estratégia de imputação é recomendada para manter a integridade da estrutura temporal e evitar distorções na captura de sazonalidades semanais (Little e Rubin, 2019). Após o tratamento inicial, a série resultante totalizou 764 registros diários. Na etapa de engenharia de atributos para o modelo XGBoost, foram criadas 34 variáveis preditoras, incluindo 30 defasagens da própria série (lags), indicadores de dia da semana, mês, sinalização de finais de semana e uma média móvel de sete dias para suavizar ruídos de curto prazo.
O modelo LSTM exigiu um pré-processamento diferenciado, focado na normalização dos dados no intervalo entre zero e um por meio do método Min-Max. Essa técnica é indispensável para acelerar a convergência do gradiente descendente e evitar que variáveis em escalas distintas prejudiquem o aprendizado da rede neural (Géron, 2019). A arquitetura da LSTM foi configurada com uma camada oculta contendo 100 unidades de processamento, seguida por uma camada de desativação aleatória (dropout) com taxa de 30% para mitigar o risco de sobreajuste aos dados de treino. A camada de saída foi definida como linear para a tarefa de regressão, e o treinamento utilizou o otimizador Adam com uma taxa de aprendizado de 0,0005, monitorando o erro quadrático médio como função de perda (Kingma e Ba, 2014).
A avaliação dos modelos foi realizada em um conjunto de teste reservado contendo os últimos 21 dias da série, o que representa aproximadamente três ciclos semanais completos. Esse horizonte é compatível com as necessidades de planejamento operacional de curto prazo no varejo (Ferreira et al., 2016). As métricas utilizadas para aferir a precisão foram o Erro Médio Absoluto, a Raiz do Erro Quadrático Médio e o Erro Percentual Absoluto Médio. Devido à presença de valores nulos na demanda real em certos dias, o cálculo do MAPE foi restrito aos instantes em que a demanda era superior a zero, evitando indeterminações matemáticas (Hyndman e Koehler, 2006). Para conferir robustez à comparação, aplicou-se o teste de Diebold-Mariano, que permite verificar se a diferença entre os erros de previsão dos dois modelos é estatisticamente significativa (Diebold e Mariano, 1995).
A análise estatística descritiva da série temporal revelou uma média de 135 pedidos diários, com uma mediana de 130 unidades. O desvio padrão de 99 unidades e o valor máximo de 1.147 pedidos indicam uma distribuição com assimetria positiva e a presença de valores extremos significativos, geralmente associados a datas promocionais como a Black Friday (James et al., 2021). A identificação dessas características reforçou a necessidade de modelos robustos a outliers, uma vez que picos de demanda podem distorcer as previsões se não forem devidamente tratados ou capturados pelas variáveis sazonais (Han et al., 2012).
Os resultados obtidos pelo modelo LSTM no conjunto de teste apresentaram um MAE de 62,00 e um RMSE de 69,80, enquanto o MAPE atingiu o patamar elevado de 92,85%. A observação das previsões geradas pela rede neural indicou uma tendência persistente de superestimação da demanda, especialmente nos períodos em que o volume real de vendas apresentava quedas acentuadas. Essa limitação pode ser atribuída ao histórico de dados relativamente limitado para uma arquitetura de aprendizado profundo, que dispõe de pouco contexto para captar mudanças de regime ou ciclos de longuíssimo prazo (Brownlee, 2018). Além disso, a ausência de variáveis exógenas como preços e investimentos em marketing impediu que a LSTM capturasse gatilhos externos de demanda, forçando-a a depender exclusivamente dos padrões internos da série (Ferreira et al., 2016).
Em contrapartida, o modelo XGBoost demonstrou um desempenho substancialmente superior em todas as métricas avaliadas. O MAE registrado foi de 32,60, o RMSE situou-se em 43,75 e o MAPE foi reduzido para 21,95%. A superioridade do XGBoost decorre de sua insensibilidade à escala dos dados, o que dispensou a normalização e evitou distorções causadas pelos valores extremos presentes na série (Chen e Guestrin, 2016). Ao utilizar a estrutura de árvores de decisão, o algoritmo conseguiu capturar interações não lineares entre as variáveis sazonais e as defasagens temporais de forma mais eficaz do que a estrutura sequencial da LSTM no cenário de dados tabulares. O ajuste dos hiperparâmetros por meio de validação cruzada temporal, definindo 300 estimadores e profundidade máxima de seis níveis, permitiu que o modelo alcançasse um equilíbrio entre viés e variância (Bergmeir et al., 2012).
A aplicação do teste de Diebold-Mariano confirmou a relevância estatística da superioridade do XGBoost. A estatística do teste resultou em 3,8391 com um p-valor de 0,0010, o que permite rejeitar a hipótese nula de igualdade de desempenho ao nível de significância de 5%. O sinal positivo da estatística evidencia que os erros absolutos da LSTM foram significativamente maiores do que os do XGBoost no horizonte de 21 dias analisado. Esse resultado corrobora a visão de que, para séries temporais com volume moderado de dados e alta volatilidade, modelos baseados em boosting de árvores tendem a ser mais estáveis e precisos do que redes neurais profundas (Martins, 2023).
A análise dos resíduos forneceu insights adicionais sobre a qualidade dos ajustes. Os erros do XGBoost apresentaram-se mais concentrados em torno de zero e com menor variabilidade, conforme demonstrado pelos histogramas de frequência. Já os resíduos da LSTM exibiram uma assimetria negativa e maior dispersão, confirmando o viés de superestimação identificado anteriormente. Nos testes de normalidade de Shapiro-Wilk e Jarque-Bera, ambos os modelos apresentaram p-valores superiores a 0,05, indicando que os resíduos seguem uma distribuição aproximadamente normal, o que valida o uso de métricas como o RMSE para a comparação (Gujarati, 2011). No entanto, o teste de Ljung-Box revelou a presença de autocorrelação residual significativa até a décima defasagem para ambos os algoritmos, sugerindo que parte da estrutura informativa da série ainda não foi totalmente capturada, possivelmente devido à falta de variáveis sazonais mais granulares (Ljung e Box, 1978).
O teste de Breusch-Pagan diferenciou as abordagens quanto à homocedasticidade. Enquanto o XGBoost manteve uma variância de erro constante (p-valor de 0,0671), a LSTM apresentou evidências de heterocedasticidade (p-valor de 0,0198), indicando que a incerteza de suas previsões oscila ao longo do tempo. Essa instabilidade na variância dos erros torna a LSTM menos confiável para a definição de estoques de segurança, uma vez que a margem de erro não é uniforme em diferentes janelas temporais (Cerqueira et al., 2020). A capacidade do XGBoost em manter a estabilidade dos resíduos reforça sua aplicabilidade em sistemas de decisão automatizados no comércio eletrônico.
A discussão dos resultados aponta que a escolha do modelo preditivo deve considerar não apenas a acurácia bruta, mas também a robustez estatística e a facilidade de implementação. O XGBoost mostrou-se uma ferramenta mais resiliente a ruídos e capaz de operar com alta precisão mesmo sem a inclusão de variáveis exógenas complexas. A inclusão de indicadores explícitos de dia da semana e médias móveis permitiu que o modelo compensasse a falta de uma estrutura sequencial nativa, superando a LSTM que, apesar de sua sofisticação teórica, sofreu com a escassez de dados e a sensibilidade à normalização (Chopra e Meindl, 2016). A análise sugere que a LSTM poderia tornar-se competitiva em cenários com séries temporais muito mais longas ou quando integrada a variáveis de preço e promoções que expliquem as variações abruptas de demanda.
As limitações do estudo presente residem na utilização de uma série univariada para a LSTM e na ausência de otimização de arquitetura via busca bayesiana, o que poderia refinar o desempenho da rede neural. No entanto, a comparação sob condições de mercado reais e o uso de dados públicos conferem validade externa aos achados, servindo como guia para gestores de e-commerce na seleção de tecnologias de previsão. A recomendação para pesquisas futuras envolve a exploração de modelos híbridos que combinem a extração de características sequenciais das redes neurais com a capacidade de decisão robusta dos algoritmos de boosting, buscando o melhor de ambos os paradigmas (Zhang, 2020).
Conclui-se que o objetivo foi atingido, demonstrando que o modelo XGBoost superou a rede neural LSTM na previsão de vendas diárias para o conjunto de dados analisado. A superioridade foi evidenciada tanto pelas métricas de erro quanto pela validação estatística do teste de Diebold-Mariano, que confirmou a significância da diferença de desempenho. O XGBoost apresentou maior estabilidade, menor viés de superestimação e resíduos com propriedades estatísticas mais adequadas, consolidando-se como a alternativa mais eficaz para o planejamento de demanda em cenários de alta volatilidade no comércio eletrônico.
Referências Bibliográficas:
Nenhuma referência bibliográfica identificada após múltiplas tentativas
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em MBA em Data Science, Inteligência Artificial e Analytics
Saiba mais sobre o curso, clique aqui






































