
04 de março de 2026
Modelos híbridos para previsão de vendas semanais de insumos para serralheria e indústria metalúrgica
Claudio Sturaro Martinez Junior; Adriano de Freitas Fernandes
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A previsão de demanda constitui um dos pilares fundamentais para a tomada de decisão em diversos setores econômicos, servindo como bússola para o planejamento estratégico e operacional. No segmento de comércio varejista, especificamente para empresas que comercializam materiais para serralheria e indústria metalúrgica, a estimativa precisa da quantidade de vendas semanais impacta diretamente a saúde financeira e a eficiência logística. A gestão de estoques nessas organizações exige um equilíbrio delicado entre a disponibilidade imediata de insumos metálicos e a minimização de capital imobilizado, uma vez que o excesso de produtos gera custos de armazenagem elevados, enquanto a falta resulta em perdas de vendas e interrupção do ritmo de produção dos clientes (Ballou, 2004). A literatura contemporânea destaca que a utilização de modelos preditivos avançados permite mitigar riscos operacionais e adaptar a empresa às flutuações inerentes ao mercado.
Modelos preditivos baseados em estatística clássica e aprendizado de máquina têm demonstrado eficácia superior na análise de séries temporais, pois conseguem capturar padrões complexos e relações não lineares que métodos tradicionais de média móvel simples ignoram. A integração de diferentes abordagens por meio de técnicas de ensemble tem sido explorada como uma forma de aumentar a robustez das previsões, aproveitando as forças individuais de cada algoritmo (Makridakis et al., 2018). Estudos recentes indicam que a combinação de modelos estatísticos, como o ARIMA, com algoritmos de aprendizado supervisionado pode reduzir significativamente o erro percentual em contextos de alta volatilidade (Montero-Manso et al., 2020). Essa hibridização é particularmente relevante para o setor de insumos industriais, onde a demanda é influenciada tanto por tendências macroeconômicas quanto por sazonalidades específicas da construção civil e da metalurgia (Chen and Liu, 2020).
Os conceitos teóricos que norteiam a análise de séries temporais baseiam-se na decomposição de dados em componentes de tendência, sazonalidade e resíduos. A tendência reflete o comportamento de longo prazo da série, indicando crescimento ou retração, enquanto a sazonalidade descreve flutuações periódicas que se repetem em intervalos regulares, como semanas ou meses (Hyndman; Athanasopoulos, 2018). Para que modelos estatísticos tradicionais funcionem adequadamente, a série deve apresentar estacionaridade, ou seja, suas propriedades estatísticas, como média e variância, devem permanecer constantes ao longo do tempo. Quando essa condição não é atendida, aplicam-se técnicas de diferenciação para estabilizar os dados. Em contrapartida, modelos de aprendizado de máquina, como redes neurais e árvores de decisão, possuem maior flexibilidade para lidar com dados não estacionários e capturar dependências temporais de longo prazo (Hochreiter; Schmidhuber, 1997).
A justificativa para a aplicação de modelos híbridos reside na complexidade do comportamento de compra no varejo de insumos. A demanda por materiais de serralheria não segue apenas um padrão linear; ela é afetada por ciclos econômicos, prazos de entrega de fornecedores e variações na atividade industrial regional. Portanto, o objetivo central desta análise consiste em desenvolver e avaliar um modelo preditivo baseado em ensemble para estimar a quantidade semanal de vendas, comparando abordagens estatísticas como SARIMAX, Auto-Arima e Prophet com modelos de aprendizado de máquina como XGBoost e redes neurais LSTM. A meta é identificar a estratégia que proporcione a maior acurácia, auxiliando a gerência na otimização do capital de giro e na mitigação de riscos decorrentes da volatilidade do mercado (Wang; Hyndman; Li; Kang, 2022).
A execução da pesquisa seguiu um rigoroso protocolo de ciência de dados, iniciando pela coleta e tratamento de informações extraídas diretamente do banco de dados de uma empresa do comércio varejista. O conjunto de dados compreende 121 observações semanais, abrangendo o período de 15 de janeiro de 2023 a 27 de abril de 2025. Cada registro representa a quantidade acumulada de vendas de insumos para serralheria e metalurgia ao final de cada semana. O processo de limpeza de dados envolveu a verificação de valores nulos, constatando-se a integridade total da base com zero valores vazios. Para garantir a consistência da série temporal, realizou-se uma análise estatística descritiva detalhada, identificando uma média semanal de 11478,89 unidades vendidas, com um desvio padrão de 1817,81, o que indica uma dispersão considerável e a presença de picos e vales na demanda.
A detecção de valores discrepantes foi conduzida por meio de métodos de distribuição estatística, utilizando Boxplot e o cálculo de Z-score. A análise revelou variações significativas, com um valor mínimo de 6430,00 e um máximo de 15164,00 unidades. Esses extremos foram mantidos na análise por representarem comportamentos reais do mercado, como semanas de alta demanda sazonal ou períodos de retração econômica. A etapa seguinte consistiu no teste de estacionaridade de Dickey-Fuller aumentado. O resultado apresentou uma estatística de teste de -2,0174 e um valor-p de 0,2790. Como o valor-p superou o nível de significância de 5%, confirmou-se que a série original não era estacionária, apresentando uma raiz unitária. Essa constatação exigiu a aplicação de diferenciação de primeira ordem para viabilizar a modelagem por meio de métodos autorregressivos integrados.
A modelagem preditiva foi estruturada em cinco frentes distintas. O modelo Auto-Arima foi configurado para ajustar automaticamente os parâmetros de autorregressão, diferenciação e média móvel, buscando minimizar o critério de informação de Akaike. O SARIMAX foi implementado para incorporar a componente sazonal identificada na análise visual da série, utilizando as funções de autocorrelação e autocorrelação parcial para definir os lags ideais. O Prophet, desenvolvido pelo Facebook, foi aplicado para decompor a série em tendência e sazonalidade aditiva, aproveitando sua capacidade de lidar com feriados e efeitos de calendário de forma flexível (Taylor; Letham, 2018). No campo do aprendizado de máquina, utilizou-se o XGBoost, um algoritmo de gradient boosting que combina múltiplas árvores de decisão para minimizar erros residuais, sendo configurado com otimização de hiperparâmetros para evitar o sobreajuste (Chen; Guestrin, 2016). Por fim, implementou-se uma rede neural LSTM, projetada especificamente para processar sequências temporais e capturar dependências de longo prazo através de suas portas de esquecimento e entrada.
O processo de validação utilizou a técnica de divisão temporal, reservando as últimas 10 semanas da série para teste e as demais para treinamento. A avaliação do desempenho foi realizada por meio de três métricas fundamentais: Erro Médio Absoluto, Raiz do Erro Quadrático Médio e Erro Percentual Absoluto Médio. O modelo de ensemble híbrido foi construído a partir de uma média ponderada das previsões individuais, onde os pesos foram atribuídos proporcionalmente ao desempenho de cada modelo na fase de validação. O XGBoost recebeu o maior peso (5), seguido pelo Prophet (4), LSTM (3), SARIMAX (2) e Auto-Arima (1). Essa estrutura de pesos visou priorizar os algoritmos que demonstraram maior capacidade de generalização e menor erro percentual durante os testes preliminares.
Os resultados obtidos revelam nuances importantes sobre o comportamento da demanda de insumos para serralheria. A análise descritiva inicial já apontava para uma série com alta variabilidade, refletida na amplitude de 8734,00 unidades entre o mínimo e o máximo registrados. A decomposição da série confirmou a presença de uma tendência de crescimento moderado ao longo de 2024, acompanhada por uma sazonalidade anual marcante, com quedas de vendas recorrentes em períodos específicos, possivelmente ligados a recessos da indústria metalúrgica. O teste de Dickey-Fuller, ao indicar a não estacionaridade, reforçou a necessidade de modelos que pudessem lidar com a evolução da média ao longo do tempo.
Na avaliação individual dos modelos, o XGBoost apresentou o desempenho mais robusto, atingindo um Erro Percentual Absoluto Médio de apenas 6,89%. Este resultado é notável, pois indica que o modelo de árvores de decisão conseguiu capturar as interações não lineares e as mudanças bruscas na demanda com precisão superior aos métodos estatísticos. O Erro Médio Absoluto do XGBoost foi de 633 unidades, o menor entre todos os testados, enquanto a Raiz do Erro Quadrático Médio ficou em 951, demonstrando que o modelo também é menos sensível a grandes desvios. A eficácia do XGBoost em séries temporais de varejo corrobora a literatura que aponta a superioridade de métodos de boosting em conjuntos de dados com características complexas e ruídos moderados (Chen; Guestrin, 2016).
O modelo Prophet apresentou o segundo melhor desempenho, com um erro percentual de 14,89% e um erro médio absoluto de 1444 unidades. Embora tenha sido superado pelo XGBoost, o Prophet demonstrou uma capacidade superior de modelar a tendência de longo prazo e a sazonalidade semanal, sendo uma ferramenta valiosa para interpretação qualitativa dos dados. A rede neural LSTM obteve um erro percentual de 15,63%. Apesar de sua arquitetura avançada, o desempenho moderado da LSTM pode ser atribuído ao tamanho da amostra; redes neurais profundas geralmente exigem volumes massivos de dados para superar algoritmos baseados em árvores. No entanto, a LSTM mostrou-se sensível a dependências temporais que os modelos estatísticos ignoraram, capturando flutuações que ocorreram após períodos de estabilidade.
Os modelos estatísticos tradicionais, Auto-Arima e SARIMAX, apresentaram os maiores erros, com 18,18% e 17,00%, respectivamente. O SARIMAX, ao incluir a componente sazonal manualmente, obteve uma leve vantagem sobre o Auto-Arima, mas ambos tiveram dificuldade em acompanhar as oscilações abruptas da série. Isso sugere que a demanda por insumos de serralheria nesta empresa específica possui um componente estocástico ou influências externas que não são totalmente explicadas apenas pelo histórico de vendas passado. A limitação desses modelos em cenários de alta volatilidade é um fenômeno documentado, especialmente quando a série apresenta quebras estruturais ou mudanças rápidas de patamar (Hyndman; Athanasopoulos, 2018).
O modelo híbrido, resultante do ensemble por média ponderada, alcançou um erro percentual de 12,30% e um erro médio absoluto de 1148 unidades. Um achado crítico desta discussão é que o ensemble, embora tenha melhorado os resultados em relação aos modelos estatísticos isolados, não conseguiu superar o desempenho individual do XGBoost. Esse fenômeno de diluição da acurácia ocorre quando o melhor modelo possui uma performance significativamente superior aos demais; ao realizar a média, os erros maiores dos modelos mais fracos acabam “puxando” a precisão para baixo. No entanto, o modelo híbrido apresentou uma variância menor nas previsões, sugerindo que a combinação de modelos pode oferecer uma maior estabilidade e segurança contra falhas catastróficas de um único algoritmo em cenários de incerteza extrema (Makridakis et al., 2018).
A implicação prática desses resultados para a gestão da empresa varejista é direta. A utilização do XGBoost como ferramenta principal de previsão permite um planejamento de compras muito mais assertivo. Com um erro médio de aproximadamente 6,89%, a diretoria comercial pode reduzir os níveis de estoque de segurança sem aumentar o risco de ruptura, liberando capital de giro que antes ficava imobilizado em materiais de baixo giro. Além disso, a capacidade do modelo de antecipar quedas na demanda permite que a empresa negocie melhores condições com fornecedores ou realize ações promocionais preventivas para escoar o estoque antes de períodos de retração.
As limitações deste estudo incluem a ausência de variáveis exógenas, como indicadores macroeconômicos (PIB, inflação do setor metalúrgico) ou dados de preços da concorrência. A inclusão desses fatores poderia enriquecer a capacidade preditiva, especialmente para os modelos SARIMAX e XGBoost, que permitem a integração de covariáveis. Outra limitação reside no horizonte de previsão; este estudo focou em previsões semanais de curto prazo. Pesquisas futuras poderiam explorar horizontes mensais ou trimestrais para auxiliar no planejamento estratégico de longo prazo, além de testar técnicas de ensemble mais sofisticadas, como o stacking, onde um segundo modelo é treinado para aprender a melhor forma de combinar as previsões dos modelos base.
A discussão dos dados reforça que a transformação digital no varejo de insumos industriais passa obrigatoriamente pela adoção de métodos analíticos avançados. A transição de uma gestão baseada em intuição para uma gestão orientada por dados permite que a organização se torne mais resiliente. A superioridade dos modelos de aprendizado de máquina neste estudo de caso evidencia que, mesmo em setores tradicionais como a metalurgia, os padrões de consumo são complexos o suficiente para exigir ferramentas de alta tecnologia. A robustez encontrada no XGBoost oferece uma base sólida para a implementação de um sistema de apoio à decisão que pode ser integrado aos processos rotineiros de compras e vendas da empresa.
Conclui-se que o objetivo foi atingido por meio do desenvolvimento e da comparação de múltiplos modelos preditivos, evidenciando que o algoritmo XGBoost superou as demais abordagens com um erro percentual médio de 6,89%, consolidando-se como a ferramenta mais eficaz para a estimativa de vendas semanais de insumos para serralheria. Embora a abordagem híbrida por ensemble tenha proporcionado uma previsão estável com erro de 12,30%, a performance superior do modelo de gradient boosting isolado indica que, para esta base de dados específica, a integração de modelos menos precisos resultou na diluição da acurácia global. O estudo demonstrou que a aplicação de técnicas de ciência de dados permite identificar padrões sazonais e tendências complexas, oferecendo subsídios concretos para a otimização da gestão de estoques e do capital de giro no setor varejista. A metodologia empregada reforça a importância da análise de estacionaridade e da escolha criteriosa de métricas de avaliação para garantir a confiabilidade das previsões em ambientes de mercado voláteis.
Referências Bibliográficas:
BALLOU, Ronald H. (2004). Business logistics/supply chain management: planning, organizing, and controlling the supply chain. 5. ed. Upper Saddle River, NJ: Prentice Hall.
CHEN, C. and LIU, H. (2020). Medium-term wind power forecasting based on multi-resolution multi-learner ensemble and adaptive model selection. Energy Conversion and Management 206: 112492.
CHEN, T., & GUESTRIN, C. (2016). XGBoost: A Scalable Tree Boosting System. In: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. KDD ’16. 785-794.
HOCHREITER, S., & SCHMIDHUBER, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735-1780.
HYNDMAN, R. J., & ATHANASOPOULOS, G. (2018). Forecasting: principles and practice. 2nd edition. OTexts.
MAKRIDAKIS, S., SPILIOTIS, E. and ASSIMAKOPOULOS, V. (2018). The M4 competition: Results, findings, conclusion and way forward. International Journal of Forecasting 34(4): 802-808.
MONTERO-MANSO, P., ATHANASOPOULOS, G., HYNDMAN, R. J. and TALAGALA, T. S. (2020). Fforma: Feature-based forecast model averaging. International Journal of Forecasting 36(1): 86-92.
TAYLOR, S. J., & LETHAM, B. (2018). Forecasting at scale. The American Statistician, 72(1), 37-45.
WANG, Xiaoqian; HYNDMAN, Rob J.; LI, Feng; KANG, Yanfei. (2022). Forecast combinations: an over 50-year review. arXiv.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em MBA em Data Science, Inteligência Artificial e Analytics
Saiba mais sobre o curso, clique aqui






































