09 de abril de 2026
Previsão de Demanda de Diesel B2B no Brasil com ARIMA e LSTM
Giovanni Santos Ricciardi; Patrícia Belfiore Fávero
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O estudo de previsão de mercado e demanda representa uma frente crucial para as organizações nas tomadas de decisão de curto, médio e longo prazo, fundamentando o planejamento estratégico corporativo. O planejamento estratégico define a direção que a companhia deve seguir, abrangendo investimentos em novos mercados, resultados financeiros esperados, tendências de faturamento e a participação almejada em segmentos específicos. Indicadores de desempenho como o lucro antes de juros, impostos, depreciação e amortização, além do retorno sobre o capital investido, são métricas essenciais que dependem diretamente da precisão das projeções de mercado. Nesse cenário, a capacidade de antecipar a demanda atua como um diferencial competitivo indispensável, permitindo que o processo de planejamento futuro seja robusto e fundamentado em evidências empíricas (Santos e Hoegen, 2022).
O resultado de um estudo de mercado detalhado demonstra onde a organização deve concentrar esforços, identificando se o setor atravessa períodos de expansão, retração ou estabilidade. O desdobramento dessas análises determina a participação de mercado, indicando o patamar atual e o potencial de crescimento. Se uma empresa detém uma posição dominante, a estratégia pode ser voltada para a busca de novos nichos, enquanto em mercados pulverizados, o foco reside na captura de fatias maiores da demanda existente. A literatura acadêmica sobre modelos de previsão é vasta, destacando-se o uso do modelo de média móvel integrada autorregressiva, conhecido pela sigla em inglês ARIMA. Este modelo estatístico combina ferramentas autorregressivas, diferenciação e média móvel para modelar séries temporais com base em valores pretéritos (Box e Jenkins, 1976).
Pesquisas práticas demonstram a eficácia do ARIMA em diversos contextos. Em estudos sobre demanda de calor em sistemas de aquecimento, observou-se que, embora modelos de regressão linear múltipla sejam viáveis em cenários simples, o uso de variações sazonais do ARIMA apresenta maior eficácia em dados complexos (Fang e Lahdelma, 2016). Outras abordagens buscam aprimorar o ARIMA com a adição de métodos não lineares para capturar variações e tendências que a simples linearidade não consegue processar, o que é vital em cenários dinâmicos (Voitcu e Wong, 2006). Com o avanço tecnológico, o aprendizado de máquina permitiu que computadores aprendessem com dados e experiências sem serem explicitamente programados para cada tarefa, evoluindo conforme o recebimento de novos dados.
Dentro do espectro do aprendizado de máquina, as redes neurais artificiais buscam convergir modelos computacionais com o funcionamento dos neurônios biológicos, operando em camadas onde sinais numéricos são identificados em padrões e repassados para camadas subsequentes. Existem modelos supervisionados e não supervisionados, sendo que os supervisionados buscam prever valores a partir de um histórico de entrada e saída fornecido pelo analista. O método de memória de longo prazo, conhecido como LSTM, consiste em uma rede neural com portões de entrada, esquecimento e saída, permitindo lidar com tendências não lineares e oferecendo robustez superior aos modelos tradicionais em séries temporais complexas (Hochreiter e Schmidhuber, 1997).
Comparações entre o ARIMA e o LSTM em séries financeiras indicam que o primeiro é eficiente em padrões lineares e sazonais, mas apresenta limitações em dados de alta complexidade, onde o LSTM demonstra desempenho superior (Siami-Namini, Tavakoli e Namin, 2018). Em análises sobre o mercado de criptoativos, o ARIMA mostrou-se assertivo em tendências de alta, mas o erro aumentava significativamente quando a tendência mudava bruscamente, momento em que o LSTM se provava mais resiliente (Kontopoulou e Athanasopoulos, 2013). No setor de energia, especificamente na produção de óleo, ambos os modelos apresentam assertividade similar devido à baixa oscilação e sazonalidade dos dados. Contudo, em contextos de saúde pública, como na previsão de casos de doenças infecciosas, modelos de aprendizado profundo tendem a ser mais precisos, exceto em países onde os dados mantêm uma linearidade estrita.
No contexto do mercado de diesel no Brasil, especificamente no segmento de vendas para outras empresas, observa-se que os dados históricos seguem uma tendência predominantemente altista e linear. Tal característica sugere que o modelo ARIMA pode ser assertivo, mas a inclusão do método LSTM é justificada pela necessidade de capturar possíveis mudanças estruturais futuras, como a transição para combustíveis não fósseis e novas políticas de incentivo governamental. O objetivo central reside em realizar a previsão de demanda utilizando ambas as ferramentas, comparando o erro percentual absoluto médio, buscando um índice inferior a 10%.
A metodologia adotada fundamenta-se na pesquisa quantitativa para a criação de modelos preditivos. O processo operacional inicia-se com a coleta de dados públicos de fontes como a Agência Nacional do Petróleo, Gás Natural e Biocombustíveis e o Instituto de Pesquisa Econômica Aplicada. As variáveis selecionadas para análise incluem o volume de vendas de diesel, preços do combustível, tamanho da frota de caminhões e ônibus, além do Produto Interno Bruto total e segmentado por agropecuária, indústria e indústria extrativa. Todas as variáveis possuem granularidade nacional e periodicidade anual ou mensal, sendo tratadas como variáveis contínuas para fins estatísticos.
O pré-processamento dos dados é uma etapa crítica que envolve o tratamento de valores ausentes e a transformação de dados anuais em mensais por meio da replicação de valores ao longo de 12 meses. A avaliação da granularidade comum permite definir a frequência mais adequada para o modelo. Para aprimorar a performance, estabeleceram-se premissas baseadas no comportamento da série histórica entre 2012 e 2019, período em que as variáveis explicativas demonstraram maior poder de aderência à variação do volume de diesel vendido. A análise de correlação revelou que, no período pré-pandemia, o Produto Interno Bruto do Brasil apresentava uma correlação positiva de 0,81 com o volume de diesel, enquanto o preço do diesel mostrava uma correlação negativa de 0,86.
A estrutura do método LSTM é detalhada pela sua capacidade de armazenar informações em células de memória controladas por portões. O portão de entrada regula a quantidade de novas informações adicionadas à célula, enquanto o portão de esquecimento determina quais dados pretéritos devem ser descartados. O portão de saída atua como um filtro para as informações que serão efetivamente utilizadas na previsão. O funcionamento envolve uma entrada de dados influenciada pelo estado do neurônio anterior, aplicando funções de ativação e sigmoides. Se o resultado da função sigmoide for próximo de um, o modelo retém a informação para os neurônios subsequentes. A memória de longo prazo é gerada a partir da combinação dos dados históricos, parâmetros filtrados e a relevância calculada pelo neurônio.
Neste estudo, o modelo LSTM foi configurado com uma porta de entrada considerando três anos anteriores das sete variáveis explicativas mencionadas. A camada escondida foi composta por 64 neurônios, responsáveis por capturar os padrões temporais e as relações complexas entre as variáveis. O neurônio de saída fornece a previsão do volume em metros cúbicos. O treinamento do modelo utilizou 100 épocas, representando o número de vezes que o algoritmo percorreu todo o conjunto de dados de treino, com um tamanho de lote igual a dois, definindo a quantidade de amostras processadas antes da atualização dos pesos internos da rede neural.
O segundo modelo, o ARIMA, estrutura-se na combinação de três componentes estatísticos. O componente autorregressivo estabelece a relação entre o valor atual e os valores passados, criando a tendência. O componente integrado remove padrões de sazonalidade e tendências para ajustar o modelo aos dados reais, eliminando ruídos. A média móvel considera o impacto dos erros de previsão de períodos anteriores. A equação do modelo busca equilibrar esses fatores para prever o valor da série no tempo futuro. Para avaliar a acuracidade, utiliza-se o erro percentual absoluto médio, que apura o desvio percentual absoluto de cada previsão em relação ao valor realizado, fornecendo um indicador que não é distorcido por variações positivas ou negativas isoladas.
A aplicação da ferramenta LSTM aos dados resultou em um erro médio de 0% no período anterior à crise sanitária global e um erro médio de 7% na projeção realizada para o intervalo entre 2020 e 2024. O modelo demonstrou alta aderência à curva histórica em períodos próximos, embora não tenha refletido totalmente a inclinação de crescimento acentuado observada a partir de 2022. Os hiperparâmetros definidos permitiram que a rede capturasse as relações entre o Produto Interno Bruto, a frota de veículos e os preços, mantendo a estabilidade das previsões mesmo diante de flutuações moderadas nas variáveis de entrada.
Paralelamente, o modelo ARIMA apresentou um erro médio de 2,6% no período pré-pandemia e de 7,3% na projeção de 2020 a 2024. A ordem do modelo foi definida como (1, 0, 1), sem identificação de tendência sazonal no ajuste. Os critérios de informação de Akaike e o critério de informação bayesiano foram de 248,38 e 248,62, respectivamente. Assim como o LSTM, o ARIMA mostrou-se aderente à trajetória histórica de maneira móvel, mas falhou em prever movimentos abruptos, como a queda acentuada ocorrida em 2015 e o crescimento acelerado pós-2022. A análise comparativa indica que ambos os modelos possuem níveis de erro similares, com o LSTM sendo ligeiramente mais preciso no início da série histórica.
Ao analisar os dados anuais, observa-se que em 2012 o volume real foi de 17.170.915 m³. Em 2013, o volume subiu para 17.632.620 m³, enquanto o ARIMA previu 17.151.701 m³, resultando em um erro de 2,80%. Em 2014, o volume atingiu 17.895.653 m³ e a previsão do ARIMA foi de 17.833.552 m³, um erro de apenas 0,35%. Contudo, em 2015, o volume real caiu para 16.509.076 m³, mas o ARIMA previu 17.896.967 m³, gerando um erro negativo de 7,75%. Este desvio significativo em 2015 é explicado pelo cenário de recessão econômica no Brasil, onde o Produto Interno Bruto registrou uma queda de 3,5%. Esse declínio foi impulsionado pela desvalorização das commodities minerais e da soja no mercado internacional, pela desaceleração da economia chinesa e pela crise política interna associada a investigações de corrupção em larga escala.
Entre 2016 e 2019, o modelo LSTM apresentou erros extremamente baixos, variando entre 0,00% e 0,01%. Em 2016, o volume real foi de 14.949.724 m³ e a previsão foi de 14.949.281 m³. Em 2019, o volume real de 15.187.857 m³ foi quase perfeitamente acompanhado pela previsão de 15.188.625 m³. No entanto, o ano de 2020 trouxe um novo desafio com a pandemia, resultando em um volume real de 14.191.237 m³, enquanto os modelos previram valores acima de 15.200.000 m³, gerando erros na casa de 7,22% para o LSTM e 7,77% para o ARIMA. A partir de 2021, a demanda iniciou uma recuperação, atingindo 15.560.135 m³, com os modelos mantendo previsões próximas a 15.300.000 m³, resultando em erros reduzidos de aproximadamente 1,4%.
O desvio mais acentuado observado de 2022 em diante, onde o volume real saltou para 16.146.197 m³ e chegou a 17.117.396 m³ em 2024, pode ser explicado pela demanda represada durante os anos de isolamento social. A rápida retomada da atividade econômica, impulsionada pelo avanço da vacinação, fez com que o consumidor recuperasse a confiança. Esse fenômeno é evidenciado pelo Índice de Confiança do Consumidor, que mede a percepção da população sobre a situação econômica. Em 2018, este índice estava em 93,8 pontos, caindo para o nível histórico de 58,2 pontos em 2020. Em 2021, subiu para 76,2 e, em 2022, atingiu 89,0 pontos. Essa melhora na percepção do consumidor ajuda a explicar a retomada mais acentuada no volume de diesel, que superou as projeções baseadas apenas em variáveis macroeconômicas tradicionais.
A comparação dos resultados obtidos com estudos internacionais, como os realizados pela Universidade de Oxford, reforça a validade dos modelos aplicados. Enquanto o estudo de referência apresentava um erro percentual absoluto médio de 10%, este trabalho alcançou um índice de 7% para o período de 2021 a 2024. Isso demonstra que tanto o ARIMA quanto o LSTM são ferramentas robustas para a previsão de demanda de combustíveis no Brasil, desde que as premissas de treinamento considerem períodos de relativa estabilidade econômica. A incapacidade dos modelos em prever o ângulo exato da reta de crescimento a partir de 2022 sugere que variáveis sociais e de comportamento de consumo, como o índice de confiança, possuem um impacto relevante que nem sempre é capturado por modelos puramente matemáticos ou baseados em frotas e Produto Interno Bruto.
As limitações identificadas residem na sensibilidade dos modelos a choques externos não previstos na série histórica, como crises políticas agudas ou pandemias globais. Para pesquisas futuras, recomenda-se a inclusão de variáveis de sentimento de mercado e indicadores de mobilidade urbana em tempo real, o que poderia reduzir o erro em anos de transição econômica. Além disso, a exploração de modelos híbridos que combinem a decomposição sazonal do ARIMA com a capacidade de aprendizado não linear do LSTM pode oferecer resultados ainda mais precisos para o mercado brasileiro de combustíveis. A análise detalhada das correlações mostrou que variáveis como o Produto Interno Bruto da agropecuária e da indústria extrativa possuem comportamentos distintos que influenciam a demanda de diesel de forma heterogênea ao longo das regiões do país.
A discussão dos resultados revela que a demanda por diesel no segmento de vendas entre empresas é um termômetro fiel da atividade econômica nacional. A queda de 2015 e a recuperação de 2022 mostram que o consumo de combustível está intrinsecamente ligado à saúde financeira das indústrias e do setor de transportes. O fato de o erro ter se mantido abaixo do limite estabelecido de 10% valida a escolha das variáveis explicativas e o rigor no tratamento dos dados. A consistência entre os dois modelos, apesar de suas arquiteturas distintas, sugere que a tendência linear da demanda de diesel no Brasil é um fator estrutural forte, que prevalece sobre oscilações de curto prazo, exceto em situações de ruptura total da normalidade econômica.
Conclui-se que o objetivo foi atingido, uma vez que a previsão de demanda para a venda de diesel no segmento de vendas entre empresas no Brasil foi realizada com sucesso utilizando os modelos de memória de longo prazo e de média móvel integrada autorregressiva. Ambos os modelos apresentaram desempenho satisfatório e equivalente, resultando em um erro percentual absoluto médio de 7% para o período projetado de 2020 a 2024, valor este que se situa abaixo da meta inicial de 10% estabelecida como parâmetro de sucesso. A análise demonstrou que, embora fatores externos extraordinários como a recessão de 2015 e a pandemia de 2020 tenham causado desvios temporários, as ferramentas utilizadas mostraram-se resilientes e capazes de fornecer estimativas confiáveis para o planejamento estratégico das organizações do setor de combustíveis.
Referências Bibliográficas:
Box, G.E.P.; Jenkins, G.M. 1976. Time Series Analysis: Forecasting and Control. Holden-Day, São Francisco, EUA
Fang e Lahdelma, 2016 [Referência completa não encontrada no documento original]
Hochreiter, S.; Schmidhuber, J. 1997. Long short-term memory. Neural Computation 9(8): 1735-1780.
Santos, R.C. dos; Hoegen, C. 2022. A importância do planejamento estratégico nas empresas. Revista Científica Multidisciplinar Núcleo do Conhecimento 07(12): 142-156..
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:




























