
19 de fevereiro de 2026
Análise comparativa entre ARIMA e LSTM na previsão do Índice IBOVESPA
Renan Guilhem da Silva; José Erasmo Silva
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Esta pesquisa compara o desempenho dos modelos Autoregressive Integrated Moving Average (ARIMA) e Long Short-Term Memory (LSTM) na previsão do preço de fechamento diário do índice IBOVESPA, abrangendo o período de janeiro de 2018 a dezembro de 2024. O estudo busca determinar qual modelo, um representando a abordagem estatística clássica e o outro uma técnica de aprendizado profundo, oferece maior precisão para modelar uma série temporal financeira volátil como o principal indicador do mercado de ações brasileiro. Adicionalmente, um modelo ingênuo (Naive) é implementado como linha de base para contextualizar o ganho de performance dos modelos mais sofisticados e avaliar sua eficácia prática.
O mercado de capitais brasileiro está em expansão, com projeções de crescimento no volume de investimentos e no número de investidores (ANBIMA, 2025). Nesse cenário, a capacidade de prever os movimentos de preços de ativos é um diferencial estratégico. Ferramentas de previsão auxiliam investidores e gestores na tomada de decisões e na avaliação de riscos. Embora a análise técnica tradicional seja amplamente utilizada, os avanços em modelagem estatística e aprendizado de máquina, com destaque para redes neurais artificiais, abriram novas fronteiras para previsões mais precisas (Kobiela et al., 2022).
A escolha dos modelos ARIMA e LSTM reflete duas filosofias distintas de modelagem. O ARIMA é um modelo linear que explica valores futuros como uma função linear de observações passadas e erros de previsão, destacando-se pela interpretabilidade e eficiência em capturar estruturas autocorrelativas em séries estacionárias (Ho et al., 2021). Por outro lado, o LSTM é uma rede neural recorrente projetada para aprender dependências de longo prazo, capaz de modelar relações não lineares complexas. Sua arquitetura com portões de memória permite que a rede retenha informações por longos períodos, tornando-a teoricamente adequada para mercados financeiros voláteis (Sunki et al., 2024).
A literatura científica apresenta resultados divergentes sobre a superioridade de um modelo sobre o outro. Estudos como o de Xiao et al. (2022) com ações do mercado americano e o de Ho et al. (2021) com o índice da bolsa da Malásia demonstraram maior precisão do LSTM, especialmente para ativos de alta volatilidade. Contudo, outras pesquisas, como as de Kobiela et al. (2022) e Kirelli (2024), indicaram que o ARIMA pode ser mais consistente ou superior em determinados contextos, como previsões de curto prazo. Essa variabilidade sugere que a eficácia de cada modelo depende do ativo, do mercado e do período analisado.
Apesar dos estudos internacionais, existe uma lacuna na literatura referente a uma comparação direta entre ARIMA e LSTM aplicada ao IBOVESPA com dados recentes, que englobam períodos de instabilidade como a crise sanitária de 2020. Este trabalho visa preencher essa lacuna, fornecendo uma análise empírica que compara as métricas de erro dos modelos e discute suas implicações práticas para o mercado brasileiro. A investigação contribui ao oferecer evidências sobre a aplicabilidade e as limitações de abordagens clássicas e de aprendizado profundo no contexto específico da principal referência da bolsa de valores do Brasil.
Para o estudo, foram utilizados dados históricos diários do IBOVESPA (ticker “IBOV”), coletados via biblioteca yfinance, de 1º de janeiro de 2018 a 31 de dezembro de 2024. Após a remoção de dias sem pregão, a amostra final totalizou 1.737 observações. O IBOVESPA, como principal indicador da B3, representa uma carteira teórica dos ativos mais líquidos do mercado brasileiro e reflete as expectativas econômicas gerais. Apenas a coluna de preço de fechamento (“Close”) foi selecionada como variável-alvo. O conjunto de dados foi dividido cronologicamente em 80% para treinamento e 20% para teste. Para o modelo LSTM, foi aplicada uma normalização Min-Max, reescalando os dados para o intervalo [0, 1] para melhorar a estabilidade do treinamento. Os dados para o modelo ARIMA foram mantidos em sua escala original.
A implementação do modelo ARIMA seguiu uma metodologia para identificar seus parâmetros: ordem autorregressiva (p), grau de diferenciação (d) e ordem da média móvel (q). O Teste Aumentado de Dickey-Fuller (ADF) confirmou que a série era não estacionária, indicando a necessidade de diferenciação (d=1). Em seguida, a função auto_arima foi utilizada para determinar as ordens p e q ótimas, selecionando a combinação que minimiza critérios de informação como o AIC e o BIC. Este processo resultou na seleção do modelo ARIMA(2,1,1). A adequação do modelo foi validada pela análise das funções de autocorrelação (ACF) e autocorrelação parcial (PACF) dos resíduos (Ho et al., 2021).
A análise exploratória dos dados revelou a natureza dinâmica do IBOVESPA no período. A série temporal de 2018 a 2024 mostrou uma tendência geral de alta, interrompida por períodos de instabilidade, com destaque para a queda abrupta no início de 2020 devido à pandemia de COVID-19. As estatísticas descritivas confirmaram a alta variabilidade, com um desvio padrão de 15.881,79 pontos e uma faixa entre o valor mínimo de 63.570 e o máximo de 137.344 pontos. A média do período foi de 107.209,31 pontos.
A decomposição temporal da série isolou os componentes de tendência, sazonalidade e resíduo. O componente de tendência confirmou o movimento de valorização de longo prazo do mercado, enquanto o componente de sazonalidade revelou padrões cíclicos anuais, sugerindo a influência de fatores sistemáticos. O componente de resíduo, que representa a parte não explicada da série, comportou-se majoritariamente como um ruído branco, flutuando em torno de zero. No entanto, um pico negativo extremo foi observado em 2020, correspondendo ao início da pandemia. Este resíduo massivo destaca o evento como um choque exógeno e imprevisível, que modelos baseados em dados históricos têm dificuldade em antecipar.
Os resultados da aplicação do modelo ARIMA(2,1,1) no conjunto de teste demonstraram uma capacidade notável de acompanhar a trajetória dos preços do IBOVESPA. Em termos quantitativos, o modelo alcançou um MAE de 844,00, um RMSE de 1071,40, um MAPE de 0,67% e um MSE de 1.147.903,77. A análise diagnóstica dos resíduos do modelo ARIMA reforçou sua adequação. O gráfico de resíduos não apresentou padrões discerníveis, e as funções de autocorrelação (ACF) e autocorrelação parcial (PACF) dos resíduos não mostraram picos significativos, confirmando que se assemelham a um ruído branco e que o modelo extraiu a informação autocorrelativa dos dados.
O modelo LSTM também conseguiu seguir a tendência geral da série, mas com uma precisão inferior à do ARIMA. As métricas de erro para o LSTM foram consistentemente mais altas: o MAE foi de 1176,55, o RMSE atingiu 1486,17, o MAPE foi de 0,94% e o MSE foi de 2.208.713,96. Embora um erro percentual abaixo de 1% seja considerado bom, ele é significativamente maior que o do modelo ARIMA. A análise dos resíduos do LSTM também indicou um bom ajuste, com comportamento semelhante a ruído branco. No entanto, o desempenho quantitativo inferior sugere que, para este conjunto de dados, a complexidade adicional do LSTM não se traduziu em maior precisão.
A comparação final, incluindo o modelo Naive como linha de base, trouxe o resultado mais contundente. O modelo Naive obteve um MAE de 844,30, um RMSE de 1070,14, um MAPE de 0,67% e um MSE de 1.145.189,21. Surpreendentemente, o desempenho do modelo Naive foi praticamente idêntico ao do ARIMA e superior ao do LSTM em todas as métricas. O ARIMA apresentou um MAE marginalmente melhor, enquanto o Naive foi ligeiramente superior em RMSE e MSE. Este achado sugere que, para a previsão de um dia à frente do IBOVESPA, a informação mais relevante está contida no preço do dia anterior, e a série pode exibir características de um passeio aleatório (random walk) no curto prazo.
A discussão destes resultados à luz da literatura revela um panorama complexo. O desempenho superior do ARIMA em relação ao LSTM neste estudo alinha-se com as conclusões de Kobiela et al. (2022) e Sunki et al. (2024), mas contrasta com os de Xiao et al. (2022) e Ho et al. (2021); o LSTM se destacou. Essa divergência pode ser atribuída a múltiplos fatores, como as características intrínsecas dos mercados, a natureza do ativo (um índice de mercado versus ações individuais) e os hiperparâmetros utilizados em cada estudo. A conclusão é que não existe um modelo universalmente superior; a escolha ideal depende do contexto específico da aplicação.
Em síntese, a análise comparativa entre os modelos ARIMA, LSTM e Naive para a previsão do IBOVESPA revelou que, para o período de 2018 a 2024, a complexidade não se traduziu em melhor performance. O modelo Naive estabeleceu uma linha de base de desempenho extremamente competitiva. O modelo ARIMA apresentou um desempenho praticamente idêntico ao Naive, posicionando-se como a alternativa sofisticada mais viável para previsões de curto prazo neste cenário. O modelo LSTM, apesar de seu potencial teórico, apresentou o desempenho mais fraco. As implicações práticas sugerem que, para previsões de curtíssimo prazo do IBOVESPA, modelos complexos podem não justificar seu custo computacional em comparação com abordagens mais simples como o ARIMA. No entanto, o potencial do LSTM não deve ser descartado. Investigações futuras poderiam explorar seu desempenho em horizontes de previsão mais longos ou com a incorporação de variáveis exógenas, como indicadores macroeconômicos ou análise de sentimento. Conclui-se que o objetivo foi atingido: demonstrou-se que, para a previsão de curto prazo do preço de fechamento do IBOVESPA no período analisado, o modelo ARIMA apresentou um desempenho superior ao modelo LSTM, embora não tenha superado significativamente um modelo de base ingênuo.
Referências:
Associação Brasileira das Entidades dos Mercados Financeiro e de Capitais [ANBIMA]. 2025. Brasil pode ter 18 milhões de novos investidores e investidoras em 2025. Disponível em: <https://www. anbima. com. br/ptbr/imprensa/brasil-pode-ter-18-milhoes-de-novos-investidores-e-investidoras-em-2025-8A2AB2AE95CA6FF00195D7A0B97805E6-00. htm>.
Associação Brasileira das Entidades dos Mercados Financeiro e de Capitais [ANBIMA]. 2025. Investimento dos brasileiros cresce 6,8% e atinge a marca de R$ 7,9 trilhões em 2025. Disponível em: <https://www. anbima. com. br/ptbr/imprensa/investimento-dos-brasileiros-cresce-6-8-e-atinge-a-marca-de-r-7-9-trilhoes-em-2025. htm>.
B3. Índice Bovespa (Ibovespa B3). Disponível em: https://www. b3. com. br/pt_br/market-data-e-indices/indices/indices-amplos/ibovespa. htm.
Box, G. E. P., & Jenkins, G. M. (1970). Time series analysis: Forecasting and control. Holden-Day.
Ho, M. K.; Darman, H.; Musa, S. 2021. Stock Price Prediction Using ARIMA, Neural Network and LSTM Models. Journal of Physics: Conference Series 1988(012041).
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.
Kirelli, Y. 2024. Comparative analysis of LSTM and ARIMA models in stock price prediction: a technology company example. Black Sea Journal of Engineering and Science 7(5): 866-873.
Kobiela, D.; Krefta, D.; Król, W.; Weichbroth, P. 2022. ARIMA vs LSTM on NASDAQ Stock Exchange Data. Procedia Computer Science 207: 3830–3839.
Sunki, A.; SatyaKumar, C.; Narayana, G. S.; Koppera, V.; Hakeem, M. 2024. Time Series Forecasting of Stock Market Using ARIMA, LSTM and FB Prophet. MATEC Web of Conferences 392: 01163.
Xiao, R.; Feng, Y.; Yan, L.; Ma, Y. Predict stock prices with ARIMA and LSTM. In: 2022 5th International Conference on Computing, Control and Communication Technologies (CCCT). IEEE, 2022. p.111-114.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































