
10 de fevereiro de 2026
Análise comparativa de modelos preditivos para o preço do ouro
Stacey Chang Houang; Thiago Gentil Ramires
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo realizou uma análise comparativa entre os modelos de Regressão Linear Múltipla e Random Forest para prever o preço do ouro, buscando identificar o método com desempenho superior e as variáveis macroeconômicas mais influentes. A necessidade de modelos preditivos robustos é impulsionada pela multifuncionalidade do ouro como commodity industrial e ativo de refúgio contra instabilidades econômicas, como inflação e volatilidade de mercados (Fang, 2023). A volatilidade de seu preço resulta de uma complexa interação de fatores macroeconômicos, geopolíticos e especulativos, tornando sua previsão um desafio valioso para investidores, gestores de fundos e formuladores de políticas econômicas.
A capacidade de antecipar as flutuações do preço do ouro oferece vantagens estratégicas, como uma gestão de risco mais eficaz e a otimização na alocação de recursos. Nesse contexto, a compreensão das variáveis que impulsionam seu valor é fundamental. A literatura acadêmica aponta uma correlação positiva e forte entre o preço do ouro e o do petróleo, pois ambos os ativos respondem de maneira similar a períodos de instabilidade, quando investidores buscam refúgio em commodities consideradas seguras (Shafiee & Topal, 2010). A demanda por ambos tende a aumentar em uníssono, pressionando seus preços para cima.
Outro fator determinante é o dólar americano, moeda na qual o ouro é predominantemente precificado. A relação entre o preço do ouro e o valor do dólar é tipicamente inversa: uma valorização do dólar torna o ouro mais caro para detentores de outras moedas, o que tende a reduzir a demanda global e seu preço (Elfakhani et al., 2009). O euro também desempenha um papel relevante, embora moedas de países produtores de ouro não demonstrem a mesma magnitude de influência (Sujit & Kumar, 2011). A relação com o mercado de ações, embora complexa, frequentemente se manifesta de forma inversa em cenários de crise, quando o ouro atua como contrapeso às perdas no mercado acionário. Contudo, em períodos de crescimento econômico, a maior disponibilidade de capital pode impulsionar investimentos tanto em ações quanto em ouro, gerando uma correlação positiva temporária (Fang, 2023).
A Regressão Linear Múltipla foi selecionada por sua clareza na interpretação dos coeficientes, que quantificam a influência de cada variável independente sobre o preço do ouro, sendo útil para validar relações lineares (Fedotova et al., 2013). Em contrapartida, o modelo Random Forest, um método de ensemble learning, foi escolhido por sua capacidade de capturar relações não lineares e interações complexas entre as variáveis, oferecendo uma abordagem mais flexível e robusta diante da natureza multifatorial do mercado de ouro (Breiman, 2001). A comparação direta entre um modelo paramétrico tradicional e um não paramétrico avançado permite uma avaliação abrangente das abordagens preditivas.
Esta análise busca construir um entendimento sobre a interação de fatores que governam o preço do ouro. Ao avaliar a eficácia de duas metodologias distintas, o estudo contribui para a discussão sobre ferramentas analíticas para modelagem de ativos voláteis. Os resultados visam oferecer insights para profissionais do mercado financeiro, auxiliando na construção de modelos de gestão de risco e na tomada de decisões de investimento. A pesquisa utiliza técnicas de ciência de dados para fornecer uma base empírica para a seleção de modelos preditivos no contexto específico do ouro.
O estudo utilizou a base de dados pública “Gold Price Prediction Dataset” do repositório Kaggle, com 1.718 observações diárias de 18 de novembro de 2011 a 1º de janeiro de 2019. O conjunto de dados contém 80 variáveis, incluindo preços de commodities como petróleo (Brent e WTI), outros metais preciosos (prata, platina, paládio), índices de mercado de ações como o S&P 500 e o Dow Jones, taxas de câmbio, notadamente a paridade dólar/euro, e taxas de juros de títulos do tesouro americano. A variável dependente, o preço do ouro, foi representada por múltiplas colunas, incluindo preços de abertura, máximo, mínimo e fechamento diário, extraídos da plataforma Yahoo! Finanças.
O pré-processamento dos dados iniciou com a seleção da coluna ‘Adj Close’ (preço de fechamento ajustado) como a variável dependente de referência, por incorporar o impacto de eventos corporativos e oferecer uma representação mais precisa do valor do ativo. Para as variáveis independentes, foram mantidos apenas os valores de fechamento e os volumes de negociação. Uma verificação de valores ausentes não revelou a necessidade de imputação. Para mitigar o impacto de observações anômalas, foi aplicado o método Z-score para a detecção e remoção de outliers, com um critério de Z-score inferior a 3, assegurando que valores desviantes não distorcessem os resultados dos modelos.
Para a seleção das variáveis independentes mais relevantes e evitar o problema da multicolinearidade, foi empregado o método de stepwise regression (regressão passo a passo), uma técnica que adiciona e remove preditores com base em sua significância estatística (Draper & Smith, 1998). Os critérios definidos foram um p-value inferior a 0,05 para a inclusão de uma variável e um p-value superior a 0,01 para sua remoção. Adicionalmente, duas variáveis ligadas à indústria de mineração de ouro foram eliminadas manualmente para prevenir a colinearidade. A base de dados foi dividida em conjuntos de treinamento (70%) e teste (30%) utilizando uma abordagem de divisão temporal, alocando as observações mais antigas para o treinamento e as mais recentes para o teste, para simular um cenário de previsão realista.
A Regressão Linear Múltipla foi implementada com o método dos Mínimos Quadrados Ordinários (MQO), que busca os coeficientes que minimizam a soma dos quadrados das diferenças entre os valores observados e os previstos. Para otimizar a performance, foi aplicado um valor de ajuste de 30 e uma função de custo para refinar os pesos dos coeficientes, visando minimizar o Erro Quadrático Médio (MSE). O modelo Random Forest foi construído com parâmetros iniciais de 100 árvores de decisão e uma profundidade máxima de 5, hiperparâmetros posteriormente otimizados com base na análise da curva de aprendizado. Para garantir a robustez e a capacidade de generalização, foi utilizada a técnica de validação cruzada k-fold, que ajuda a evitar o sobreajuste (overfitting) e fornece uma estimativa mais estável do desempenho (Bergstra & Bengio, 2012). A comparação do desempenho foi realizada com base nas métricas de MSE e R², e os resultados foram visualizados por meio de gráficos.
A análise da matriz de correlação revelou que a relação mais proeminente foi com os futuros de prata (SFPrice), que atingiu um valor de 0,94742, indicando que os ativos do setor de metais preciosos tendem a se mover de forma coesa. O preço do platino (PLTPrice) também exibiu uma correlação positiva significativa de 0,775861, reforçando a ideia de um comportamento de “cesta” entre os metais preciosos. Estes achados são cruciais para estratégias de diversificação de portfólio.
Conforme antecipado pela literatura, a correlação entre o preço do ouro e o do petróleo mostrou-se positiva e robusta. As variáveis representativas do petróleo, como os futuros do Brent Crude Oil (OFPrice), o ETF de Petróleo (USOAdj Close) e o Crude Oil WTI (OSPrice), apresentaram coeficientes de correlação de 0,710693, 0,635675 e 0,630817, respectivamente. Esta relação confirma que ambos os ativos são percebidos como refúgios seguros. Em contrapartida, uma correlação negativa acentuada foi identificada com o índice do dólar americano (USDIPrice), com um coeficiente de -0,721569. Este resultado valida empiricamente a relação inversa documentada: a valorização do dólar tende a exercer uma pressão de baixa sobre o preço do ouro.
Outra relação negativa relevante foi observada com os principais índices do mercado de ações. O índice S&P 500 (SPAjclose) e o índice Dow Jones (DJAjclose) registraram correlações de -0,666071 e -0,588411, respectivamente. Esses valores indicam uma tendência de comportamento de “porto seguro” para o ouro em momentos de instabilidade nos mercados de ações. É importante notar que essa relação não é estática e pode variar dependendo do contexto econômico. A análise de correlação com o volume negociado do ouro, por outro lado, não revelou nenhuma relação estatisticamente significativa, sugerindo que o volume é mais influenciado por outros fatores, como a liquidez do mercado e o sentimento do investidor.
A aplicação da técnica de stepwise regression confirmou a relevância dos fatores identificados na análise de correlação, fornecendo um modelo explicativo inicial com um coeficiente de determinação (R²) de 0,981. Este valor indica que aproximadamente 98% da variação no preço do ouro, dentro do período analisado, pode ser explicada pelo conjunto de variáveis selecionadas, que incluíram os preços de outros metais (prata, platina, ródio, paládio), o índice S&P 500, a taxa de juros de títulos dos EUA, o câmbio do euro e os preços do petróleo. O valor F do modelo também confirmou a significância estatística do conjunto de preditores. No entanto, é fundamental ressaltar que este resultado reflete a capacidade explicativa do modelo sobre os dados de treinamento, e não necessariamente sua capacidade preditiva em dados não vistos.
A fase de comparação de desempenho preditivo revelou as limitações dos modelos lineares. O modelo de Regressão Linear Múltipla, ajustado via Mínimos Quadrados Ordinários (OLS), apresentou um desempenho insatisfatório no conjunto de teste, com um Erro Quadrático Médio (MSE) de 619,33 e um R² de -27,46. Um valor de R² negativo indica que o modelo performou pior do que uma simples previsão baseada na média dos preços, sinalizando uma total incapacidade de generalização. Mesmo após ajustes na função de custo, que melhoraram os resultados para um MSE de 88,73 e um R² de -3,08, o modelo continuou a demonstrar baixa capacidade preditiva, evidenciando que as relações lineares não são suficientes para capturar a dinâmica complexa do preço do ouro.
Em nítido contraste, o modelo Random Forest demonstrou um desempenho superior. Com um MSE de 32,19 e um R² de -0,48, este modelo superou significativamente a abordagem de regressão linear. Embora o valor de R² ainda seja negativo, a redução drástica no MSE demonstra a maior robustez do Random Forest e sua habilidade em capturar interações não lineares entre as variáveis. A superioridade do modelo de ensemble learning sugere que a formação do preço do ouro é governada por relações complexas que não podem ser adequadamente modeladas por pressupostos de linearidade. A análise gráfica comparativa dos preços reais versus os previstos ao longo do tempo ilustrou visualmente essa diferença de desempenho, com as previsões do Random Forest acompanhando de forma mais próxima as flutuações reais do preço do ouro.
A análise comparativa entre os modelos oferece uma conclusão clara: enquanto a Regressão Linear Múltipla pode ser uma ferramenta útil para a interpretação da influência de fatores macroeconômicos de forma isolada, sua aplicação para fins preditivos no volátil mercado de ouro é extremamente limitada. O Random Forest, por sua vez, emerge como uma alternativa mais vantajosa para cenários de alta complexidade; as interações não lineares são predominantes. A combinação estratégica de ambos os modelos pode oferecer uma abordagem analítica mais completa, utilizando a regressão para o entendimento dos drivers e o Random Forest para a geração de previsões mais acuradas, proporcionando maior confiabilidade para a tomada de decisão.
Este estudo demonstrou a complexidade inerente à previsão do preço do ouro, um processo influenciado por uma multiplicidade de fatores. A investigação evidenciou que a técnica de stepwise regression provou ser eficaz na fase de seleção de variáveis, confirmando a relevância de fatores como os preços da prata e do petróleo, bem como a taxa de câmbio do dólar. No entanto, a aplicação dessas variáveis em
Referências:
Bergstra, J.; Bengio, Y. 2012. Random Search for Hyper-Parameter Optimization. Journal of Machine Learning Research 13(1): 281-305.
Breiman, L. 2001. Random Forests. Machine Learning 45(1): 5-32.
Draper, N. R.; Smith, H. 1998. Applied Regression Analysis. 3rd ed. John Wiley & Sons, New York, NY, USA. 736p.
Elfakhani, S.; Baalbaki, I. B.; Rizk, H. 2009. Gold price determinants: empirical analysis and implications. Journal for International Business and Entrepreneurship Development 4(3): 161-178.
Fang, W. 2023. Gold Price Forecast by Different Models. BCP Business & Management 36: 498-506.
Fedotova, O.; Teixeira, L.; Alvelos, H. 2013. Software Effort Estimation with Multiple Linear Regression: Review and Practical Application. J. Inf. Sci. Eng. 29(5): 925-945.
Guha, B.; Bandyopadhyay, G. 2016. Gold price forecasting using ARIMA model. Journal of Advanced Management Science 4(2): 117-121.
Marcondes, R. L. 1998. Padrão-ouro e estabilidade. Estudos Econômicos (São Paulo) 28(3): 533-559.
Shafiee, S.; Topal, E. 2010. An overview of global gold market and gold price forecasting. Resources Policy 35(3): 178-189.
Sujit, K. S.; Kumar, B. R. 2011. Study on dynamic relationship among gold price, oil price, exchange rate and stock market returns. International Journal of Applied Business and Economic Research 9(2): 145-165.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































