Imagem Análise preditiva da taxa de câmbio EUR/USD utilizando web scraping e machine learning

19 de fevereiro de 2026

Análise preditiva da taxa de câmbio EUR/USD utilizando web scraping e machine learning

Talia Cristina da Silva Gibim; Anna Carolina Martins

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Esta pesquisa avalia o impacto de indicadores macroeconômicos e do sentimento de notícias na taxa de câmbio EUR/USD, desenvolvendo um modelo preditivo com o algoritmo XGBoost. O estudo emprega web scraping para coletar dados e busca aprimorar a precisão das previsões ao incorporar dados textuais não estruturados, superando modelos tradicionais focados apenas em variáveis econômicas. A metodologia visa construir um pipeline automatizado, desde a extração de dados heterogêneos até a avaliação e interpretação do modelo, para oferecer insights sobre a dinâmica do mercado de câmbio.

As taxas de câmbio são centrais nos mercados globais, influenciando o comércio, os fluxos de capital e o crescimento econômico. Conforme Bresser-Pereira (2020), a taxa de câmbio é o mais estratégico dos preços macroeconômicos, por seu impacto abrangente sobre importações, exportações, poder de compra, investimentos e consumo. Definida como o preço de uma moeda em termos de outra, ela reflete o valor comparativo de bens e serviços, influenciado por custos unitários do trabalho e termos de troca. Han (2020) reforça sua importância como um sinal crítico para a alocação de recursos no mercado global e um mecanismo de ajuste no comércio internacional, afetando diretamente o crescimento econômico de um país.

Apesar de sua importância, a previsão da taxa de câmbio permanece um desafio significativo, conhecido como “Quebra-Cabeça da Desconexão da Taxa de Câmbio”. Obstfeld e Rogoff (2000) descrevem este enigma como a discrepância observada entre as previsões dos modelos teóricos e o comportamento real das taxas. Modelos econômicos clássicos sugerem que as taxas de câmbio deveriam se mover em resposta a forças econômicas fundamentais, como oferta monetária ou taxas de juros. No entanto, como aponta Hopper (1997), na prática, os movimentos cambiais frequentemente se mostram desconectados desses fatores no curto prazo. Esta desconexão sugere que outros elementos, como o sentimento de mercado e a especulação, podem impulsionar as taxas de câmbio de maneiras que os modelos tradicionais não conseguem prever.

A literatura empírica busca incessantemente identificar os determinantes das flutuações cambiais. Estudos como o de Thorbecke e Kato (2012) demonstraram que uma apreciação de 10% do iene japonês reduzia as exportações de bens de consumo em 9%. Mais recentemente, Liu (2023) investigou o impacto da inflação e do desemprego sobre a taxa de câmbio nos Estados Unidos, concluindo que um aumento de 1% no desemprego reduzia a taxa de câmbio em 2,63 unidades, enquanto um aumento de 1% na inflação a elevava em 0,34 unidades. Além dos indicadores observáveis, a Hipótese das Expectativas Racionais (HER) sugere que as expectativas dos agentes sobre o futuro são cruciais. Hoffman e Schlagenhauf (1983) forneceram evidências empíricas de que modelos que incorporam expectativas racionais se alinham mais de perto com o comportamento real das taxas de câmbio, indicando que as expectativas prospectivas são essenciais para modelar a dinâmica cambial.

Expandindo a ideia de comportamento orientado por expectativas, pesquisas recentes exploram como o sentimento de notícias econômicas influencia a dinâmica da taxa de câmbio. Narayan et al. (2021) investigaram a influência de notícias na previsibilidade das taxas de câmbio, revelando que notícias negativas tendem a prever uma apreciação do dólar americano, especialmente durante recessões. Este estudo destaca o papel crítico das notícias na formação da dinâmica cambial. Diante desse contexto, a presente pesquisa se propõe a integrar essas múltiplas fontes de informação — indicadores macroeconômicos, dependências temporais e dados textuais de notícias — em um único framework de modelagem, com o objetivo de construir um modelo preditivo mais preciso para os movimentos da taxa de câmbio no curto prazo.

A metodologia desenvolvida para prever a taxa de câmbio diária EUR/USD combina indicadores macroeconômicos e dados textuais do jornal The New York Times. O pipeline proposto integra ETL (Extração, Transformação e Carga), engenharia de características de séries temporais, processamento de linguagem natural (PLN) e aprendizado de máquina com o algoritmo XGBoost. A primeira etapa consistiu na implementação de web scraping para adquirir os dados. Conforme descrito por Khder (2021), o web scraping extrai informações de websites e converte dados não estruturados em um formato estruturado. Esta abordagem automatizada permitiu a coleta de dados diários da taxa de câmbio EUR/USD do Banco Central Europeu, 480 indicadores macroeconômicos dos Estados Unidos e da União Europeia da plataforma Trading Economics, e manchetes diárias do arquivo histórico do The New York Times.

O processo de extração dos indicadores macroeconômicos exigiu uma abordagem sofisticada devido à natureza dinâmica do website de origem. Utilizou-se uma combinação das bibliotecas Python BeautifulSoup e Selenium para interagir com elementos dinâmicos renderizados por JavaScript. O script foi programado para realizar autenticação, navegar pelas páginas e extrair os pontos de dados diretamente dos gráficos, simulando o movimento do mouse para acionar os tooltips que continham os valores e as datas. De forma análoga, a extração das manchetes do The New York Times foi adaptada para lidar com três diferentes arquiteturas de website ao longo do período histórico analisado (2006-2025), utilizando estratégias distintas de scraping para cada layout, garantindo uma coleta de dados completa.

Após a aquisição, um pipeline de ETL foi empregado para automatizar a integração dos dados. A fase de transformação normalizou as granularidades temporais, padronizando indicadores mensais, trimestrais ou anuais para uma resolução diária. Para integrar dados de alta frequência com indicadores de baixa frequência, foi adotada uma abordagem de alinhamento retroativo: cada observação diária foi associada ao valor mais recente disponível de cada indicador. Por exemplo, o valor de um indicador trimestral reportado em 31 de março seria aplicado a todos os dias do trimestre seguinte, até que um novo relatório se tornasse disponível. Este método garante que o modelo utilize apenas informações que estariam disponíveis no momento da previsão, evitando o viés de lookahead.

A etapa de engenharia de características focou na extração de estruturas dependentes do tempo da série da taxa de câmbio. Foram criadas variáveis de defasagem (lags) dos valores da taxa de câmbio de um, dois e três dias anteriores, para modelar autocorrelações. Adicionalmente, uma média móvel de sete dias foi calculada para suavizar flutuações. A importância da seleção de lags é corroborada por pesquisas como a de Leites et al. (2024). Para o processamento dos dados textuais, as manchetes do The New York Times foram filtradas por categorias relevantes e agregadas em um documento textual para cada dia. Em seguida, técnicas de PLN foram aplicadas, utilizando a biblioteca Sentence Transformers para gerar embeddings vetoriais. O modelo all-MiniLM-L6-v2 foi selecionado, com base na avaliação de Chandrasekaran e Mago (2021), por seu equilíbrio entre desempenho e eficiência, transformando cada conjunto diário de manchetes em um vetor numérico de 384 dimensões. Finalmente, o algoritmo XGBoost foi empregado para a modelagem, justificado por sua performance superior em dados tabulares (Shwartz-Ziv e Armon, 2021). A avaliação do modelo foi realizada através de uma divisão cronológica de treino-teste (80/20), utilizando o Erro Quadrático Médio (RMSE) como métrica e os valores SHAP (SHapley Additive exPlanations), baseados na teoria de Shapley (1953), para a interpretabilidade.

A avaliação do desempenho preditivo dos modelos revelou resultados distintos. O primeiro modelo, treinado utilizando apenas os indicadores macroeconômicos e os embeddings das manchetes, sem variáveis temporais, alcançou um Erro Quadrático Médio (RMSE) médio de 0,0734 em uma validação cruzada com cinco dobras. A análise dos resultados por dobra (0,0866, 0,1367, 0,0446, 0,0670 e 0,0320) indicou alta variabilidade, refletindo a capacidade limitada do modelo em capturar as dependências temporais da taxa de câmbio. Este desempenho sugere que, embora os fundamentos macroeconômicos e as notícias contenham informações relevantes, eles, por si só, não são suficientes para explicar com precisão as flutuações de curto prazo da paridade EUR/USD.

Em contrapartida, o segundo modelo, que incorporou variáveis de defasagem (lags de 1, 2 e 3 dias) e a média móvel de 7 dias, demonstrou uma melhoria substancial na precisão. Os valores de RMSE por dobra foram drasticamente reduzidos para 0,0205, 0,0292, 0,0051, 0,0207 e 0,0048, resultando em um RMSE médio de 0,0161. Esta redução de quase 80% no erro médio destaca a importância crítica das características temporais para o desempenho do modelo. A inclusão de informações sobre o comportamento passado da taxa de câmbio permitiu que o modelo capturasse a forte autocorrelação presente na série, resultando em previsões significativamente mais alinhadas com os valores reais e maior robustez.

A interpretabilidade do modelo foi investigada utilizando a metodologia SHAP. Na especificação sem variáveis temporais, os valores médios absolutos de SHAP foram pequenos. As características mais bem classificadas, como as Reservas Cambiais dos EUA, os Pedidos de Asilo nos EUA e o IPC de Habitação e Utilidades dos EUA, atingiram valores médios de SHAP na faixa de 0,002 a 0,004. Essas magnitudes modestas indicam que, embora alguns indicadores macroeconômicos tenham influenciado as previsões, seu poder explicativo foi fraco para justificar as variações de curto prazo, reforçando a ideia da desconexão cambial.

A análise SHAP do segundo modelo, que incluiu as dinâmicas temporais, revelou uma distribuição de importância de características marcadamente diferente. As contribuições para as variáveis de defasagem foram substancialmente mais altas. A defasagem de 1 dia (Lag 1) exibiu o maior SHAP médio (0,025), seguida pela média móvel de 7 dias (0,020) e pela defasagem de 2 dias (0,015). Esta hierarquia clara destaca o papel preditivo dominante dos componentes autorregressivos em relação aos indicadores macroeconômicos. A maior dispersão dos valores SHAP para essas características temporais sugere não apenas uma influência média mais forte, mas também que sua importância se adapta às condições de mercado.

A comparação direta entre os dois modelos evidencia que, embora variáveis macroeconômicas como as Reservas Cambiais dos EUA mantenham alguma relevância, sua importância é ofuscada pela influência do comportamento passado da própria série temporal. No modelo mais preciso, a defasagem de 1 dia foi, em média, mais de seis vezes mais impactante do que a variável macroeconômica mais importante. Este resultado empírico sugere que a taxa de câmbio exibe fortes efeitos de memória de curto prazo. A informação contida no histórico recente da série é um preditor muito mais poderoso de seu movimento futuro imediato do que os relatórios macroeconômicos, que são divulgados com menor frequência e podem já estar precificados pelo mercado.

A análise dos resultados também revelou que a incorporação de características textuais, extraídas das manchetes do The New York Times, não melhorou significativamente o desempenho preditivo em nenhum dos modelos. Este achado sugere que o sinal contido nas manchetes pode ser muito ruidoso ou que sua influência se manifesta em horizontes de tempo mais longos do que o diário, não fornecendo a granularidade necessária para aprimorar os modelos preditivos diários.

Os resultados combinados demonstram que, embora as variáveis macroeconômicas mantenham relevância teórica, a incorporação de estruturas autorregressivas melhora drasticamente a precisão e a robustez das previsões da taxa de câmbio no curto prazo. A dominância das variáveis de defasagem e da média móvel confirma que o mercado de câmbio é fortemente influenciado por sua própria dinâmica passada. A informação mais valiosa para prever o valor da taxa de câmbio de amanhã é, predominantemente, o seu valor

Referências:
BRESSER-PEREIRA, Luiz Carlos. New Developmentalism: development macroeconomics for middle-income countries. Cambridge Journal of Economics, [S. l.], v. 44, n. 3, p. 629–646, 2020. DOI: 10.1093/cje/bez063.
CHANDRASEKARAN, Dhivya; MAGO, Vijay. Comparative Analysis of Word Embeddings in Assessing Semantic Similarity of Complex Sentences. IEEE Access, [S. l.], v. 9, p. 166395–166408, 2021. DOI: 10.1109/ACCESS.2021.3135807.
HAN, Yujing. The Impact of Exchange Rate Fluctuation on Economic Growth – Empirical Studies Based on Different Countries. Em: 2020, Kunming, China. Anais […]. Kunming, China: Atlantis Press, 2020. DOI: 10.2991/aebmr. k.200708.006.
HOFFMAN, Dennis L.; SCHLAGENHAUF, Don E. Rational expectations and monetary models of exchange rate determination. Journal of Monetary Economics, [S. l.], v. 11, n. 2, p. 247–260, 1983. DOI: 10.1016/0304-3932(83)90032-6.
HOPPER, Gregory P. What Determines the Exchange Rate: Economic Factors or Market Sentiment? [S. l.], 1997.
KHDER, Moaiad. Web Scraping or Web Crawling: State of Art, Techniques, Approaches and Application. International Journal of Advances in Soft Computing and its Applications, [S. l.], v. 13, n. 3, p. 145–168, 2021. DOI: 10.15849/ijasca.211128.11.
LEITES, José; CERQUEIRA, Vitor; SOARES, Carlos. Lag Selection for Univariate Time Series Forecasting using Deep Learning: An Empirical Study. arXiv, 2024. DOI: 10.48550/ARXIV.2405.11237.
LIU, Qijing. Quantitative Analysis of Inflation and Unemployment Rates on Exchange Rate Movement: An Empirical Study Based on Data in the US from 2009 to 2022. Advances in Economics, Management and Political Sciences, [S. l.], v. 21, n. 1, p. 299–310, 2023. DOI: 10.54254/2754-1169/21/20230266.
NARAYAN, Paresh Kumar; BANNIGIDADMATH, Deepa; NARAYAN, Seema. How much does economic news influence bilateral exchange rates? Journal of International Money and Finance, [S. l.], v. 115, p. 102410, 2021. DOI: 10.1016/j. jimonfin.2021.102410.
ROGOFF, Kenneth; OBSTFELD, Maurice. The Six Major Puzzles in International Macroeconomics: Is There a Common Cause? [s. l: s. n.]. v. 15
SHAPLEY, L. S. 17. A Value for n-Person Games. Em: KUHN, Harold William; TUCKER, Albert William (org.). Contributions to the Theory of Games (AM-28), Volume II. [s. l.] : Princeton University Press, 1953. p. 307–318. DOI: 10.1515/9781400881970-018.
SHWARTZ-ZIV, Ravid; ARMON, Amitai. Tabular Data: Deep Learning is Not All You Need. arXiv, 2021. DOI: 10.48550/ARXIV.2106.03253.
THORBECKE, Willem; KATO, Atsuyuki. The effect of exchange rate changes on Japanese consumption exports. Japan and the World Economy, [S. l.], v. 24, n. 1, p. 64–71, 2012. DOI: 10.1016/j. japwor.2011.12.004.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade