
26 de fevereiro de 2026
Detecção de Risco Climático Extremo com Ensemble Learning e Shapley Values
Juliana Pall Irineu de Lira; Fábio Lima
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo identificou os fatores que aumentam a ocorrência de eventos climáticos extremos por meio da combinação de modelos estatísticos e de aprendizado de máquina, interpretando as variáveis de maior contribuição. A investigação aplicou e comparou o desempenho de modelos de aprendizado supervisionado — Regressão Linear Simples, “Random Forest Regressor” e “XGBoost Regressor” — para identificar os principais fatores preditivos associados à intensificação de fenômenos climáticos severos. Adicionalmente, o trabalho empregou a técnica SHAP (Shapley Additive exPlanations) para aprofundar a interpretabilidade dos modelos, permitindo uma análise detalhada da contribuição individual de cada variável. A crescente frequência e intensidade de eventos como ondas de calor, enchentes e secas, documentada por instituições como o Painel Intergovernamental de Mudanças Climáticas (IPCC, 2023), exige o desenvolvimento de ferramentas analíticas robustas que possam não apenas prever, mas também explicar os mecanismos subjacentes a esses fenômenos.
A complexidade dos sistemas climáticos torna a atribuição de causalidade desafiadora, pois múltiplos fatores interagem de maneira não linear. Nesse contexto, os algoritmos de aprendizado de máquina (ML) são uma abordagem adequada para modelar tais complexidades (Raschka e Mirjalili, 2019). Modelos de “ensemble learning”, que combinam múltiplos algoritmos para obter um desempenho preditivo superior, são particularmente eficazes. Este estudo focou em duas técnicas de “ensemble”: “Bagging” (Bootstrap Aggregating), exemplificada pelo “Random Forest”, e “Boosting”, representada pelo “XGBoost”. A metodologia de “Bagging” reduz a variância do modelo construindo múltiplos modelos em subamostras aleatórias dos dados e agregando suas previsões (Breiman, 2001), enquanto o “Boosting” constrói modelos de forma sequencial; cada novo modelo corrige os erros do predecessor (Friedman, 2001; Chen e Guestrin, 2016).
Apesar da alta acurácia, uma limitação comum dos modelos de “ensemble” é sua natureza de “caixa-preta”, que dificulta a interpretação das relações entre as variáveis. Para superar essa barreira, o estudo integrou a análise de “Shapley Values” (SHAP), uma abordagem da teoria dos jogos que atribui a cada variável um valor de importância para uma predição individual, garantindo consistência e precisão local (Lundberg e Lee, 2017). A aplicação do SHAP permitiu desvendar como cada fator, como o aumento do nível do mar ou a densidade populacional, influencia a previsão do número de eventos climáticos extremos, fornecendo insights para a formulação de políticas públicas e estratégias de mitigação.
A pesquisa se diferencia ao priorizar a explicabilidade dos resultados, combinando modelos de alta performance com técnicas de interpretação avançadas para fornecer um quadro mais completo sobre os vetores de risco climático. A análise comparativa entre um modelo linear tradicional e dois modelos de “ensemble” baseados em árvores de decisão avaliou as vantagens de cada abordagem em um contexto de dados ambientais complexos. A investigação buscou responder quais variáveis socioeconômicas e ambientais possuem maior poder preditivo na determinação da frequência de eventos climáticos extremos e qual dos modelos testados oferece o melhor equilíbrio entre acurácia e interpretabilidade. A hipótese subjacente é que os modelos de “ensemble”, especialmente o “XGBoost”, apresentariam um desempenho superior devido à sua capacidade de capturar interações complexas e não lineares, e que a análise SHAP revelaria padrões não evidentes em modelos mais simples.
Para a execução do estudo, utilizou-se a base de dados “Global Temperature Emissions Environmental Trends 2000 – 2024”, do repositório Kaggle (Shamim, 2024). Este conjunto de dados consolida informações de dezenove países ao longo de 24 anos, com registros para 2000, 2005, 2010, 2015, 2020 e 2024. As variáveis preditoras foram: temperatura média (AvgTemperaturedegC), emissões de CO2 per capita (CO2Emissionstonspercapita), aumento do nível do mar (SeaLevelRisemm), precipitação (Rainfallmm), população (Population), percentual de energia renovável (RenewableEnergypct) e área de cobertura florestal (ForestAreapct). A variável alvo foi a quantidade de eventos climáticos extremos (ExtremeWeatherEvents). O processamento e a modelagem foram realizados em Python, utilizando o ambiente Google Colab e bibliotecas como Scikit-Learn (Pedregosa et al., 2011) e XGBoost.
A etapa de pré-processamento dos dados foi fundamental. A base de dados foi inspecionada para valores nulos e duplicados. Nenhuma entrada nula foi encontrada, mas foram removidos quarenta e dois registros duplicados (linhas com os mesmos valores para “Country” e “Year”), resultando em um conjunto final com cento e catorze observações. A análise de “outliers” pelo método “Z-Score” (Devore, 2016) identificou valores atípicos nas colunas de precipitação e eventos extremos; optou-se por mantê-los, pois algoritmos baseados em árvores (“Random Forest” e “XGBoost”) são robustos a “outliers” e esses pontos poderiam conter informações relevantes. A variável “Population” foi normalizada para a escala de milhões, e todas as preditoras quantitativas foram padronizadas através do “Z-Score” para terem média zero e desvio padrão um, procedimento que melhora a performance de algoritmos de ML.
A seleção de variáveis foi conduzida por uma análise de multicolinearidade, gerando uma matriz de correlação para identificar codependências. A multicolinearidade pode inflar a variância dos coeficientes em modelos lineares, tornando-os instáveis (James et al., 2023). Embora modelos baseados em árvores sejam menos sensíveis, a remoção de variáveis redundantes pode simplificar o modelo. A análise não revelou correlações altas que justificassem a exclusão de variáveis, e, portanto, todas as sete preditoras foram mantidas. Para a avaliação, o conjunto de dados foi dividido aleatoriamente em 70% para treinamento e 30% para teste, prática essencial para avaliar a generalização do modelo e evitar “overfitting” (Abu-Mostafa et al., 2012).
A otimização dos hiperparâmetros dos modelos “Random Forest Regressor” e “XGBoost Regressor” foi realizada com “Grid Search” e validação cruzada. Para o “Random Forest”, os hiperparâmetros ajustados incluíram número de árvores (nestimators), profundidade máxima (maxdepth), número mínimo de amostras para divisão (minsamplessplit) e número máximo de características por divisão (maxfeatures). Para o “XGBoost”, a otimização envolveu taxa de aprendizado (learningrate), profundidade máxima (maxdepth), fração de amostras (subsample), fração de colunas por árvore (colsamplebytree) e soma mínima dos pesos das instâncias em um nó filho (minchildweight). A busca pelo número ideal de estimadores no “XGBoost” foi feita com validação cruzada “K-fold” (k=5), utilizando parada antecipada (“early stopping”) para evitar a adição de árvores que não melhorassem o desempenho (Kohavi, 1995). O desempenho dos modelos foi avaliado com quatro métricas: Erro Quadrático Médio (MSE), Raiz do Erro Quadrático Médio (RMSE), Erro Absoluto Médio (MAE) e o Coeficiente de Determinação (R²).
A avaliação de desempenho no conjunto de teste revelou diferenças significativas. O “XGBoost Regressor” destacou-se como o mais performático, com um Coeficiente de Determinação (R²) de 0,76, indicando que 76% da variabilidade no número de eventos climáticos extremos foi explicada pelo modelo. Apresentou também os menores erros, com RMSE de 6,67 e MAE de 4,34. Em comparação, a Regressão Linear Simples obteve R² de 0,69 e RMSE de 7,51, um desempenho razoável, mas inferior. O “Random Forest Regressor” teve o desempenho mais fraco, com R² de 0,63 e o maior erro (RMSE de 8,23).
A análise de importância das variáveis, tanto intrínseca aos modelos quanto via SHAP, revelou consistentemente que a população (Populationmillion) e o aumento do nível do mar (SeaLevelRisemm) foram os fatores mais influentes. No modelo “XGBoost”, essas duas variáveis foram responsáveis por 41% e 26% da importância total, respectivamente. A análise SHAP confirmou essa dominância, mostrando que valores mais altos de população e de aumento do nível do mar estavam associados a um maior número previsto de eventos extremos. O impacto da população, embora forte, pode ser influenciado pela presença de “outliers” como China e Índia, cujos valores populacionais extremos podem ter distorcido a aprendizagem do modelo, uma hipótese que ajuda a explicar a tendência ao “overfitting”.
O aumento do nível do mar é um indicador direto das mudanças climáticas (IPCC, 2023), e sua forte correlação com eventos extremos corrobora estudos que demonstram como elevações no nível médio do mar aumentam exponencialmente a frequência de inundações costeiras (Vitousek et al., 2017). Curiosamente, outras variáveis intuitivamente importantes, como emissões de CO2 e temperatura média, tiveram menor influência nos modelos de “ensemble”. A baixa importância das emissões de CO2 em nível de país pode ser explicada pelo fato de que as mudanças climáticas são um fenômeno global, impulsionado pelo acúmulo histórico de gases de efeito estufa, de modo que as emissões de um único país em um ano têm impacto marginal no sistema climático global.
A análise de dependência parcial via SHAP no “Random Forest” sugeriu uma interação entre população e cobertura florestal; países com menor população tendiam a ter maior cobertura florestal, associando-se a menos eventos extremos. No entanto, essa relação não foi proeminente nos outros modelos. A distribuição de importância das variáveis na Regressão Linear foi mais equilibrada, com as emissões de CO2 em terceira posição, um resultado que difere dos modelos baseados em árvores e destaca como a escolha do algoritmo influencia a interpretação.
As limitações do estudo incluem a representação geográfica desproporcional do conjunto de dados, com forte concentração de países do Hemisfério Norte e de climas não tropicais. Essa parcialidade pode mascarar os efeitos mais acentuados das mudanças climáticas que, segundo o IPCC (2023), são esperados nas regiões tropicais. A discrepância no comportamento de variáveis como a precipitação em países como Brasil e Nigéria, observada na análise exploratória, reforça a necessidade de análises mais localizadas.
Apesar do desafio do “overfitting”, os resultados demonstram o potencial dos modelos de ML, combinados com técnicas como o SHAP, para desvendar as dinâmicas dos eventos climáticos extremos. O “XGBoost Regressor” provou ser a ferramenta mais poderosa para a predição, enquanto a análise SHAP forneceu insights sobre os principais vetores de risco. A forte influência da população e do aumento do nível do mar aponta para a necessidade de políticas que considerem fatores demográficos e indicadores climáticos diretos na gestão de riscos.
Como desdobramentos futuros, sugere-se a aplicação desta metodologia em conjuntos de dados mais amplos e geograficamente diversificados. A incorporação de variáveis geográficas explícitas e o uso de validação cruzada estratificada por região poderiam mitigar os vieses identificados. Além disso, a exploração de modelos específicos para séries temporais poderia ser uma abordagem mais adequada para lidar com as dependências temporais nos dados, potencialmente reduzindo o “overfitting” e melhorando a generalização.
Conclui-se que o objetivo foi atingido: demonstrou-se que a população e o aumento do nível do mar são os fatores mais importantes para prever o número de eventos climáticos extremos, com o modelo “XGBoost Regressor” apresentando o melhor desempenho preditivo entre os algoritmos avaliados. A pesquisa reforça a validade da aplicação de técnicas avançadas de aprendizado de máquina para compreender fenômenos complexos, ao mesmo tempo que destaca a importância crítica da interpretabilidade do modelo e da conscientização sobre as limitações dos dados para garantir que os insights gerados sejam confiáveis e acionáveis.
Referências:
Abu-Mostafa, Y. S.; Magdon-Ismail, M.; Lin, H.-T.. 2012. Learning From Data – A Short Course. Estados Unidos. https://www. google. com/url? sa=E&source=gmail&q=AMLBook. com.
Breiman, L. 2001. Random forests. Machine Learning, 45(1): 5-32. Disponível em: https://doi. org/10.1023/A:1010933404324. Acesso em: 19 ago. 2025.
Chen, T.; Guestrin, C. 2016. XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785–794. Disponível em: https://arxiv. org/abs/1603.02754. Acesso em: 16 ago. 2025.
Devore, J. L. 2016. Probabilidade e Estatística Para Engenharia e Ciências. Tradução da 8. ed. São Paulo, Brasil: Cengage Learning.
Fávero, L. P.; Belfiore, P.; Silva, F. L.; Chan, B. L. 2009. Análise De Dados: Modelagem Multivariada Para Tomada De Decisões. Rio de Janeiro, Brasil: Campus Elsevier.
Friedman, J. 2001. Greedy Function Approximation: A Gradient Boosting Machine. The Annals of Statistics, 29(5): 1189-1232. Disponível em: https://projecteuclid. org/journals/annals-of-statistics/volume-29/issue-5/Greedy-function-approximation-A-gradient-boosting-machine/10.1214/aos/1013203451. full. Acesso em: 10 set. 2025.
Gillies, D. F. 2017. Machine Learning With Python: From Theory to Practice. Boca Raton, FL, EUA: CRC Press.
Google. n. d. Google Colab. S. l. Disponível em: https://colab. research. google. com/. Acesso em: 01 abr. 2025.
Hastie, T.; Tibshirani, R.; Friedman, J. 2009. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2. ed. New York, NY, EUA: Springer.
Intergovernmental Panel on Climate Change [IPCC]. 2023. Summary for Policymakers. In: Climate Change 2023: Synthesis Report. Contribution of Working Groups I, II and III to the Sixth Assessment Report of the Intergovernmental Panel on Climate Change [Core Writing Team, H. Lee and J. Romero (eds.)]. Geneva, Suíça: IPCC, pp. 1-34. Disponível em: https://doi. org/10.59327/IPCC/AR6-9789291691647.001. Acesso em: 26 mar. 2025.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R.; Taylor, J.. 2023. An Introduction to Statistical Learning: With Applications in R. 2. ed. New York, NY, EUA: Springer. Disponível em: https://www. statlearning. com/. Acesso em: 16 ago. 2025.
Kohavi, R. 1995. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and Model Selection. In: Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, pp. 1137-1143.
Kotsiantis, S. B. 2013. Decision trees: a recent overview. Artif Intell Rev 39: 261–283. Disponível em: https://doi. org/10.1007/s10462-011-9272-4. Acesso em: 27 mar. 2025.
Kutner, M. H.; Nachtsheim, C. J.; Neter, J.; Li, W. 2004. Applied Linear Statistical Models. 5ed. New York, NY, EUA: McGraw-Hill Irwin.
Lipton, Z. C.; Wang, Y. X.; Smola, A. 2018. Detecting and correcting for label shift with black box predictors. In: Proceedings of the 21st International Conference on Artificial Intelligence and Statistics, pp. 1-10. Disponível em: https://arxiv. org/pdf/1802.03916. Acesso em: 23 ago. 2025.
Lundberg, S. M.; Lee, S.-I. 2017. A unified approach to interpreting model predictions. Advances in Neural Information Processing Systems (NeurIPS).
Nobre, A. D. 2014. O Futuro Climático Da Amazônia, Relatório De Avaliação Científica. São José dos Campos, Brasil: ARA: CCST-INPE: INPA, 42p. Disponível em: https://www. ccst. inpe. br/publicacao/relatorio-de-avaliacao-cientifica-o-futuro-climatico-da-amazonia/. Acesso em: 08 set. 2025.
Pedregosa, F.; Varoquaux, G.; Gramfort, A.; Michel, V.; Thirion, B.; Grisel, O.; Blondel, M.; Prettenhofer, P.; Weiss, R.; Dubourg, V.; Vanderplas, J.; Passos, A.; Cournapeau, D.; Brucher, M.; Perrot, M.; Duchesnay, E.. 2011. Scikit-learn: Machine Learning In Python. Journal of Machine Learning Research, 12: 2825-2830.
Projeto Mapbiomas. n. d. Mapeamento Anual De Cobertura E Uso Da Terra No Brasil Entre 1985 A 2022. Coleção 8. Disponível em: https://brasil. mapbiomas. org/wp-content/uploads/sites/4/2024/04/Fact-sheet-Colecao8-atualizado. pdf. Acesso em: 08 set. 2025.
Python Software Foundation [PYTHON]. 2021. Python 3.10. S. l.
Quionero-Candela, J.; Sugiyama, M.; Schwaighofer, A.; Lawrence, N. D. 2009. Dataset Shift in Machine Learning. The MIT Press.
Raschka, S.; Mirjalili, V. 2019. Python Machine Learning: Machine Learning and Deep Learning with Python, Scikit-learn, and TensorFlow 2. 3ed. Birmingham, UK: Pack Publishing.
Scikit-Learn. Disponível em: https://scikit-learn. org/stable/index. html. Acesso em: 16 jun. 2025.
Shamim, A. 2024. Global Environmental Trends 2000-2024. V. 2. In: Kaggle. S. l. Disponível em: https://www. kaggle. com/datasets/adilshamim8/temperature/data/. Acesso em: 15 jun. 2025.
Vitousek, S. et al. 2017. Doubling of coastal flooding frequency within decades due to sea-level rise. Scientific reports, v. 7, n. 1, p. 1399. Disponível em: https://www. nature. com/articles/s41598-017-01362-7.
Zhou, Z. H. 2012. Ensemble Methods: Foundations and Algorithms. Cambridge, UK: CRC Press.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































