
10 de março de 2026
Modelos para Previsão Meteorológica Geolocalizada Baseados em Machine Learning e Dados Hiperlocais
Gabriel Vinícius Claudiano; Christian Duarte Caldeira
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A intensificação da frequência e do impacto de eventos climáticos extremos nas últimas décadas, como enchentes, secas severas e tempestades de grande magnitude, estabelece um cenário de crescente variabilidade climática que afeta diretamente setores vitais da sociedade (Agyekum, Antwi-Agyei e Dougill, 2022). Tais fenômenos representam riscos significativos para a estabilidade econômica e para as operações de defesa civil, uma vez que possuem a capacidade de comprometer infraestruturas urbanas críticas, incluindo redes de distribuição de energia elétrica e sistemas de saneamento básico (WMO, 2025; Czibula, Mihai e Mihuleţ, 2021). A produtividade agrícola e a segurança alimentar também são vulneráveis a essas oscilações, exigindo mecanismos de mitigação mais robustos. Dados históricos indicam que, apenas nos Estados Unidos, entre os anos de 1980 e 2019, as inundações foram responsáveis por perdas financeiras estimadas em 146.5 bilhões de dólares, além de causarem a morte de 555 indivíduos (Das et al., 2024). Diante desse panorama, a gestão eficiente de riscos depende intrinsecamente de sistemas de previsão climática acurados, capazes de gerar alertas precoces e fundamentar tomadas de decisão estratégicas (Czibula, Mihai e Mihuleţ, 2021; Ling et al., 2024).
A agilidade na alimentação desses sistemas e a aplicação direta das previsões na gestão pública são condições fundamentais para que os benefícios alcancem a população, evitando a exposição desnecessária a situações de perigo (Agyekum, Antwi-Agyei e Dougill, 2022; Biswas, Dhoom e Barua, 2018). No âmbito econômico, a precisão das informações meteorológicas impacta a mitigação de perdas e a otimização da geração de receita em áreas como aviação, gestão hídrica e energia (Dewitte et al., 2021; Ling et al., 2024). Embora a necessidade de previsões confiáveis seja uma demanda antiga, avanços tecnológicos recentes proporcionaram melhorias substanciais na qualidade dos dados coletados e na acurácia dos modelos matemáticos (Mass, 2011). O método de Previsão Numérica do Tempo, conhecido como Numerical Weather Prediction, fundamenta-se em estados atmosféricos atuais e em modelagens físicas complexas que descrevem a interação entre a atmosfera, os oceanos e a cobertura terrestre (Dewitte et al., 2021). Contudo, a eficácia desses modelos depende de um volume massivo de dados globais provenientes de satélites, radares e estações meteorológicas terrestres (Biswas, Dhoom e Barua, 2018).
Apesar da evolução técnica, persistem dificuldades relacionadas à calibração de equipamentos, acessibilidade financeira e conectividade para o envio de dados em tempo real (WMO, 2025). A incapacidade de obter dados precisos em escala local, somada ao elevado custo computacional dos modelos tradicionais, limita a resolução espacial e a frequência de atualização dos resultados (Ling et al., 2024; Dewitte et al., 2021). Como alternativa, o uso de sistemas híbridos que combinam modelos físicos com inteligência artificial tem ganhado destaque. O conceito de nowcasting, que se refere a previsões para um intervalo de até seis horas, exige alta complexidade no processamento de dados multimodais, mas deve manter a simplicidade operacional para garantir a rapidez na emissão de alertas (Czibula, Mihai e Mihuleţ, 2021; WMO, 2025). Sistemas baseados em aprendizado de máquina diferenciam-se por não dependerem exclusivamente de equações físicas, o que permite identificar padrões complexos com menor custo computacional (Das et al., 2024; Dewitte et al., 2021). Estudos demonstram que modelos de inteligência artificial apresentam performance comparável aos métodos tradicionais, sendo, em alguns casos, até 10 vezes mais eficientes em termos de recursos (Dueben e Bauer, 2018; Ling et al., 2024).
A combinação de modelos estatísticos simples com técnicas avançadas de aprendizado de máquina pode reduzir significativamente erros de previsão. Pesquisas indicam que modelos híbridos foram capazes de melhorar a previsão de temperatura inicial em índices de 24% e 17% em relação ao uso isolado de modelos numéricos (Li et al., 2020; Wang et al., 2019). O objetivo central deste estudo foca no desenvolvimento de modelos de previsão meteorológica geolocalizados que utilizam dados de previsão global e dados medidos localmente para corrigir vieses sistemáticos. A proposta fundamenta-se na construção de modelos de inteligência artificial para interpretar e ajustar as saídas de modelos numéricos tradicionais, visando a geração de informações mais precisas e de baixo custo para aplicações específicas em agricultura e defesa civil, onde a precisão hiperlocal é determinante para o sucesso das operações econômicas e de segurança.
A metodologia aplicada compreendeu o tratamento, enriquecimento e análise de dados meteorológicos hiperlocais, utilizando a linguagem de programação Python em uma estrutura modular voltada para a replicabilidade científica. Foram empregadas bibliotecas consolidadas, como pandas e numpy para a manipulação de matrizes de dados, e scikit-learn para as etapas de pré-processamento e modelagem estatística. Para a construção dos modelos preditivos, utilizaram-se implementações específicas de algoritmos de ensemble, nomeadamente XGBoost e LightGBM. O desenvolvimento ocorreu em ambiente local, utilizando um hardware com processador de alto desempenho, o que demonstrou que a execução dos modelos não exige infraestruturas de computação em nuvem excessivamente onerosas, reforçando a viabilidade da aplicação em contextos com recursos limitados. O estudo utilizou duas bases de dados principais fornecidas pela empresa ATMOS: uma contendo dados observados por estações meteorológicas físicas e outra com dados preditos por modelos numéricos globais, ambos referentes à mesma coordenada geográfica.
O conjunto de dados bruto abrangeu o período de 04 de novembro de 2024 a 04 de dezembro de 2024. A organização temporal foi dividida de forma cronológica para evitar o vazamento de informações, destinando o período de 05 a 22 de novembro para treinamento, de 23 a 28 de novembro para validação e de 29 de novembro a 04 de dezembro para testes finais. A base de dados preditos continha 720 registros com sete variáveis, incluindo temperatura, umidade, pressão atmosférica, precipitação, velocidade e direção do vento, além de cobertura de nuvens. Já a base de dados observados totalizou 1323 registros com seis variáveis físicas medidas por sensores locais. A escolha por um intervalo de tempo mais curto justificou-se pela necessidade de validar a aplicação prática imediata para clientes que demandam resultados rápidos. Inicialmente, os nomes das variáveis foram padronizados e as informações de data e hora foram convertidas em timestamps únicos para garantir a integridade das séries temporais.
A análise exploratória revelou flutuações nos intervalos de medição dos sensores, causadas por falhas de comunicação ou perda de pacotes de dados. Para mitigar esse problema, calculou-se o intervalo padrão de medição através da mediana das diferenças temporais entre registros consecutivos. A etapa de limpeza de dados envolveu a remoção de duplicatas, mantendo-se apenas a primeira ocorrência de cada timestamp. A identificação de outliers baseou-se na premissa de que grandezas físicas como temperatura e pressão possuem variações temporais limitadas por leis físicas. Foram calculadas as derivadas entre registros consecutivos e considerados como anomalias os valores que apresentaram desvios superiores a cinco desvios-padrão em relação à média das variações. Esses valores foram marcados como ausentes para posterior tratamento por interpolação, garantindo que variações bruscas causadas por ruído de sensor não comprometessem o treinamento dos modelos.
Para o preenchimento de lacunas, testaram-se diversos métodos de interpolação, incluindo linear, quadrática, cúbica e Akima, variando janelas de vizinhança entre quatro e 10 pontos. A validação do melhor método ocorreu por meio de amostragem aleatória, onde valores reais conhecidos foram ocultados e posteriormente estimados pelos métodos testados, calculando-se o erro quadrático médio para determinar a técnica mais precisa. Após a definição do método ideal para cada variável, procedeu-se à densificação temporal, inserindo registros sintéticos em trechos onde o espaçamento temporal excedia 160% do intervalo padrão. Esse processo resultou em uma base consolidada com 1436 registros, onde aproximadamente 1% dos dados foram preenchidos por interpolação e 8% foram adicionados via densificação, assegurando uma série contínua e uniforme para o processamento algorítmico.
O enriquecimento da base de dados incluiu a criação de variáveis temporais cíclicas para representar os períodos diário, semanal, mensal e anual. Utilizaram-se funções de seno e cosseno aplicadas ao timestamp para permitir que os modelos interpretassem a sazonalidade intrínseca dos fenômenos meteorológicos, como o ciclo circadiano de temperatura. Adicionalmente, foram geradas variáveis defasadas, conhecidas como lags, cobrindo horizontes de curto prazo de um a seis registros, e de médio prazo de 12, 18 e 24 intervalos. Derivadas de primeira e segunda ordem também foram calculadas para capturar tendências de aceleração e mudança nas grandezas físicas. A temperatura foi selecionada como a variável-alvo principal devido ao seu alto impacto na agricultura, influenciando processos de evapotranspiração e riscos de geada, além de ser uma das medidas mais estáveis e confiáveis obtidas por estações automáticas.
A construção dos modelos de ensemble focou nos algoritmos Random Forest, XGBoost e LightGBM, escolhidos por sua robustez no tratamento de variáveis correlacionadas e capacidade de capturar relações não lineares. A otimização de hiperparâmetros foi realizada através da técnica de Randomized Search, que permite explorar um vasto domínio de busca de forma eficiente. Foram ajustados parâmetros como profundidade máxima das árvores, número de folhas e taxas de aprendizado, visando equilibrar o desempenho no conjunto de treino com a capacidade de generalização. Para evitar o sobreajuste, aplicaram-se técnicas de regularização e a validação foi conduzida em bases temporais estritamente independentes. O desempenho foi mensurado por meio do Erro Quadrático Médio, Erro Absoluto Médio e Erro Percentual Absoluto Médio, fornecendo uma visão abrangente da precisão e da magnitude dos desvios.
Os resultados obtidos demonstraram que todos os modelos de aprendizado de máquina superaram significativamente o baseline fornecido pelas previsões numéricas globais. O modelo LightGBM destacou-se como o mais eficiente, apresentando um Erro Quadrático Médio de 1.53 no conjunto de teste, em comparação ao erro de 2.46 da predição original. Isso representa uma redução absoluta de 0.92 no erro e um ganho relativo de acurácia de 37.6%. O coeficiente de determinação atingiu 0.70, indicando que o modelo foi capaz de explicar 70% da variabilidade dos dados observados. O XGBoost e o Random Forest também apresentaram melhorias relevantes, com reduções de erro de 30.2% e 25.6%, respectivamente. A análise das métricas de erro para os percentis 90 e 95 confirmou que os modelos treinados são consideravelmente mais consistentes na previsão de valores extremos do que os modelos físicos tradicionais.
A análise de importância das variáveis, realizada através dos valores de SHAP, revelou que as previsões originais de temperatura e umidade, juntamente com seus respectivos lags de curto prazo, foram os preditores mais influentes. A presença de componentes cíclicos diários e anuais também contribuiu para a precisão, confirmando a importância de considerar a sazonalidade no ajuste de previsões meteorológicas. As derivadas de segunda ordem para pressão e vento apareceram como fatores secundários, sugerindo que o modelo utiliza mudanças na tendência atmosférica para refinar suas estimativas. Essa capacidade de integrar informações históricas recentes com previsões futuras brutas permite que o sistema corrija erros sistemáticos de calibração que modelos globais não conseguem detectar devido à sua baixa resolução espacial.
A comparação entre o desempenho nas bases de treino e teste indicou um aumento nos erros durante a fase de teste, o que é esperado em sistemas meteorológicos devido à sua natureza caótica e à ocorrência de eventos não mapeados no período de treinamento. No caso do LightGBM, a variação relativa do erro entre as bases foi expressiva, mas o erro absoluto permaneceu dentro de patamares aceitáveis e superiores ao modelo físico. Essa discrepância sugere que, embora o modelo tenha aprendido padrões fundamentais, a expansão da base de dados para incluir diferentes estações do ano e uma maior diversidade de eventos climáticos poderia aumentar ainda mais sua capacidade de generalização. A consistência visual das curvas de previsão demonstrou que os modelos treinados acompanham as tendências de aquecimento e resfriamento com muito mais precisão do que a predição original, especialmente em períodos de transição rápida.
A aplicação prática desses resultados é imediata em setores como a agricultura de precisão. A capacidade de prever a temperatura hiperlocal com um erro reduzido permite otimizar sistemas de irrigação e planejar janelas de pulverização com maior segurança, evitando desperdícios de insumos e protegendo as culturas contra estresses térmicos. Na defesa civil, a melhoria na precisão dos alertas de curto prazo pode salvar vidas e reduzir danos materiais ao permitir ações preventivas mais eficazes. O estudo valida a premissa de que o pós-processamento de modelos numéricos globais através de técnicas de aprendizado de máquina é uma estratégia robusta e acessível para elevar a qualidade da informação meteorológica disponível para o tomador de decisão.
Conclui-se que o objetivo foi atingido, uma vez que o desenvolvimento dos modelos híbridos resultou em um ganho de acurácia de 37% em relação às previsões meteorológicas tradicionais. A metodologia de tratamento de dados hiperlocais e a aplicação de algoritmos de ensemble mostraram-se eficazes para corrigir vieses sistemáticos e fornecer estimativas mais precisas em escala local. O modelo LightGBM apresentou o melhor desempenho geral, consolidando-se como uma ferramenta viável para aplicações em setores críticos como agricultura e defesa civil. Embora existam limitações quanto à abrangência temporal e geográfica dos dados utilizados, os resultados estabelecem uma base sólida para a expansão do sistema para outras variáveis e localidades. O uso de inteligência artificial para o refinamento de previsões numéricas representa um avanço estratégico, unindo baixo custo computacional com alta precisão operacional.
Referências Bibliográficas:
Agyekum, T. P.; Antwi-Agyei, P.; Dougill, A. J. (2022). The contribution of weather forecast information to agriculture, water, and energy sectors in East and West Africa: A systematic review. Frontiers in Environmental Science 10:935696.
Bauer, P.; Thorpe, A.; Brunet, G. (2015). The quiet revolution of numerical weather prediction. Nature 525: 47–55.
Biswas, M.; Dhoom, T.; Barua, S. (2018). Weather forecast prediction: An integrated approach for analyzing and measuring weather data. International Journal of Computer Applications 182(34): 20–25.
Chen, K.; Wang, P.; Yang, X.; Zhang, N.; Wang, D. (2020). A model output deep learning method for grid temperature forecasts in Tianjin area. Applied Sciences 10(5808): 1–23.
Czibula, G.; Mihai, A.; Mihuleţ, E. (2021). NowDeepN: An ensemble of deep learning models for weather nowcasting based on radar products’ values prediction. Applied Sciences 11(125): 1–27.
Das, P.; Posch, A.; Barber, N.; Hicks, M.; Duffy, K.; Vandal, T.; Singh, D.; van Werkhoven, K.;
Resumo executivo oriundo de Trabalho de Conclusão de Curso de MBA em Data Science, Inteligência Artificial e Analytics






































