Imagem Predição de surtos de dengue no Brasil com dados epidemiológicos e climáticos

14 de janeiro de 2026

Predição de surtos de dengue no Brasil com dados epidemiológicos e climáticos

Autor(a): Davi Albini — Orientador(a): Lilian Cristina Da Silveira

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo deste estudo foi construir e avaliar uma modelagem preditiva reprodutível para antecipar, em escala municipal e com frequência semanal, a dinâmica da dengue na região Sudeste do Brasil, utilizando exclusivamente dados públicos. A pesquisa buscou transformar a vigilância epidemiológica, tradicionalmente reativa, em uma gestão proativa de risco, fornecendo uma ferramenta de suporte à decisão para a alocação eficiente de recursos e a implementação antecipada de ações de controle. A relevância desta iniciativa é sublinhada pelo impacto avassalador da dengue como um dos mais graves e persistentes problemas de saúde pública em nações tropicais e subtropicais, sendo o Brasil um dos países mais afetados em escala global.

A doença, uma arbovirose aguda causada por um vírus do gênero Flavivirus, da família Flaviviridae, e transmitida primariamente pela picada da fêmea do mosquito Aedes aegypti (Torres-Flores et al., 2022), representa uma ameaça constante para aproximadamente metade da população mundial. Estimativas da Organização Mundial da Saúde (OMS) apontam para uma incidência anual que varia de 100 a 400 milhões de infecções, um número que evidencia a magnitude do desafio sanitário (Messina et al., 2014; Zeng et al., 2021). A América Latina, em particular, consolidou-se como um epicentro global da doença, uma condição exacerbada por uma confluência de fatores socioambientais, como o clima predominantemente quente e úmido, que favorece o ciclo de vida do vetor, e processos de urbanização acelerada e desordenada, que criam inúmeros criadouros artificiais (Lopez-Gatell et al., 2015; Gutiérrez-Bugallo et al., 2020). Dentro deste cenário continental, o Brasil se destaca por concentrar uma parcela significativa dos casos notificados.

Uma análise da série histórica revela uma tendência de intensificação das epidemias: dados do Ministério da Saúde indicam um crescimento alarmante de 442% no número de casos prováveis quando se compara o quinquênio 2000-2004 com o período de 2020-2024. O ano de 2024, em particular, marcou o maior surto já registrado na história do país, com uma incidência cinco vezes superior à observada no mesmo período do ano anterior, um fato que sublinha a urgência e a necessidade de se desenvolver e implementar novas estratégias de vigilância e controle (Gurgel-Gonçalves et al., 2024). A complexidade do cenário epidemiológico brasileiro é alimentada por uma teia de fatores interconectados que favorecem a disseminação viral.

Em primeiro lugar, as mudanças climáticas globais, com o consequente aumento das temperaturas médias e a intensificação de eventos de chuvas extremas, criam um ambiente cada vez mais ideal para a proliferação e atividade do Aedes aegypti, expandindo sua distribuição geográfica para áreas antes consideradas de baixo risco (Abdullah et al., 2022). Em segundo lugar, a expansão urbana descontrolada, frequentemente acompanhada por deficiências no saneamento básico e na coleta de resíduos sólidos, multiplica exponencialmente os potenciais criadouros do mosquito, como recipientes com água parada em quintais, lajes e terrenos baldios (Lessa et al., 2023). Adicionalmente, persistem desafios operacionais significativos no controle vetorial, incluindo a crescente resistência do Aedes aegypti aos inseticidas químicos convencionais e a dificuldade de garantir a adesão da população às medidas de prevenção domiciliar.

A situação é ainda mais agravada pela circulação simultânea dos quatro sorotipos do vírus da dengue (DENV-1, DENV-2, DENV-3 e DENV-4) no território nacional. Esta cocirculação aumenta drasticamente o risco de infecções secundárias por sorotipos diferentes, que estão associadas a uma maior probabilidade de desenvolvimento das formas graves da doença, como a dengue hemorrágica e a síndrome do choque da dengue (Teixeira et al., 2013).

Para além do imenso custo social em termos de sofrimento humano, morbidade e mortalidade, a dengue impõe um pesado fardo econômico ao país. Estima-se que os gastos anuais relacionados à doença ultrapassem um bilhão de dólares, um valor que engloba não apenas os custos diretos com assistência médica, hospitalizações e campanhas de controle, mas também os custos indiretos decorrentes da perda de produtividade por absenteísmo no trabalho e na escola (Martelli et al., 2015). Diante desta realidade multifacetada e desafiadora, a capacidade de prever surtos com semanas de antecedência emerge como uma ferramenta estratégica de valor inestimável. Modelos preditivos, fundamentados em técnicas de Ciência de Dados e Aprendizado de Máquina, oferecem um caminho promissor para antecipar picos epidêmicos, permitindo que os gestores de saúde pública planejem e executem intervenções de forma mais eficaz e direcionada (Gurgel-Gonçalves et al., 2024).

Existe uma lacuna significativa entre o potencial dos dados disponíveis e sua aplicação prática na vigilância em saúde. Este estudo propôs-se a explorar e preencher essa lacuna, desenvolvendo um modelo que não apenas antecipa a ocorrência de surtos, mas também busca identificar as variáveis-chave mais fortemente associadas à sua incidência. A abordagem metodológica foi desenhada com foco na reprodutibilidade e na transparência, visando fornecer um roteiro pragmático e de baixo custo que possa ser adaptado e implementado por secretarias de saúde municipais e estaduais para uma atuação mais estratégica, eficiente e baseada em evidências. Este estudo foi delineado como uma pesquisa de natureza quantitativa e preditiva, fundamentada na análise de séries temporais de dados secundários, públicos e anonimizados. A abrangência dos dados incluiu informações epidemiológicas, climáticas e demográficas para todos os municípios da região Sudeste do Brasil.

A escolha por utilizar exclusivamente bases de dados oficiais, como o Sistema de Informação de Agravos de Notificação (SINAN) via DataSUS (2025), os dados de estações meteorológicas do INMET (2025) e as projeções populacionais do IBGE (2025), foi uma decisão estratégica para assegurar a total reprodutibilidade do estudo por outros pesquisadores ou gestores públicos. Em conformidade com a Resolução CNS n° 510 de 2016, que dispõe sobre pesquisas com dados de acesso público, o projeto foi dispensado de submissão e apreciação por um Comitê de Ética em Pesquisa, uma vez que todos os dados utilizados são agregados e não permitem a identificação de indivíduos. O processo de coleta e estruturação dos dados foi meticulosamente planejado para garantir eficiência e escalabilidade.

A coleta dos dados epidemiológicos, especificamente os registros de casos de dengue notificados, foi realizada por meio de uma conexão direta com o repositório “Base dos Dados” no ambiente do Google BigQuery. Esta plataforma foi escolhida por sua capacidade de processar grandes volumes de dados de forma rápida e por oferecer acesso a conjuntos de dados públicos já pré-processados e organizados. A extração, limpeza, transformação e integração das diferentes bases de dados foram orquestradas por meio de uma série de scripts desenvolvidos em linguagens SQL e Python. Este fluxo de trabalho automatizado garante não apenas a reprodutibilidade, mas também a facilidade de atualização do modelo com novos dados à medida que se tornam disponíveis. A metodologia de pré-processamento dos dados foi uma etapa crítica do estudo. Os dados epidemiológicos foram agregados em escala de semana epidemiológica e por município, utilizando o código IBGE como chave primária.

Foram aplicados filtros para garantir a consistência e a qualidade dos registros. Os dados climáticos, provenientes de diversas estações do INMET, foram espacialmente interpolados para gerar estimativas para todos os municípios da região, mesmo aqueles sem uma estação meteorológica local. Variáveis como temperatura média, umidade relativa do ar e precipitação acumulada foram calculadas para cada semana epidemiológica. Os dados demográficos, como população estimada e densidade demográfica, foram integrados para normalizar o número de casos, resultando na variável alvo principal: a taxa de incidência por 100.000 habitantes.

Para a construção do modelo preditivo, optou-se pela utilização de um algoritmo de Gradient Boosting, especificamente a implementação LightGBM, conhecida por sua alta performance e eficiência computacional com grandes conjuntos de dados. O conjunto de dados foi dividido cronologicamente em três partes: treinamento (70% dos dados mais antigos), validação (15% intermediários) e teste (15% dos dados mais recentes). Essa abordagem de divisão temporal é crucial em estudos de séries temporais para evitar o “vazamento de dados” do futuro para o passado, garantindo que o modelo seja avaliado em sua capacidade de prever cenários verdadeiramente inéditos. O processo de treinamento envolveu a otimização de hiperparâmetros do modelo utilizando a base de validação, com o objetivo de encontrar a combinação que minimizasse o erro de previsão.

A primeira etapa dos resultados consistiu em uma análise descritiva detalhada da série histórica de casos de dengue na região Sudeste entre os anos de 2010 e 2024. Esta análise revelou um padrão sazonal marcante, com picos de incidência consistentemente ocorrendo nos meses mais quentes e chuvosos do ano, tipicamente entre março e maio. Foi possível observar uma heterogeneidade espacial significativa, com grandes centros urbanos e municípios litorâneos apresentando, historicamente, as maiores taxas de incidência.

A análise de correlação cruzada entre as variáveis climáticas e a incidência de dengue confirmou a existência de uma forte associação positiva, especialmente com a temperatura média e a precipitação. Notavelmente, as correlações mais fortes foram encontradas com defasagens de três a cinco semanas, corroborando a hipótese de que as condições climáticas influenciam a dinâmica da doença ao modular o ciclo de vida do vetor Aedes aegypti, um processo que leva algumas semanas para se refletir no número de casos humanos notificados.

Na fase de avaliação do modelo preditivo, os resultados foram altamente promissores. Ao ser aplicado no conjunto de dados de teste, que compreendia um período não visto durante o treinamento, o modelo LightGBM demonstrou uma capacidade robusta de antecipar a tendência semanal da incidência de dengue com até quatro semanas de antecedência. O modelo alcançou um Coeficiente de Determinação (R²) de 0.82, indicando que 82% da variabilidade na incidência de dengue pôde ser explicada pelas variáveis preditoras incluídas. O Erro Médio Absoluto (MAE) foi de 15.2 casos por 100.000 habitantes, um valor considerado baixo em comparação com a amplitude das taxas de incidência observadas durante os picos epidêmicos, que frequentemente ultrapassam 500 casos por 100.000 habitantes.

A performance do modelo foi particularmente notável na previsão do início e da magnitude do surto histórico de 2024, conseguindo sinalizar o aumento exponencial de casos com várias semanas de antecedência para a maioria dos municípios de grande porte, fornecendo um alerta precoce que, se disponível em tempo real, poderia ter sido crucial para o planejamento de ações de contingência. Uma das contribuições mais relevantes do estudo foi a análise da importância das variáveis (feature importance), uma funcionalidade intrínseca aos modelos baseados em árvores de decisão.

A análise revelou que as variáveis mais influentes para a previsão da dengue foram, em ordem de importância: a incidência de dengue observada nas três semanas anteriores (uma variável autorregressiva), a temperatura média do ar com uma defasagem de quatro semanas, a precipitação acumulada com uma defasagem de cinco semanas, a semana epidemiológica do ano (capturando a sazonalidade) e a densidade demográfica do município. Este resultado não apenas valida a base teórica que conecta clima e urbanização à dinâmica da dengue, mas também quantifica a importância relativa de cada fator, oferecendo insights valiosos para os gestores de saúde. Por exemplo, a alta importância das variáveis climáticas defasadas reforça a viabilidade de sistemas de alerta precoce baseados em previsões meteorológicas. A implementação de um pipeline de dados totalmente automatizado e o uso de ferramentas de código aberto (Python, SQL) e dados públicos garantem a sustentabilidade e a reprodutibilidade do modelo.

A metodologia desenvolvida pode ser replicada por qualquer secretaria de saúde com acesso à internet e conhecimento técnico básico, permitindo a adaptação do modelo para outras regiões do Brasil ou até mesmo para outras doenças transmitidas por vetores com dinâmicas semelhantes. A capacidade de gerar previsões semanais em nível municipal oferece um nível de granularidade que é diretamente aplicável ao planejamento operacional, como a intensificação de visitas de agentes de endemias em áreas de maior risco previsto, a preparação de unidades de saúde para um aumento na demanda e a otimização de campanhas de comunicação e mobilização social.

Conclui-se que o objetivo foi atingido, pois o estudo logrou êxito em construir e validar um modelo preditivo funcional, reprodutível e de baixo custo, demonstrando o imenso potencial da integração de dados públicos para fortalecer a vigilância em saúde e promover uma gestão mais proativa e eficaz no combate à dengue.

Referências:
Abdullah, N. A. M. H.; Dom, N. C.; Salleh, S. A.; Salim, H.; Precha, N. 2022. The association between dengue case and climate: a systematic review and meta-analysis. One Health 15: 100452.
Brasil. Fundação Nacional de Saúde [FUNASA]. 2002. Guia de Vigilância Epidemiológica. 5ed. FUNASA, Brasília, DF, Brasil. 842p. ISBN 85-7346-032-6.
Fávero, L. P. 2017. Manual de Análise de Dados: Estatística e Modelagem Multivariada com Excel, SPSS e Stata. Elsevier.
Gurgel-Gonçalves, R.; Oliveira, W. K.; Croda, J. 2024. The greatest dengue epidemic in Brazil: surveillance, prevention, and control. Revista da Sociedade Brasileira de Medicina Tropical 57: e00203-2024.
Gutiérrez-Bugallo, G.; Boullis, A.; Martinez, Y.; Hery, L.; Rodríguez, M.; Bisset, J. A.; Vega-Rúa, A. 2020. Vector competence of Aedes aegypti from Havana, Cuba, for dengue virus type 1, chikungunya, and Zika viruses. PLoS Neglected Tropical Diseases 14(12): e0008941.
Hii, Y. L.; Zhu, H.; Ng, N.; Ng, L. C.; Rocklöv, J. 2012. Forecast of dengue incidence using temperature and rainfall. PLoS Neglected Tropical Diseases 6(11): e1908.
Hyndman, R. J.; Athanasopoulos, G. 2018. Forecasting: Principles and Practice. OTexts.
Instituto Brasileiro de Geografia e Estatística [IBGE]. 2025. Panorama das Cidades do Brasil. Disponível em: https://cidades. ibge. gov. br/brasil/panorama. Acesso em: 15 jun. 2025.
Instituto Nacional de Meteorologia [INMET]. 2025. Banco de Dados Meteorológicos do INMET. Disponível em: https://bdmep. inmet. gov. br/#. Acesso em: 15 jun. 2025.
Khoirunnisa, A.; Ramadhan, N. G. 2023. Improving malaria prediction with ensemble learning and robust scaler: an integrated approach for enhanced accuracy. Jurnal Infotel 15(4): 326–334.
Lai, Y. H. 2018. The climatic factors affecting dengue fever outbreaks in southern Taiwan: an application of symbolic data analysis. Biomedical Engineering Online 17(Suppl 2): 148.
Lessa, C. L. S.; Hodel, K. V. S.; Gonçalves, M. D. S.; Machado, B. A. S. 2023. Dengue as a disease threatening global health: a narrative review focusing on Latin America and Brazil. Tropical Medicine and Infectious Disease 8(5): 241.
Lopez-Gatell, H.; Hernández-Ávila, M.; Hernández-Ávila, J. E.; Alpuche-Aranda, C. M. 2015. Dengue in Latin America: a persistent and growing public health challenge. In: Neglected Tropical Diseases—Latin America and the Caribbean: 203–224. Springer-Verlag, Vienna, Áustria.
Martelli, C. M. T.; Siqueira Jr., J. B.; Parente, M. P. P. D.; Zara, A. L. D. S. A.; Oliveira, C. S.; Braga, C.; Pimenta Jr., F. G.; Cortes, F.; Lopez, J. G.; Bahia, L. R.; Mendes, M. C. O.; da Rosa, M. Q. M.; de Siqueira Filha, N. T.; Constenla, D.; de Souza, W. V. 2015. Economic impact of dengue: multicenter study across four Brazilian regions. PLoS Neglected Tropical Diseases 9(9): e0004042.
Messina, J. P.; Brady, O. J.; Scott, T. W.; Zou, C.; Pigott, D. M.; Duda, K. A.; Bhatt, S.; Katzelnick, L. C.; Howes, R. E.; Battle, K. E.; Simmons, C. P.; Hay, S. I. 2014. Global spread of dengue virus types: mapping the 70-year history. Trends in Microbiology 22(3): 138–146.
Sathish, V.; Mukhopadhyay, S.; Tiwari, R. 2020. ARMA Models for Zero Inflated Count Time Series. arXiv preprint arXiv:2004.10732.
Sistema de Informação de Agravos de Notificação [SINAN]. 2025. Base dos Dados: Notificações de dengue – Brasil. Disponível em: https://basedosdados. org/dataset/br-ms-sinan. Acesso em: 15 jun. 2025.
Skansi, S. 2018. Introduction to Deep Learning: From Logical Calculus to Artificial Intelligence. Springer.
Teixeira, M. G.; Siqueira, J. B.; Ferreira, G. L. C.; Bricks, L.; Joint, G. 2013. Epidemiological trends of dengue disease in Brazil (2000–2010): a systematic literature review. PLoS Neglected Tropical Diseases 7(12): e2520.
Torres-Flores, J. M.; Ríos-Bagilet, L. A.; Méndez-Guerrero, O.; Salazar, M. I. 2022. Dengue vaccines:


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade