
26 de fevereiro de 2026
Previsão de Atrasos em Voos no Brasil com Aprendizado de Máquina e Dados Meteorológicos
José Carlos Esteca Junior; Miguel Ângelo Lellis Moreira
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A literatura acadêmica corrobora que a pontualidade é uma função de múltiplas variáveis, abrangendo fatores operacionais, de infraestrutura aeroportuária e, de forma proeminente, as condições climáticas (Bendinelli & Oliveira, 2024). A Agência Nacional de Aviação Civil (ANAC) atua como órgão regulador do setor e disponibiliza vastos conjuntos de dados operacionais que permitem a análise de desempenho e a investigação desses fenômenos (ANAC, 2023). Ao identificar os precursores de um atraso, sejam eles operacionais ou meteorológicos, é possível capacitar os centros de controle operacional a tomar decisões mais informadas, mitigando os efeitos em cascata que um único voo atrasado pode gerar em toda a malha aérea. Este trabalho enriquece os dados operacionais da ANAC com informações meteorológicas históricas detalhadas, obtidas através da plataforma Open-Meteo, integrando variáveis como temperatura, precipitação, intensidade e direção do vento, e radiação solar.
A hipótese central é que a combinação sinérgica dessas fontes de dados aumenta a robustez e o poder preditivo dos modelos, permitindo a identificação de padrões complexos que não seriam visíveis analisando-se apenas os dados operacionais isoladamente. Por exemplo, a interação entre a direção do vento e a configuração das pistas de um aeroporto específico pode ser um fator crítico que apenas um modelo integrado consegue capturar. Esta abordagem multidisciplinar alinha-se a pesquisas de vanguarda que aplicam ciência de dados para otimizar a aviação civil (Yuemin, 2021; Khaksar & Sheikholeslami, 2019). O uso de algoritmos de aprendizado de máquina supervisionado para prever atrasos aéreos é uma abordagem consolidada e corroborada por diversos estudos internacionais. O trabalho de Stefanovič, Štrimaitis e Kurasova (2020), por exemplo, demonstrou ganhos preditivos significativos ao aplicar técnicas semelhantes em aeroportos europeus, validando a eficácia do método.
O presente estudo replica e expande essa abordagem para o contexto específico do Brasil, que possui particularidades geográficas, climáticas e operacionais. A avaliação de um conjunto diversificado de algoritmos, que vai desde modelos lineares interpretáveis até métodos de conjunto (ensemble) de alta performance, é intencional. Essa diversidade permite não só buscar o melhor desempenho, mas também entender as diferentes capacidades de cada técnica em capturar relações complexas e não lineares, conforme teorizado por Hastie, Tibshirani e Friedman (2009). A contribuição prática e finalística desta pesquisa é o desenvolvimento de uma ferramenta analítica que possa ser utilizada por companhias aéreas e gestores aeroportuários para antecipar disrupções operacionais. Modelar a probabilidade de atraso de um voo específico permite a implementação de estratégias proativas, como o ajuste de malhas aéreas em tempo hábil, o remanejamento preventivo de tripulações e aeronaves, e, fundamentalmente, uma comunicação mais transparente e precisa com os passageiros.
Foi desenvolvido um processo automatizado em Python, utilizando um ecossistema de bibliotecas de alto desempenho como Spark, para processamento distribuído de grandes volumes de dados, e Pandas, para manipulação e análise de dados em memória. As fontes primárias foram o portal de dados abertos da ANAC, que disponibiliza os registros históricos de Voos Regulares Ativos (VRA) de 2000 a 2025, e a API do serviço Open-Meteo, que fornece dados meteorológicos históricos globais com alta granularidade.
Para garantir a relevância e a contemporaneidade da análise, foi selecionado o período de janeiro de 2020 a abril de 2024, resultando em um conjunto de dados massivo de 3.952.222 registros de voos e 1.174.391 registros meteorológicos correspondentes.
A análise exploratória inicial revelou a heterogeneidade dos dados, indicando a necessidade de um tratamento robusto, incluindo a gestão de valores ausentes, a padronização de formatos de data e hora, e a conversão de tipos de dados. Um desafio técnico significativo foi a ausência de uma chave de ligação direta entre as bases de dados operacional e meteorológica. A base da ANAC utiliza o código ICAO (International Civil Aviation Organization) para identificar os aeroportos, enquanto a API do Open-Meteo requer coordenadas geográficas (latitude e longitude) para a consulta de dados meteorológicos.
Para superar essa incompatibilidade, foi necessário recorrer a uma base de dados auxiliar da plataforma OurAirports, que contém um mapeamento abrangente de códigos ICAO para suas respectivas coordenadas geográficas. O pipeline de preparação de dados foi uma etapa crítica e multifacetada. Iniciou-se com a remoção de registros que apresentavam valores nulos na variável alvo (situação da partida), pois estes não poderiam ser utilizados para treinamento ou avaliação. Em seguida, variáveis categóricas, como companhia aérea, tipo de linha e aeroporto de origem/destino, foram transformadas em representações numéricas através da técnica de one-hot encoding, evitando a imposição de uma ordem artificial entre as categorias (Samuels, 2024).
Foi realizada uma extensa engenharia de atributos temporais, decompondo as variáveis de data e hora em componentes mais granulares, como ano, mês, dia da semana, dia do ano e parte do dia (manhã, tarde, noite), com o objetivo de permitir que os modelos capturassem padrões de sazonalidade e ciclicidade (Géron, 2022). O problema de classificação foi estruturado a partir da variável situacaopartida. A definição de “atraso” foi um ponto metodológico crucial. Com base em padrões da indústria e para focar em disrupções mais significativas, um voo foi classificado como atrasado se sua partida ocorreu com mais de 30 minutos de diferença em relação ao horário previsto. Devido ao severo desbalanceamento de classes observado nos dados, com mais de 92% dos voos sendo pontuais ou antecipados, a variável alvo foi transformada em uma variável binária, STATUSBIN (1 para atraso > 30 minutos, 0 para não atrasado).
Foram selecionados cinco algoritmos para avaliação comparativa: Regressão Logística, como baseline linear; Árvore de Decisão, como modelo não linear simples; e três métodos de ensemble, Floresta Aleatória, Gradient Boosting e XGBoost, conhecidos por sua robustez. A base de dados foi dividida em 80% para treinamento e 20% para teste, utilizando estratificação para garantir que a proporção de classes fosse mantida em ambos os conjuntos. O desempenho foi avaliado com um conjunto abrangente de métricas derivadas da matriz de confusão, como Acurácia, Precisão, Revocação (Recall), F1-score e, de especial importância, a Área sob a Curva ROC (AUC), que é particularmente útil para avaliar o poder discriminativo de modelos em cenários desbalanceados (Bishop, 2006).
A análise dos resultados revelou que, embora todos os modelos tenham alcançado uma alta acurácia, variando em torno de 0,919, essa métrica se mostrou enganosa e inadequada para avaliar o verdadeiro desempenho no contexto do problema. Métricas mais sensíveis ao desbalanceamento, como Recall, F1-score e AUC, forneceram uma visão mais precisa e crítica do desempenho de cada algoritmo. O modelo de Regressão Logística (Hosmer; Lemeshow; Sturdivant, 2013), utilizado como ponto de partida, apresentou o desempenho mais fraco na detecção de atrasos. Seu AUC de 0,6002 indica uma capacidade discriminativa apenas marginalmente superior a uma classificação aleatória. O principal ponto de falha foi o Recall para a classe de atrasos, que atingiu um valor extremamente baixo de 0,00032. Isso significa que o modelo foi praticamente incapaz de identificar os eventos de atraso, classificando quase todos os voos como pontuais.
Este resultado evidencia a limitação fundamental de modelos lineares, que assumem uma separabilidade linear entre as classes, uma premissa que não se sustenta em cenários complexos e com severo desequilíbrio de classes. A Árvore de Decisão (Breiman et al., 1984), mesmo com hiperparâmetros otimizados para evitar sobreajuste, apresentou um desempenho apenas ligeiramente superior. O Recall para a classe de atrasos subiu para 0,1111, um avanço notável em relação à Regressão Logística, mas o AUC foi inferior, registrando 0,5820. O F1-score de 0,1480, que busca um equilíbrio entre precisão e recall, embora superior ao do modelo linear, ainda é considerado baixo para uma aplicação prática. A estrutura hierárquica e as partições recursivas da árvore (Quinlan, 1986) não foram suficientes para isolar os padrões complexos que levam a um atraso, sendo a sua construção fortemente influenciada pela prevalência da classe majoritária em cada nó.
Os modelos baseados em ensemble, que combinam múltiplas árvores de decisão para obter uma predição mais robusta, demonstraram um desempenho superior. A Floresta Aleatória (Breiman, 2001), que utiliza a técnica de bagging (bootstrap aggregating) para reduzir a variância, alcançou um AUC de 0,6488. No entanto, seu Recall para a classe de atrasos foi novamente muito baixo (0, 0049), apesar de uma alta precisão (0, 6463). Essa combinação de métricas indica que, quando o modelo previa um atraso, ele estava frequentemente correto, mas falhava em identificar a grande maioria dos atrasos que de fato ocorreram. Em números absolutos, o modelo identificou corretamente apenas 295 voos atrasados, enquanto falhou em detectar 58.870 atrasos reais no conjunto de teste. Os algoritmos de boosting, que constroem modelos de forma sequencial; cada novo modelo tenta corrigir os erros do anterior, apresentaram os resultados mais promissores.
O Gradient Boosting (Friedman, 2001) obteve um AUC de 0,6595 e um Recall de 0,0066, representando um ganho marginal, porém consistente, sobre a Floresta Aleatória. O mecanismo de correção de erros permitiu que o modelo identificasse corretamente 389 voos atrasados, mostrando uma pequena melhoria na sensibilidade. Contudo, a taxa de falsos negativos permaneceu extremamente elevada, indicando que o viés para a classe majoritária ainda era o fator dominante. O XGBoost (Chen & Guestrin, 2016), uma implementação otimizada e regularizada de gradient boosting, destacou-se como o modelo de melhor desempenho geral entre todos os testados. Ele alcançou o maior valor de AUC (0, 6830) e o maior F1-score (0, 0230).
A análise de sua matriz de confusão mostrou a identificação correta de 699 voos atrasados, um número que, embora ainda pequeno em termos percentuais, é mais que o dobro do alcançado pelo Gradient Boosting. Apesar de ainda apresentar um Recall baixo (0, 0119), sua capacidade superior de discriminar entre as classes, mesmo sob forte desbalanceamento, o posiciona como a abordagem mais eficaz e promissora dentre as avaliadas neste estudo. A comparação das métricas entre os cinco modelos evidencia uma tendência clara: a complexidade e a capacidade de generalização aumentam progressivamente dos modelos lineares para os métodos de ensemble, com os algoritmos de boosting, e em particular o XGBoost, na liderança. Contudo, o principal gargalo identificado em todos os modelos foi o impacto avassalador do desbalanceamento de classes. Nenhum dos algoritmos, em sua configuração padrão, conseguiu superar adequadamente o viés em direção à classe majoritária.
A alta acurácia observada em todos os casos é uma “armadilha” comum em problemas desbalanceados, e a utilidade prática de um sistema de previsão de atrasos depende diretamente de sua capacidade de identificar a classe minoritária (medida pelo Recall). Portanto, métricas de avaliação mais holísticas, como o F1-score e a análise da curva ROC, são fundamentais para uma avaliação correta e honesta do desempenho do modelo. Em conclusão, o estudo demonstrou a viabilidade da integração de dados operacionais da ANAC com dados meteorológicos do Open-Meteo para a modelagem de atrasos em voos domésticos no Brasil.
A análise comparativa de cinco algoritmos de aprendizado de máquina revelou que os métodos de ensemble baseados em boosting, especialmente o XGBoost, apresentam um desempenho superior em termos de capacidade discriminativa, conforme medido pela métrica AUC. No entanto, a pesquisa também expôs o desafio crítico imposto pelo severo desbalanceamento de classes, que limitou drasticamente a capacidade de todos os modelos em identificar corretamente a ocorrência de atrasos, resultando em baixos valores de Recall e F1-score. As implicações práticas desses achados sugerem que, embora a modelagem preditiva seja uma ferramenta promissora para o setor aéreo, sua implementação efetiva em um ambiente operacional requer etapas adicionais e mais sofisticadas para o tratamento do desbalanceamento. Recomenda-se, para trabalhos futuros, a exploração sistemática de técnicas de reamostragem de dados, como SMOTE (Synthetic Minority Over-sampling Technique) para gerar exemplos sintéticos da classe minoritária, ou técnicas de undersampling da classe majoritária.
Além disso, a aplicação de algoritmos que permitem a ponderação de classes ou o uso de funções de custo customizadas, que penalizem mais severamente os erros na classe minoritária, são caminhos promissores. A combinação dessas estratégias com o poder preditivo do XGBoost pode levar a um aumento significativo na robustez e na utilidade prática do modelo.
Conclui-se que o objetivo foi atingido, preservando-se os achados e a contribuição prática delineada.
Referências:
AGÊNCIA NACIONAL DE AVIAÇÃO CIVIL (ANAC). Quem somos. Brasília: ANAC, 2023. Disponível em: https://www. gov. br/anac/pt-br/acesso-a-informacao/institucional/quem-somos. Acesso em: 5 maio 2025.
BENDINELLI, W. E.; OLIVEIRA, A. V. M. Determinantes concorrenciais dos atrasos dos voos no aeroporto e na rota. Communications in Airline Economics Research, v. 1, 2024.
BISHOP, C. M. Pattern recognition and machine learning. New York: Springer, 2006. DOI: 10.1007/978-0-387-45528-0.
BREIMAN, L. Random forests. Machine Learning, v. 45, n. 1, p. 5–32, 2001. DOI: 10.1023/A:1010933404324.
BREIMAN, L. et al. Classification and Regression Trees. Belmont: Wadsworth International Group, 1984.
CHEN, Tianqi; GUESTRIN, Carlos. XGBoost: A Scalable Tree Boosting System. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, CA, USA, 13–17 August 2016. p. 785–794. DOI: https://doi. org/10.1145/2939672.2939785.
FRIEDMAN, J. H. Greedy function approximation: a gradient boosting machine. Annals of Statistics, v. 29, n. 5, p. 1189–1232, 2001. DOI: 10.1214/aos/1013203451.
GÉRON, Aurélien. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. 3. ed. Sebastopol: O’Reilly, 2022.
HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The elements of statistical learning: data mining, inference, and prediction. 2. ed. New York: Springer, 2009. DOI: 10.1007/978-0-387-84858-7.
HOSMER, D. W.; LEMESHOW, S.; STURDIVANT, R. X. Applied Logistic Regression. 3. ed. New York: Wiley, 2013. DOI: 10.1002/9781118548387.
Khaksar, H., & Sheikholeslami, A. (2019). Airline delay prediction by machine learning algorithms. Scientia Iranica. https://doi. org/10.24200/sci.2017.20020
OLIVEIRA, A. P. et al. Infraestrutura aeroportuária e pontualidade dos voos no Brasil: uma análise estatística. Revista Brasileira de Logística, v. 12, n. 1, p. 50–63, 2021.
OPEN-METEO. Historical Weather API Documentation. 2024. Disponível em: https://open-meteo. com/en/docs/historical-weather-api. Acesso em: 25 maio 2025.
QUINLAN, J. R. Induction of decision trees. Machine Learning, v. 1, n. 1, p. 81–106, 1986. DOI: 10.1007/BF00116251.
SAMUELS, J. A. One-Hot Encoding and Two-Hot Encoding: An Introduction. 2024. DOI: 10.13140/RG.2.2.21459.76327.
Stefanovič, P., Štrimaitis, R., & Kurasova, O. (2020). Prediction of flight TIME deviation for Lithuanian airports using supervised machine learning model. Computational Intelligence and Neuroscience, 2020, 1–10. https://doi. org/10.1155/2020/8878681
Yuemin Tang. 2021. Airline Flight Delay Prediction Using Machine Learning Models. In 2021 5th International Conference on E-Business and Internet (ICEBI 2021), October 15-17, 2021, Singapore, Singapore. ACM, New York, NY, USA, 7 Pages. https://doi. org/10.1145/3497701.3497725.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































