
28 de janeiro de 2026
Previsão de atrasos e cancelamentos aéreos com machine learning e dados da ANAC
Arian Fernandes Bertonha; André Luís Ramos Sanches
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo desta pesquisa é desenvolver e avaliar modelos preditivos de Machine Learning, com ênfase no algoritmo Random Forest, para estimar o risco de atrasos e cancelamentos em voos no Brasil, utilizando a base de dados históricos da Agência Nacional de Aviação Civil (ANAC). A investigação busca construir modelos preditivos, identificar os principais fatores associados a esses eventos e avaliar a acurácia dos modelos por meio de métricas apropriadas. A abordagem metodológica se divide em uma análise exploratória via regressão multialvo e uma análise preditiva principal focada na classificação de risco por alvo, simulando um cenário de implementação temporal.
O transporte aéreo é um pilar para o desenvolvimento econômico e social (Khan et al., 2017). No Brasil, o setor de aviação civil demonstra crescimento contínuo, conforme relatórios da ANAC (2024). Essa expansão aumenta a complexidade das operações, tornando atrasos e cancelamentos desafios de alto impacto para toda a cadeia do setor (Pejovic, 2020). Tais eventos geram efeitos negativos para passageiros, companhias aéreas e infraestrutura aeroportuária, exigindo soluções proativas e baseadas em dados para sua mitigação.
Para o consumidor, um voo atrasado ou cancelado compromete agendas profissionais, eventos pessoais e conexões (Li et al., 2021). Para as operadoras aéreas, as consequências incluem custos financeiros diretos, como assistência a passageiros e multas, danos à reputação e retrabalho logístico na realocação de passageiros e aeronaves (Sánchez et al., 2011). A Resolução nº 400/2016 da ANAC estabelece direitos aos passageiros, como assistência material e opções de reembolso ou reacomodação, o que reforça a necessidade de as companhias gerenciarem proativamente esses eventos para minimizar custos (ANAC, 2016).
Neste cenário, as técnicas de Machine Learning são uma abordagem promissora para problemas complexos na aviação (Moreno et al., 2024). A aplicação de algoritmos de aprendizado de máquina é eficaz na identificação de padrões e na previsão de comportamentos a partir de dados históricos (Sridhar, 2020). A capacidade computacional e a disponibilidade de dados operacionais em larga escala, como os registros da ANAC, criam um ambiente propício para modelos preditivos que antecipem atrasos e cancelamentos com maior precisão (Shu, 2021). Essa análise pode capacitar as companhias a otimizar operações, melhorar a alocação de recursos e aprimorar a experiência do passageiro (Mirthipati, 2024).
A relevância deste estudo alinha-se à necessidade de solucionar problemas operacionais com consequências econômicas e de satisfação do cliente. A capacidade de prever atrasos permite que empresas implementem ações corretivas antecipadamente. Atrasos frequentes deterioram a imagem corporativa e geram custos adicionais, resultando na perda de clientes (Fathurahman et al., 2018). A literatura sugere que a combinação de algoritmos como o Random Forest com dados históricos detalhados tem potencial para gerar previsões acuradas (Moreira et al., 2018). A melhoria da previsibilidade é crucial para a competitividade das operadoras, permitindo a redução de impactos financeiros (Gui et al., 2020). Embora este trabalho se limite a um conjunto de variáveis simplificado, ele estabelece um framework que poderia ser enriquecido com dados adicionais, como condições climáticas (Choi et al., 2016) e históricos de manutenção, para aumentar seu poder preditivo.
A metodologia adotada é uma pesquisa aplicada de natureza quantitativa, focada no uso de Data Science e Machine Learning. O desenho da pesquisa é um estudo de caso único, abrangendo operações de diversas companhias e rotas no Brasil. A análise baseia-se em dados históricos, explorando variáveis como percentuais de atrasos, cancelamentos, companhias, aeroportos e volume de voos. A abordagem quantitativa permite a aplicação de algoritmos e a avaliação objetiva de seu desempenho por meio de métricas estatísticas, garantindo a validade e replicabilidade dos resultados.
A coleta de dados foi realizada a partir da base de voos da ANAC, disponibilizada no portal de dados abertos do Governo. A fonte é mantida conforme a Resolução nº 218 de 2012 e a Portaria SAS nº 3.838 de 2017, que obrigam as companhias a informar mensalmente os índices de atrasos e cancelamentos (ANAC, 2017). O conjunto de dados extraído contém informações mensais sobre Ano, Mês, Empresa Aérea, Aeroporto de Origem e Destino, Etapas Previstas e as três variáveis-alvo: Percentual de Cancelamentos, Percentual de Atrasos >30 minutos e Percentual de Atrasos >60 minutos. A análise é documental, utilizando dados secundários sem intervenção direta.
O processo de análise iniciou-se com um pré-processamento para garantir a qualidade dos dados. Esta fase incluiu limpeza de valores ausentes e duplicados, padronização de formatos e criação de uma coluna temporal. Variáveis categóricas como companhia aérea e aeroportos foram convertidas em formato numérico via One-Hot Encoding. Foram criados “tokens” de rota (origem-destino, companhia-rota) para capturar interações específicas. A Análise Exploratória de Dados (EDA) subsequente visou compreender a distribuição das variáveis, identificar padrões e extrair insights para guiar a modelagem.
A estratégia de modelagem foi dividida em duas abordagens. A primeira, exploratória, utilizou um Random Forest para regressão multialvo, prevendo simultaneamente os três percentuais-alvo. Os dados foram divididos aleatoriamente (70% treino, 30% teste) e o desempenho avaliado por Root Mean Square Error (RMSE) e Mean Absolute Error (MAE). A segunda e principal abordagem reformulou o problema como classificação de risco por alvo, utilizando uma divisão temporal (treino até 12/2023, validação de 01/2024 a 06/2024, teste de 07/2024 a 12/2024) para simular um cenário de produção. Rótulos binários de “alto risco” foram criados a partir do 75º quantil de cada alvo no conjunto de treino. O pipeline incluiu microajuste de hiperparâmetros, calibração isotônica e definição de limiares de decisão na validação. A avaliação final no teste foi realizada com métricas como PR-AUC, precisão, revocação e F1-score, com implementação em Python (Pandas, Scikit-learn, Matplotlib).
Os resultados da coleta e tratamento de dados (2020-2024) revelaram a necessidade de um pré-processamento criterioso. A base de dados inicial apresentava inconsistências, como valores numéricos em colunas de texto e vice-versa, além de valores ausentes. A estratégia adotada foi a remoção das linhas com inconsistências irrecuperáveis, abordagem que não comprometeu a representatividade do conjunto de dados final devido ao grande volume de registros. O tratamento incluiu também a remoção de colunas redundantes e a conversão de tipos de dados.
A análise exploratória forneceu insights sobre a dinâmica operacional. A investigação das 15 maiores companhias mostrou que Azul (AZU), TAM e Gol (GLO) dominam o cenário nacional, com a Azul liderando em volume de operações e cancelamentos absolutos. Entre as internacionais, TAP e Copa Airlines (CMP) se destacaram. Observou-se que a relação entre volume de voos e interrupções não é linear; a TAP, por exemplo, apresentou uma proporção de atrasos elevada em relação ao seu total de voos. Em contrapartida, American Airlines (AAL) e Air France (AFR) demonstraram maior estabilidade operacional.
A análise dos aeroportos mais movimentados, como Guarulhos (SBGR) e Congonhas (SBSP), revelou forte simetria nas distribuições de voos pontuais, atrasados e cancelados para partidas e chegadas. Isso sugere que os fatores causadores de interrupções são sistêmicos e interconectados. Problemas em um grande hub, como congestionamento, propagam-se pela malha aérea, afetando chegadas e conexões. Essa observação reforça a complexidade e a interdependência da rede de transporte aéreo.
A distribuição das variáveis-alvo apresentou um padrão desafiador. Os histogramas para os três desfechos mostraram distribuições altamente assimétricas, com uma concentração massiva de valores em zero ou próximos a zero, indicando que a maioria das operações ocorre com pontualidade. Contudo, as distribuições exibiram uma cauda longa à direita, representando eventos raros em que os percentuais de interrupção são muito elevados. Essa característica, com alta proporção de zeros e outliers extremos, justifica a escolha de modelos não lineares e robustos como o Random Forest.
Os resultados da regressão multialvo com Random Forest serviram como análise exploratória. As métricas de erro (RMSE e MAE) indicaram melhor desempenho na previsão de atrasos >60 minutos, mas erros mais elevados para atrasos >30 minutos e cancelamentos. O gráfico de dispersão entre valores reais e previstos revelou que o modelo tendia a subestimar os picos de interrupções, um comportamento típico de modelos de regressão com dados de cauda longa. Esses resultados motivaram a reformulação para uma abordagem de classificação de risco.
A análise de desempenho no conjunto de teste, com os limiares definidos na validação, expôs os trade-offs de cada alvo. Para atrasos >30 minutos, o modelo otimizado para F1-score alcançou alta revocação (0,708) com precisão moderada (0,453), sendo útil para triagem de rotas de risco. Para atrasos >60 minutos, a revocação foi de 0,627, mas a precisão foi baixa (0,212), indicando um número elevado de falsos alarmes. Para cancelamentos, a estratégia de atingir uma precisão mínima de 0,60 na validação resultou em alertas mais confiáveis no teste, mas com menor cobertura (revocação de 0,287), uma abordagem adequada quando o custo de um falso positivo é alto.
Em síntese, os resultados convergem para uma conclusão central: embora o pipeline metodológico seja consistente, o poder preditivo dos modelos é limitado pelo conjunto de variáveis disponível. As características operacionais básicas (companhia, rota, mês) são insuficientes para capturar a dinâmica complexa que leva a atrasos e cancelamentos. A alta concentração de zeros e a ocorrência de eventos esporádicos tornam a previsão de alto risco desafiadora. A performance modesta, especialmente em precisão, sugere que a inclusão de fontes de dados externas e dinâmicas é o caminho mais promissor para avanços. O enriquecimento do modelo com variáveis meteorológicas, indicadores de sazonalidade e capacidade dos aeroportos seria crucial para capturar os gatilhos das interrupções.
O estudo demonstrou a viabilidade de estruturar um pipeline de Machine Learning para previsão de risco de atrasos e cancelamentos com dados públicos da ANAC. A principal contribuição reside na formulação do problema como classificação de risco com validação temporal e na explicitação dos trade-offs entre precisão e revocação, permitindo a customização de regras de decisão. O desafio central foi a limitação imposta pela natureza dos dados, com alta concentração de operações pontuais e variabilidade intrínseca ao setor, que dificultaram a obtenção de alta acurácia. O Random Forest se mostrou adequado para capturar relações não lineares, mas sua performance foi restringida pela falta de variáveis mais informativas.
Para trabalhos futuros, recomenda-se o enriquecimento do conjunto de dados com fontes externas, como dados meteorológicos, informações sobre feriados e indicadores de congestionamento aeroportuário. A ausência de granularidade diária ou horária nos dados atuais da ANAC é uma limitação significativa. Sugere-se também a exploração de técnicas de modelagem complementares e o refinamento das políticas de limiar de decisão, possivelmente segmentadas por rota ou companhia. Conclui-se que o objetivo foi atingido: demonstrou-se que, embora a previsibilidade seja limitada pelas variáveis disponíveis, é possível desenvolver um sistema de classificação de risco que identifica padrões e trade-offs distintos para diferentes tipos de interrupções operacionais, como atrasos e cancelamentos.
Referências:
Agência Nacional de Aviação Civil [ANAC]. 2016. Resolução nº 400, de 13 de dezembro de 2016.
Agência Nacional de Aviação Civil [ANAC]. 2017. Portaria nº 3.838, de 21 de novembro de 2017. Disponível em: < https://www. anac. gov. br/assuntos/legislacao/legislacao-1/portarias/2017/portaria-no-3838-sas-21-11-2017 >. Acesso em: 17 set. 2024.
Agência Nacional de Aviação Civil [ANAC]. 2024. Relatório de Demanda e Oferta do Transporte Aéreo.
Akerkar, R. 2014. Analytics on Big Aviation Data: Turning Data into Insights. International
Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































