Imagem Previsão da satisfação de passageiros aéreos com técnicas de Machine Learning

16 de janeiro de 2026

Previsão da satisfação de passageiros aéreos com técnicas de Machine Learning

Autor(a): Marcella de Souza Ribeiro — Orientador(a): Luana Maria Benicio

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Esta pesquisa visa prever a satisfação de passageiros aéreos com Machine Learning, identificar seus principais fatores de influência e segmentar clientes por comportamento. O estudo constrói e compara modelos de classificação para determinar a abordagem mais precisa, identificando pontos de atrito na jornada do consumidor. O objetivo é fornecer subsídios para que companhias aéreas implementem melhorias estratégicas, personalizem serviços e elevem a qualidade da experiência, fortalecendo a lealdade e a competitividade.

Na competitiva indústria aérea, a satisfação do cliente é um diferencial crucial. A percepção de valor abrange toda a jornada do passageiro, e antecipar suas necessidades é fundamental para a retenção (Kotler e Keller, 2012). A experiência do consumidor é moldada por múltiplas interações, e a qualidade do contato com funcionários fortalece a confiança na marca. A lealdade é consequência direta da interação da empresa com o cliente antes, durante e após a viagem (Arruda e Arruda, 1998).

A segmentação de clientes é indispensável para direcionar estratégias. Agrupar passageiros por finalidade da viagem (negócios ou lazer) ou frequência de voos permite personalizar ofertas. Um viajante a negócios pode valorizar Wi-Fi e agilidade no embarque, enquanto um a lazer pode priorizar promoções e entretenimento. Identificar segmentos-alvo com características comuns é essencial para desenvolver estratégias que atendam às expectativas de cada grupo (Zeithaml et al., 2014).

Técnicas de Machine Learning permitem a análise de grandes volumes de dados para descobrir padrões complexos no comportamento do consumidor. Esses algoritmos constroem modelos preditivos que antecipam resultados com base em dados históricos, transformando dados brutos em informações acionáveis para a tomada de decisão (Escovedo e Koshiyama, 2020). Um exemplo é o uso de modelos para prever falhas em aeronaves a partir de dados de sensores, reduzindo custos e atrasos, o que demonstra o potencial da tecnologia no setor.

A aplicação de métodos estatísticos e de aprendizado de máquina sobre dados de passageiros transforma feedbacks e dados operacionais em inteligência de negócios. Ao identificar os fatores de maior impacto na satisfação, é possível priorizar investimentos e otimizar processos. Este estudo utiliza um conjunto de dados real para demonstrar como a análise preditiva pode ser empregada para entender as nuances da satisfação do passageiro, transformando dados em decisões eficazes (Fávero e Belfiore, 2024).

O estudo utilizou um conjunto de dados público do repositório Maven Analytics (2022), com 129.880 observações e 24 variáveis sobre características demográficas, informações de voo e avaliações de serviços em escala de 0 a 5. A análise foi realizada em Python no Google Colab, com as bibliotecas Pandas, Matplotlib, Seaborn, Numpy, Sklearn e Imblearn. A fase inicial consistiu em uma análise exploratória para compreender a estrutura dos dados, identificar valores ausentes, analisar distribuições e examinar correlações.

No pré-processamento, a variável ‘Arrival Delay’ foi removida por ter valores ausentes e alta correlação com ‘Departure Delay’, evitando redundância. O campo ‘ID’ foi descartado por não ter valor analítico. Variáveis categóricas nominais, como ‘Gender’ e ‘Type of Travel’, foram convertidas para formato numérico com One-Hot Encoding, para evitar a interpretação de uma ordem hierárquica inexistente. Para modelos sensíveis à escala, como K-means e Regressão Logística, aplicou-se a padronização Z-score, que normaliza os dados para média zero e desvio padrão um. Este tratamento de dados é essencial para a robustez dos modelos (Kalinowski et al., 2023).

Para a segmentação, empregou-se o algoritmo de agrupamento não supervisionado K-means, que particiona as observações em clusters distintos. O número ideal de clusters foi determinado pelo Método do Cotovelo (Elbow Method), que analisa a soma dos erros quadrados internos (WCSS). Complementarmente, a Análise de Componentes Principais (PCA) foi usada para reduzir a dimensionalidade e identificar as variáveis de maior contribuição para a variância, facilitando a interpretação dos clusters. Enquanto o K-means agrupa por proximidade, o PCA ajuda a explicar a estrutura dessa proximidade (Bruce e Bruce, 2019).

Na modelagem preditiva, os dados foram divididos em 70% para treino e 30% para teste. Aplicou-se a técnica de Undersampling no conjunto de treino para balancear a variável alvo ‘Satisfaction’ e reduzir o risco de viés. Foram treinados e avaliados três algoritmos: Random Forest Classifier, Ada-Boost Classifier e Regressão Logística. O desempenho de cada um foi otimizado com GridSearchCV, e a robustez foi assegurada por Validação Cruzada com 5 folds para prevenir overfitting. As métricas de avaliação incluíram Acurácia, Erro Quadrático Médio (MSE), Relatório de Classificação (precisão, recall, F1-score) e Matriz de Confusão.

A análise exploratória revelou um leve desequilíbrio na base de dados: 57% dos passageiros classificados como neutros ou insatisfeitos e 43% como satisfeitos. Fatores determinantes foram identificados. Clientes recorrentes apresentaram maior satisfação (48% de avaliações positivas) comparados aos de primeira viagem (24%). A relação entre tipo de viagem e satisfação foi forte: 58% dos passageiros a negócios se declararam satisfeitos, contra apenas 10% dos que viajavam a lazer. A classe de voo também mostrou correlação direta, com a classe Business apresentando o maior índice de satisfação. A análise estatística é fundamental para compreender as distribuições e tendências que uma variável pode assumir (Morettin e Bussab, 2017). O mapa de correlação de Pearson confirmou que ‘Online Boarding’ teve a correlação positiva mais forte com a satisfação, enquanto ‘Type of Travel’ e ‘Class’ tiveram as correlações negativas mais acentuadas.

A aplicação do K-means, com três clusters definidos pelo Método do Cotovelo, identificou perfis distintos. O Cluster 1, “Altamente Satisfeitos”, era composto majoritariamente por passageiros da classe Business (74%) com notas altas (4 e 5) para serviços como conforto do assento, limpeza e alimentação. O Cluster 2, “Moderadamente Insatisfeitos”, apresentou notas 2 e 3, com queixas sobre facilidade de reserva online, processo de embarque online e conveniência dos horários. O Cluster 3, “Misto com Foco em Operações”, teve avaliações entre 3 e 4, com críticas semelhantes ao Cluster 2 sobre a plataforma digital e logística, mas com avaliação positiva do conforto. Os resultados indicam que a experiência a bordo é um ponto forte para o público premium, enquanto processos digitais e pontualidade são pontos de atrito para outros segmentos.

A Análise de Componentes Principais (PCA) complementou a segmentação. O primeiro componente principal (PC1), responsável por 18,44% da variância, foi associado a variáveis da experiência a bordo, como ‘In-flight Entertainment’, ‘Seat Comfort’ e ‘Cleanliness’, representando a dimensão “Qualidade e Conforto em Voo”. O segundo componente principal (PC2), com 10,82% da variância, relacionou-se a aspectos operacionais e logísticos, como facilidade de reserva online, Wi-Fi e horários, representando a “Eficiência e Conveniência da Jornada”. A análise reforça que a satisfação do passageiro é um construto multidimensional, influenciado tanto pela qualidade do serviço em voo quanto pela eficiência dos processos que o antecedem.

Na modelagem preditiva, o Random Forest Classifier apresentou o melhor desempenho, alcançando uma acurácia de 96,14% e um erro quadrático médio (MSE) de apenas 0,0386 no conjunto de teste. O relatório de classificação e a matriz de confusão confirmaram sua alta capacidade preditiva. Modelos de florestas aleatórias, embora mais complexos de interpretar, frequentemente superam modelos lineares em exatidão (Morettin e Singer, 2022). A análise de importância das variáveis revelou que ‘Online Boarding’, ‘In-flight wifi service’ e ‘Type of Travel’ foram os fatores mais determinantes para as previsões do modelo.

O modelo Ada-Boost Classifier também mostrou desempenho robusto, com uma acurácia de 92,79% e um MSE de 0,0721. Sendo uma técnica que combina classificadores fracos para criar um modelo forte, o Ada-Boost é uma alternativa viável e poderosa (Hastie et al., 2009). A análise de importância das variáveis neste modelo destacou ‘In-flight wifi service’ como o fator de maior peso, com mais de 20% de influência. O modelo de Regressão Logística, embora mais simples, obteve 86,8% de acurácia. Este modelo é amplamente utilizado para estimar a probabilidade de um evento binário (Batista, 2015). Sua análise revelou que a variável ‘Type of Travel Personal’ foi o fator com a maior influência negativa, enquanto ser um cliente recorrente (‘Customer Type Returning’) teve uma influência positiva significativa.

A análise comparativa dos três modelos consolidou o Random Forest como o mais preciso para este conjunto de dados, devido à sua capacidade de capturar relações não lineares. A consistência de ‘Online Boarding’ como um dos principais preditores em todos os modelos sugere que otimizar o processo de check-in e embarque digital é uma ação de alto impacto. A descoberta de que passageiros em viagens pessoais estão menos satisfeitos aponta para a necessidade de desenvolver serviços e políticas mais flexíveis para este público, como opções de remarcação facilitadas e comunicação proativa em casos de atrasos.

Este estudo demonstrou a eficácia do Machine Learning como ferramenta estratégica para o setor aéreo, permitindo prever a satisfação com alta precisão e segmentar clientes para criar estratégias personalizadas. As descobertas devem ser usadas para aprimorar a jornada do passageiro. As limitações, como o uso de dados de uma única companhia e a ausência de uma dimensão temporal ou de feedbacks textuais, abrem caminhos para pesquisas futuras, como análises comparativas entre concorrentes e a aplicação de processamento de linguagem natural em comentários abertos.

A aplicação prática dos resultados pode se traduzir em melhorias diretas. A importância do ‘Online Boarding’ sugere que investir em um aplicativo intuitivo e um processo de embarque digital sem atritos pode gerar retorno significativo na satisfação. A relevância do Wi-Fi a bordo indica que garantir uma conexão estável é um fator decisivo, especialmente para o público de negócios. A identificação de grupos insatisfeitos com a logística aponta para a necessidade de otimizar a malha aérea e melhorar a comunicação sobre atrasos. Conclui-se que o objetivo foi atingido: demonstrou-se que as técnicas de Machine Learning são eficazes para prever a satisfação dos passageiros e identificar seus principais determinantes, fornecendo uma base sólida para a tomada de decisões estratégicas orientadas por dados.

Referências:
Arruda, M. C. C.; Arruda, M. L. 1998. Satisfação do cliente das companhias aéreas brasileiras. RAE – Revista de Administração de Empresas 38(3): 25-33.
Batista, A. M. S. 2015. Regressão Logística: Uma introdução ao modelo estatístico. Exemplo de aplicação ao Revolving Credit. Vida Económica Editorial, Porto, Portugal.
Bruce, P.; Bruce, A. 2019. Estatística Prática para Cientistas de Dados: 50 conceitos essenciais. Alta Books, São Paulo, SP, Brasil.
Escovedo, T.; Koshiyama, A. 2020. Introdução a Data Science: Algoritmos de Machine Learning e métodos de análise. Casa do Código, São Paulo, SP, Brasil.
Fávero, L. P.; Belfiore, P. 2024. Manual de Análise de Dados: Estatística e Machine Learning com Excel, SPSS, Stata, R e Python. 2. ed. Grupo Editorial Nacional, Rio de Janeiro, RJ, Brasil.
Hastie, T.; Tibshirani, R.; Friedman, J. 2009. Os Elementos da Aprendizagem Estatística: Mineração de dados, inferência e predição. 2. ed. Springer, Nova York, NY, EUA.
Kalinowski, M.; Escovedo, T.; Villamizar, H.; Lopes, H. 2023. Engenharia de Software para Ciência de Dados: Um guia de boas práticas com ênfase na construção de sistemas de Machine Learning em Python. 1. ed. Casa do Código, São Paulo, SP, Brasil.
Kotler, P.; Keller, K. L. 2012. Administração de marketing. 14. ed. Pearson, São Paulo, SP, Brasil.
Maven Analytics. 2022. Satisfação do passageiro da companhia aérea. Disponível em: <https://mavenanalytics. io/data-playground>.
Morettin, P. A.; Bussab, W. de O. 2017. Estatística Básica. 9. ed. Saraiva Uni, São Paulo, SP, Brasil.
Morettin, P. A.; Singer, J. M. 2022. Estatística e Ciência de Dados. 1. ed. LTC, Rio de Janeiro, RJ, Brasil.
Zeithaml, V. A.; Bitner, M. J.; Gremler, D. D. 2014. Marketing de Serviços: A Empresa com Foco no Cliente. 6. ed. AMGH, Porto Alegre, RS, Brasil.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade