
10 de dezembro de 2025
Infraestrutura aérea e turismo internacional no Brasil com aprendizado de máquina
Autora: Aline Dos Santos Sousa — Orientador: Erik Miguel De Elias
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo utilizou aprendizado de máquina não supervisionado para expor os padrões e correlações entre a infraestrutura de transporte aéreo e o volume de turismo internacional no Brasil. A investigação parte da premissa de que, apesar do vasto potencial turístico nacional, o país ocupa posições modestas em rankings globais de visitação, uma lacuna influenciada por deficiências estruturais. A análise busca quantificar a relação entre a capacidade da malha aérea e a atratividade do Brasil como destino, fornecendo um diagnóstico empírico para subsidiar políticas públicas. A abordagem data-driven permite identificar gargalos e alavancas de crescimento, movendo o debate para uma análise baseada em evidências.
A pesquisa é justificada pela subperformance do Brasil no mercado global de turismo. Dados da Organização Mundial do Turismo (OMT, 2025) e análises de especialistas (Sarmento e Pereira, 2024) posicionam o país aquém de seu potencial. Em 2024, o Brasil recebeu 6,6 milhões de turistas estrangeiros, número que, embora crescente (Embratur, 2025), é inferior ao de nações como Espanha e França, que em 2018 atraíam mais de 80 milhões de visitantes, ou do México, com mais de 44 milhões (Jornal da Universidade de São Paulo, 2023). A disparidade não se deve apenas à falta de atrativos, mas a barreiras estruturais que dificultam o acesso. Esforços governamentais, como a criação da Embratur em 1966 (Brasil, 1966), buscaram promover o destino Brasil, mas os resultados indicam que a promoção precisa ser acompanhada por melhorias na infraestrutura.
Entre os fatores limitantes, a infraestrutura de transporte é um elemento crítico. Embora a distância geográfica e a barreira linguística sejam desafios (Carvalho, 2011), a conectividade é um pré-requisito para superá-los. A qualidade dos transportes afeta a experiência do visitante e a competitividade dos destinos (Arruda et al., 2021). No Brasil, os modais terrestre e aéreo apresentam deficiências. O transporte rodoviário e ferroviário sofre com subinvestimento histórico, conforme a Confederação Nacional do Transporte (CNT, 2025), sobrecarregando o sistema aéreo, principal via de acesso para turistas internacionais.
O transporte aéreo, por sua vez, enfrenta desafios próprios. A infraestrutura aeroportuária não acompanhou o crescimento da demanda, com muitos aeroportos operando acima da capacidade, enquanto a malha aérea regional permanece subdesenvolvida (Rodrigues et al., 2014). A concentração de voos internacionais em poucas capitais cria gargalos e distribui desigualmente os benefícios do turismo. Relatórios da Agência Nacional de Aviação Civil (ANAC, 2024) indicam que o setor ainda lida com barreiras à entrada de novas empresas e alta judicialização, dificultando a expansão.
Políticas públicas, como os Planos Nacionais de Turismo (PNT), buscaram endereçar essas questões, mas enfrentam dificuldades na implementação. Estudos sobre os PNTs apontam falta de alinhamento entre diagnóstico, metas e indicadores, além de limitada incorporação da pesquisa científica (Reis e Santos, 2023; Vilela & Costa, 2020). Diante disso, uma análise quantitativa que mapeie a relação entre infraestrutura aérea e fluxos turísticos é essencial. Ao aplicar aprendizado de máquina não supervisionado, este estudo se propõe a revelar estruturas latentes nos dados, oferecendo uma visão multidimensional para um planejamento mais eficaz.
A metodologia foi exploratória-quantitativa, para analisar objetivamente as relações entre variáveis (Creswell, 2010; Prodanov e Freitas, 2013). O estudo também teve natureza descritiva e explicativa (Gil, 2017), buscando elucidar os fatores determinantes dos fenômenos. Foram aplicadas técnicas de aprendizado de máquina não supervisionado, adequadas para descobrir padrões intrínsecos nos dados sem categorias pré-definidas (O’Reilly, 2018). A sequência metodológica foi estruturada em três etapas: Coeficiente de Correlação de Pearson, Análise de Componentes Principais (ACP) e Análise de Cluster.
O primeiro passo foi a aplicação do Coeficiente de Correlação de Pearson para quantificar as associações lineares entre as variáveis. Conforme Fávero e Belfiore (2024), o coeficiente varia de -1 a +1. Em seguida, empregou-se a Análise de Componentes Principais (ACP), uma técnica de redução de dimensionalidade que sintetiza variáveis correlacionadas em componentes principais não correlacionados (Jolliffe, 2002). A adequação dos dados para a ACP foi confirmada pelo Teste de Esfericidade de Bartlett (Fávero e Belfiore, 2024). A seleção dos componentes seguiu o critério de Kaiser (autovalor > 1) e o critério da variância acumulada (entre 70% e 90%) (Jolliffe, 2002). Os “scores” de cada observação nos componentes retidos foram calculados para a etapa seguinte.
A etapa final foi a Análise de Cluster, com o método não hierárquico K-means, para agrupar os estados brasileiros em perfis homogêneos. Os “scores” da ACP serviram como variáveis de entrada, mitigando problemas de multicolinearidade (Ding e He, 2004). O número ideal de clusters (K) foi determinado pelo método do cotovelo (Géron, 2019). O algoritmo K-means funciona iterativamente para minimizar a soma dos quadrados das distâncias intra-cluster (Rokach & Maimon, 2005). A validação dos clusters foi realizada pelo coeficiente de Silhueta e pela Análise de Variância (ANOVA) unidirecional, para verificar se as diferenças entre as médias das variáveis nos clusters eram estatisticamente significativas (Fávero e Belfiore, 2024).
Os dados de 2021 a 2024, provenientes da ANAC e do Ministério do Turismo (MTur), foram tratados em Python com as bibliotecas Pandas e Scikit-learn (McKinney, 2023). O processo envolveu limpeza, agregação e cálculo de variáveis quantitativas, como número de voos, passageiros e capacidade de assentos. Para garantir que variáveis com escalas distintas não distorcessem os resultados, aplicou-se a padronização z-score, que transforma os dados para terem média zero e desvio padrão unitário, um pré-requisito para ACP e clusterização (Fávero e Belfiore, 2024).
A análise exploratória revelou uma acentuada concentração do turismo internacional. Entre 2021 e 2024, São Paulo foi responsável por 55,33% do fluxo, seguido pelo Rio de Janeiro com 29,53% e Santa Catarina com 4,82%. Juntos, concentraram quase 90% da visitação. Essa distribuição coincide com a localização dos principais aeroportos internacionais, como Guarulhos (SP) e Galeão (RJ), corroborando que a infraestrutura aérea canaliza os fluxos turísticos (Oliveira, 2009). A presença de uma infraestrutura robusta atua como fator catalisador, consolidando esses estados como as principais portas de entrada. Essa concentração, discutida na literatura (OMT, 2019), foi o ponto de partida para a investigação.
O coeficiente de correlação de Pearson confirmou a forte associação entre infraestrutura aérea e turismo. A variável qtdturistas apresentou correlações positivas e muito fortes com o número de passageiros (0,93), a quantidade de voos (0,92) e o número de assentosmáx (0,90). Correlações positivas menores foram encontradas com o número de companhias aéreas (0,83) e a quantidade de aeroportos (0,36). Em contrapartida, observaram-se correlações negativas moderadas com a distância aos principais hubs: distância até Guarulhos (-0,52), até o Rio de Janeiro (-0,51) e até Brasília (-0,34). Isso sugere que quanto mais distante um destino está dos centros aeroportuários, menor seu fluxo de turistas.
A Análise de Componentes Principais (ACP) sintetizou as 23 variáveis originais em dimensões latentes. A adequação dos dados foi confirmada pelo Teste de Esfericidade de Bartlett (χ² = 12.901,256; p < 0,001), e foram retidos quatro componentes que explicaram 79,61% da variância total. Após rotação, os componentes foram nomeados: CP1 “Proximidade dos Hubs”, CP2 “Capacidade Operacional”, CP3 “Voos de Longo Curso” e CP4 “Amplitude Operacional”. A visualização dos estados no plano CP1-CP2 revelou uma segregação espacial: estados com alto volume turístico, como São Paulo e Rio de Janeiro, posicionaram-se no quadrante de alta capacidade operacional e alta proximidade aos hubs, enquanto estados como Acre e Roraima agruparam-se no quadrante oposto.
Essa segregação corrobora que o transporte aéreo gera fluxos turísticos (Page, 2005). A influência do CP2 (“Capacidade Operacional”) sugere que a oferta de voos e assentos impulsiona a demanda. A posição periférica de certos estados evidencia o efeito inibidor da baixa infraestrutura, que leva a um baixo fluxo, que por sua vez não justifica investimentos. A proximidade a hubs e a intensidade operacional são condições necessárias para a consolidação de um destino, alinhando-se à teoria dos aeroportos como núcleos de desenvolvimento (Kasarda, 2000). Para aprofundar a análise, os “scores” fatoriais foram usados na análise de cluster.
A análise de cluster com K-means identificou três agrupamentos de estados. A escolha de três clusters foi validada pelo método do cotovelo. O coeficiente de Silhueta (0,307) indicou uma estrutura de agrupamento fraca, mas discernível, enquanto a ANOVA confirmou diferenças estatisticamente significativas entre os clusters para a maioria das variáveis (p < 0,001). A caracterização dos clusters revelou uma hierarquia: o “Cluster 0”, composto por São Paulo, funciona como “hub âncora”, concentrando 55,33% do turismo e apresentando valores excepcionais em capacidade operacional e proximidade aos hubs.
O “Cluster 1” (RJ, MG, PR, BA, SC, MS, PA) foi caracterizado como “integrado”, responsável por 39,94% do fluxo. Este grupo tem boa conectividade e proximidade aos hubs, mas capacidade operacional inferior à de São Paulo, funcionando como centros secundários. O “Cluster 2” (AC, AM, AP, CE, DF, PE, RN, RR) foi definido como “especializado” ou “periférico”, com apenas 4,73% do turismo. Este cluster é marcado pela maior distância dos hubs e por um perfil operacional distinto, focado em voos de longo curso ou com grande amplitude operacional.
A estratificação quantifica a premissa de que a conectividade aérea estrutura a dinâmica turística. A análise demonstra uma hierarquia operacional no sistema aeroportuário que se reflete no potencial turístico dos estados. Essa estrutura de rede, com um hub dominante, centros secundários e destinos periféricos, alinha-se a modelos teóricos que postulam a acessibilidade como determinante para o crescimento (Prideaux, 2000). Os resultados mostram que o desenvolvimento do turismo internacional no Brasil depende de um planejamento da infraestrutura aérea que vise reduzir disparidades regionais.
A análise por aprendizado de máquina não supervisionado expôs correlações robustas entre a infraestrutura aérea e o turismo internacional no Brasil. Os resultados quantificaram a dependência do fluxo turístico em relação a variáveis como quantidade de voos e passageiros, e a influência negativa da distância aos hubs. A segmentação dos estados em três clusters revelou uma hierarquia operacional, com São Paulo como hub dominante, um grupo de estados integrados e um grupo periférico. Essa estrutura concentrada é um dos principais gargalos para a distribuição dos benefícios do turismo e para o crescimento do setor.
As implicações práticas apontam para a necessidade de políticas de descentralização da malha aérea. O desenvolvimento de novos hubs regionais e o incentivo a rotas diretas são estratégias cruciais. O planejamento da infraestrutura de transporte deve ser integrado às estratégias de promoção turística. Embora o estudo tenha limitações, como o uso de dados agregados em nível estadual, ele fornece um diagnóstico baseado em evidências para subsidiar a tomada de decisão. Pesquisas futuras podem aprofundar a análise com dados mais granulares. Conclui-se que o objetivo foi atingido: demonstrou-se, por meio de aprendizado de máquina, que a concentração da infraestrutura aérea e a proximidade aos grandes centros aeroportuários são fatores determinantes que moldam os padrões e o volume do turismo internacional no Brasil.
Referências:
Arruda, Fabiana Serra de; Vieira, Daniel Pires; Carneiro, L. G. 2021. Análise da relação entre a infraestrutura rodoviária e o turismo em cidades brasileiras. In: Congresso Luso-Brasileiro para o Planejamento Urbano, Regional, Integrado e Sustentável (PLURIS 2021 Digital), 9., 2021, Brasília, DF, Brasil. Anais.
Brasil. 1966. Decreto-Lei nº 55, de 18 de novembro de 1966. Cria a Empresa Brasileira de Turismo (Embratur) e dispõe sobre a Política Nacional de Turismo. Diário Oficial da União, Brasília, 21 nov. 1966. Seção 1, p. 13149.
CARVALHO, Mariana Aldrigui. 2011. Turismo e relações internacionais: uma abordagem exploratória sobre o papel do turismo na construção da imagem internacional do Brasil. Tese (Doutorado em Geografia Humana). Universidade de São Paulo, São Paulo, SP, Brasil.
Confederação Nacional do Transporte [CNT]. 2025. Relatório de Atividades, Gestão e Contas 2024. Disponível em: < https://pesquisarodovias. cnt. org. br/conteudo>. Acesso em: 17 set. 2025.
CRESWELL, J. W.; CLARK, V. L. P. 2010. Designing and conducting mixed methods research. 3. ed. Sage, Thousand Oaks, CA, Estados Unidos.
DING, C.; HE, X. 2004. K-means Clustering via Principal Component Analysis. 1. ed. ACM, New York, NY, Estados Unidos. Disponível em: https://doi. org/10.1145/1015330.1015408. Acesso em: 17 set. 2025.
EMBRATUR. 2025. O Brasil encerra 2024 com recorde de 6,65 milhões de turistas estrangeiros, alta de 12,6%. Revista Notícias, 15(3): 10-15. Disponível em: https://embratur. com. br/2025/01/07/brasil-encerra-2024-com-recorde-de-665-milhoes-de-turistas-estrangeiros-alta-de-126/. Acesso em: 28 mar. 2025.
EVERITT, B. S. et al. Cluster Analysis. 5. ed. Chichester: Wiley, 2011.
FÁVERO, L. P.; BELFIORE, P. 2024. Análise de dados: Modelos de regressão com Excel®, SPSS®, Stata®, R® E Python®. Editora GEN LTC, Rio de Janeiro, RJ, Brasil.
GÉRON, A. 2019. Hands-On Machine Learning with Scikit-Learn, Keras and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. 2. ed. O’Reilly Media, Sebastopol, CA, Estados Unidos.
Gil, A. C. 2017. Como Elaborar Projetos de Pesquisa. 6ed. Atlas, São Paulo, SP, Brasil.
JOLLIFFE, I. T. 2002. Principal Component Analysis for Special Types of Data. In: JOLLIFFE, I. T. Principal Component Analysis. 2. ed. Springer, New York, NY, Estados Unidos. p. 1-9.
KASARDA, John D. 2000. Aerotropolis: Airport-Driven Urban Development. Urban Land Institute (ULI), Washington, DC, Estados Unidos. (ULI on the future).
McKINNEY, Wes. 2023. Python para Análise de Dados: Tratamento de Dados com pandas, NumPy e Jupyter. 3. ed. Novatec, São Paulo, SP, Brasil.
O’REILLY, Tim. 2018. Mãos à obra. 1. ed. O’Reilly, [S. l.], [s. n.], Brasil. Disponível em: https://learning. oreilly. com/library/view/maos-a-obra/9788550803814/chapter-07. html. Acesso em: 18 mar. 2025.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































