Imagem Previsão de desempenho olímpico na natação via machine learning

06 de fevereiro de 2026

Previsão de desempenho olímpico na natação via machine learning

Enzo Costa Amorim Novaes; Miriam Martin

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este trabalho previu o tempo dos medalhistas (três primeiros colocados) das provas individuais de natação nas Olimpíadas, de Montreal 1976 a Paris 2024, utilizando como base os resultados dos Campeonatos Mundiais de Natação do ciclo olímpico correspondente. A premissa foi que o desempenho em mundiais, eventos de magnitude similar, é um preditor robusto para o sucesso olímpico. A crescente aplicação de Data Science no esporte de alto rendimento fundamenta a relevância da pesquisa, pois permite extrair insights de grandes volumes de dados. A análise preditiva, como destaca Polach et al. (2021), tornou-se uma ferramenta indispensável para técnicos e atletas na definição de metas e otimização de estratégias para competições de ápice.

A natação competitiva moderna, originada no século XIX (Kehm, 2007), evoluiu nas técnicas de nado (Britannica, 2025) e na estrutura das competições. Os Campeonatos Mundiais, iniciados em 1973, e os Jogos Olímpicos, com natação desde 1896 (Olimpíadas, n. d.), representam os pináculos da carreira de um nadador. A importância do Mundial é ressaltada por Santos et al. (2023), que o descrevem como uma conquista significativa e um termômetro para o ciclo olímpico. A periodicidade desses eventos, com o Mundial ocorrendo frequentemente no ano anterior aos Jogos, cria uma janela temporal ideal para a análise preditiva, fornecendo dados recentes e relevantes sobre a forma dos competidores.

Apesar de existirem estudos que aplicam modelos matemáticos para prever resultados na natação, como o de Holub et al. (2021) que usou dados históricos das próprias Olimpíadas, foi identificada uma lacuna na literatura: a ausência de pesquisas que estabeleçam uma ponte preditiva direta entre os resultados dos Mundiais e os das Olimpíadas subsequentes. Este estudo propõe-se a preencher essa lacuna, oferecendo um modelo que valida a hipótese de que o desempenho no Mundial é um indicador de alta fidelidade para o pódio olímpico. A aplicação de Machine Learning possui implicações práticas diretas para federações, equipes e atletas, inserindo-se também no cenário de crescente interesse por previsões esportivas, impulsionado pelo mercado de apostas (Galekwa et al., 2024). Ao focar nos três primeiros colocados, a análise se concentra no extrato mais competitivo da natação; a consistência é um fator determinante.

O objetivo central foi desenvolver e avaliar modelos de Machine Learning capazes de prever com alta acurácia os tempos dos medalhistas olímpicos, utilizando exclusivamente dados de desempenho dos Campeonatos Mundiais anteriores. A validação da eficácia desses modelos contribui para a ciência de dados no esporte e oferece uma ferramenta prática para a comunidade da natação, auxiliando no planejamento estratégico. A investigação buscou identificar qual algoritmo, dentre um conjunto de técnicas, apresentaria o melhor desempenho preditivo, considerando a natureza e a evolução temporal dos dados.

Foi conduzida uma pesquisa quantitativa, baseada na análise de dados históricos. A coleta de dados abrangeu os resultados das provas individuais de natação dos Jogos Olímpicos de 1976 a 2024 e dos Campeonatos Mundiais de 1973 a 2023. As fontes foram o site da World Aquatics (n. d.) e um dataset da plataforma Kaggle (2023), “Olympic Swimming History: (1912 to 2020)”. A base olímpica continha 3.472 registros e a dos Mundiais, 6.208. Foi estabelecido um mapeamento temporal, associando cada edição olímpica ao seu respectivo Mundial precedente, como os Jogos de 2012 com o Mundial de 2011.

O pré-processamento dos dados foi uma fase crítica. As bases foram consolidadas, com padronização de nomes de atletas e provas, remoção de duplicatas e tratamento de valores ausentes. Os tempos de prova, em formato textual, foram convertidos para segundos, formato numérico essencial para algoritmos de regressão. Provas de revezamento foram excluídas, e a análise se concentrou nas provas individuais que ocorreram em ambas as competições para garantir a comparabilidade direta.

A engenharia de variáveis enriqueceu o conjunto de dados. Foram criadas features como o “tempo normalizado”, calculado como a razão entre o tempo do atleta e o recorde mundial da prova na época, permitindo uma comparação de desempenho ao longo das décadas. Outras variáveis incluíram a variação percentual entre os tempos dos três primeiros colocados nos Mundiais e o intervalo em meses entre as competições. Variáveis categóricas como estilo de nado, distância e gênero foram transformadas em variáveis dummy (one-hot encoding) para serem interpretadas pelos algoritmos.

A implementação foi realizada em Python, utilizando bibliotecas como Pandas, Scikit-learn e XGBoost. Foram selecionados cinco algoritmos de regressão: Regressão Linear (Belfiore e Fávero, 2017), Árvore de Decisão (Freitas et al., 2019), Random Forest (Hastie et al., 2009), Redes Neurais Artificiais (MLPRegressor) (Haykin, 2009) e XGBoost (Chen e Guestri, 2016). O desempenho foi avaliado com base nas métricas Erro Médio Absoluto (MAE), Raiz do Erro Quadrático Médio (RMSE) e Coeficiente de Determinação (R²), conforme definido por Duarte (2023). A validação adotou uma abordagem temporal, utilizando dados de 1976 a 1996 para treinamento e de 2000 em diante para teste, simulando um cenário real de previsão.

A análise exploratória revelou uma tendência histórica consistente de melhoria no desempenho, com queda progressiva nos tempos médios de prova ao longo das décadas, tanto nos Mundiais quanto nas Olimpíadas. Essa evolução, observada em ambos os gêneros e em todas as distâncias, reflete avanços em treinamento, nutrição e tecnologia. A tendência estabeleceu uma base sólida para a modelagem, indicando que o tempo é uma variável com comportamento previsível, favorecendo a aplicação de técnicas de regressão.

A análise de correlação de Pearson entre os tempos dos medalhistas nos Mundiais e nas Olimpíadas subsequentes validou a premissa do estudo. Os resultados revelaram coeficientes de correlação elevados e estatisticamente significativos: 0.9873 para o primeiro colocado, 0.9841 para o segundo e 0.9812 para o terceiro. Em todos os casos, o p-valor foi inferior a 0.0001, indicando que a forte relação linear não é fruto do acaso. Esses valores confirmam que o tempo no Mundial é um preditor linear quase perfeito do tempo olímpico, justificando o uso de modelos de regressão.

A avaliação comparativa dos cinco modelos de Machine Learning produziu um resultado conclusivo. Utilizando a validação temporal (treino pré-2000, teste pós-2000), a Regressão Linear demonstrou superioridade em todas as métricas. Para a previsão do tempo do primeiro colocado, o modelo alcançou um R² de 0.9997, indicando que 99,97% da variabilidade nos tempos dos campeões olímpicos foi explicada pelo modelo. O MAE foi de 2.38 segundos e o RMSE de 3.32 segundos, valores baixos considerando a diversidade de provas.

O desempenho da Regressão Linear manteve-se alto para os outros medalhistas. Para o segundo colocado, o R² foi de 0.9996, com MAE de 2.57 segundos. Para o terceiro, o R² também foi de 0.9996, com MAE de 2.42 segundos. Gráficos de dispersão comparando valores reais e previstos ilustraram visualmente essa acurácia, com os pontos alinhados quase perfeitamente em uma linha diagonal.

Em contraste, os modelos mais complexos tiveram desempenho inferior. A Árvore de Decisão e o XGBoost registraram os maiores erros (MAE acima de 13 e 30 segundos, respectivamente) e os menores R² (abaixo de 0.90). Random Forest e Redes Neurais obtiveram resultados intermediários, com R² elevados (acima de 0.97), mas com erros consideravelmente maiores que os da Regressão Linear. Este fenômeno sugere que a relação entre as variáveis é predominantemente linear, e a complexidade adicional dos outros modelos foi desnecessária e potencialmente prejudicial, possivelmente introduzindo ruído ou sofrendo de overfitting.

A superioridade da Regressão Linear aponta para a natureza do desempenho atlético de elite. A evolução dos tempos na natação segue uma trajetória de melhoria relativamente constante em curtos intervalos, como um ciclo olímpico. O desempenho de um atleta no Mundial já reflete seu potencial, tornando a extrapolação linear para o evento seguinte uma abordagem eficaz. A simplicidade e interpretabilidade da Regressão Linear tornaram-se uma vantagem, evitando a captura de flutuações aleatórias.

Observou-se que o modelo de Regressão Linear teve um desempenho marginalmente melhor na previsão do tempo do primeiro colocado. Isso pode ser explicado pela maior consistência de desempenho em atletas que conquistam o ouro. Conforme apontado por Stewart e Hopkins (2000), nadadores mais rápidos tendem a ser mais consistentes. A disputa pelas medalhas de prata e bronze é frequentemente mais acirrada, o que pode introduzir uma variabilidade ligeiramente maior nos tempos.

As implicações práticas destes resultados são vastas. Para treinadores, os modelos oferecem uma ferramenta quantitativa para identificação de talentos e direcionamento de recursos. Federações podem utilizar as previsões para estabelecer metas de desempenho realistas. Para os atletas, a comparação entre o tempo previsto e o real pode servir como feedback para ajustes na preparação. A metodologia transforma dados históricos em inteligência acionável para a tomada de decisões estratégicas.

Este estudo demonstrou a viabilidade e a alta precisão da aplicação da Regressão Linear para prever os tempos dos medalhistas olímpicos na natação com base nos resultados dos Campeonatos Mundiais. A principal contribuição é a validação empírica da forte correlação linear entre o desempenho nos dois eventos. A superioridade do modelo linear sobre algoritmos mais complexos é um achado significativo. O estudo reconhece limitações, como a impossibilidade de quantificar fatores psicológicos, a pressão de um evento olímpico e o “fator dia da prova”. Variáveis ambientais, como altitude ou características da piscina, também não foram incluídas.

Para trabalhos futuros, sugere-se a expansão do modelo para incluir variáveis físico-ambientais. Outra linha de pesquisa seria a análise das fases eliminatórias e semifinais, prevendo os tempos de corte para avançar na competição. A aplicação da metodologia a outros esportes individuais com características semelhantes, como o atletismo, também se apresenta como uma extensão relevante. Conclui-se que o objetivo foi atingido: demonstrou-se que é possível prever o tempo dos medalhistas da natação nas Olimpíadas com alta precisão, utilizando como base os resultados dos Campeonatos Mundiais.

Referências:
Belfiore, P.; Favero, L. P. 2017. Manual de Análise de Dados. 1ed. Elsevier, Rio de Janeiro, RJ, Brasil.
Chen, T.; Guestri, C. 2016. XGBoost: a scalable tree boosting system. In: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, San Francisco, CA, USA. Anais… p. 785-794
Duarte, R. 2023. Métricas de avaliação em modelos de regressão em machine learning. Disponível em: <https://sigmoidal. ai/metricas-de-avaliacao-em-modelos-de-regressao-em-machine-learning/>. Acesso em: 18 ago. 2025
Freitas, F. G.; Tavares, P. A.; Rodrigues, E. A. 2019. Machine Learning para Tomada de Decisão. Elsevier, Rio de Janeiro, RJ, Brasil.
Galekwa, R. M.; Tshimula, J. M.; Tajeuna, E. G.; Kyandoghere, K. 2024. A systematic review of machine learning in sports betting: techniques, challenges, and future directions. Disponível em: <https://arxiv. org/abs/2410.21484>. Acesso em: 18 ago. 2025
Hastie, T.; Tibshirani, R.; Friedman, J. 2009. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2ed. Springer, Nova York, NY, EUA.
Haykin, S. 2009. Neural Networks and Learning Machines. 3ed. Pearson Education, Upper Saddle River, NJ, EUA.
Hołub, M.; Stanula, A.; Baron, J.; Głyk, W.; Rosemann, T.; Knechtle, B. 2021. Predicting breaststroke and butterfly stroke results in swimming based on olympics history. International Journal of Environmental Research and Public Health 18(18): 6621.
Kaggle. 2023. Olympic swimming history (1912 to 2020). Disponível em: <https://www. kaggle. com/datasets/datasciencedonut/olympic-swimming-1912-to-2020>. Acesso em: 10 mar. 2025.
Kehm, G. 2007. Greatest Moments in Olympic History: Olympic Swimming and Diving. 1ed. The Rosen Publishing Group, Inc, New York, NY, EUA.
Olímpiadas. n. d. Natação. Disponível em: <https://www. olympics. com/pt/esportes/natacao/>. Acesso em: 10 mar. 2025.
Polach, M.; Thiel, D.; Kreník, J.; Born, D. P. 2021. Swimming turn performance: the distinguishing factor in 1500 m world championship freestyle races?. BMC Research Notes 14(248).
Santos, C. C.; Fernandes, R. J.; Marinho, D. A.; Costa, M. J. 2023. From entry to finals: progression and variability of swimming performance at the 2022 FINA world championships. Journal of Sports Science & Medicine 22(3): 417-424.
Stewart, A. M.; Hopkins, W. G. 2000. Consistency of swimming performance within and between competitions. Medicine and Science in Sports and Exercise 32(5): 997-1001.
The Editors of Encyclopedia Britannica [Britannica]. 2025. Swimming. Disponível em: <https://www. britannica. com/sports/swimming-sport>. Acesso em: 13 mar. 2025.
World Aquatics. n. d. Swimming results. Disponível em: <https://www. worldaquatics. com/>. Acesso em: 10 mar. 2025.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade