Resumo Executivo

05 de março de 2026

Análise quantitativa de desempenho para scout de jogadores sub-23 na Premier League

Gustavo de Oliveira Souza; Jéssica Eloá Poletto

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo deste estudo foi desenvolver e avaliar um algoritmo para mensurar quantitativamente o desempenho dos melhores jogadores sub-23 na temporada 2023/24 da Premier League, identificando a técnica estatística mais adequada, entre clusterização e análise de regressão, ou uma combinação de ambas. A pesquisa buscou criar um framework metodológico que transforma dados brutos de performance em insights acionáveis, oferecendo uma ferramenta para o processo de scout e tomada de decisão. Tal abordagem emerge da crescente complexidade do esporte; a identificação precoce de talentos representa uma vantagem estratégica. A transição de um modelo de prospecção baseado em intuição para um que integra a análise de dados tem se mostrado um diferencial competitivo.

A análise esportiva evoluiu para um componente central da gestão de clubes de elite. Autores como Anderson e Sally (2013) popularizaram a ideia de que métodos quantitativos podem desmistificar crenças tradicionais sobre o desempenho no futebol. Essa revolução analítica permite que as equipes identifiquem jogadores subvalorizados, otimizem estratégias e gerenciem recursos com maior eficiência. O scout baseado em dados, ao analisar métricas como gols, assistências e desarmes, possibilita a identificação de atletas que, embora sem grande reconhecimento midiático, apresentam números consistentes. Este processo minimiza os riscos associados a contratações de alto custo e maximiza o retorno sobre o investimento.

A incorporação de técnicas estatísticas avançadas e algoritmos de aprendizado de máquina alinha o futebol a outras indústrias de alto desempenho. A capacidade de processar grandes volumes de dados permite a compreensão de padrões complexos do jogo que seriam imperceptíveis a olho nu (Rein e Memmert, 2016). Ferramentas como a clusterização e a regressão, discutidas na literatura por autores como Hastie, Tibshirani e Friedman (2009), são essenciais para capturar as relações entre diferentes métricas de desempenho. A abordagem quantitativa, portanto, não substitui a avaliação qualitativa, mas a complementa, fornecendo uma base objetiva e replicável para a tomada de decisão, fundamental para a coerência tática (Carling et al., 2005).

Exemplos práticos no futebol de elite validam a eficácia dessa abordagem. O Brighton & Hove Albion consolidou-se na Premier League por meio de um recrutamento baseado em análises estatísticas, descobrindo talentos como Moisés Caicedo e Kaoru Mitoma (We Are Brighton, 2025; Entertainment and Sports Programming Network [ESPN], 2025). No Brasil, o Atlético Mineiro, com seu Centro de Inteligência, Gestão e Análise (CIGA), integra análise de desempenho e data analytics para otimizar suas operações (Trivela, 2025). Similarmente, o Cruzeiro tem reestruturado seu departamento de scouting, buscando profissionais com experiência europeia para fortalecer a identificação de talentos (Globo Esporte, 2025). Esses casos demonstram que a integração de dados é uma necessidade para competir em alto nível.

Este estudo se insere nesse contexto, propondo uma metodologia que combina aprendizado de máquina não supervisionado e supervisionado para criar um sistema de avaliação de desempenho. Ao focar na categoria sub-23 da Premier League, a pesquisa visa fornecer um modelo aplicável para identificar a próxima geração de talentos. Como destacam Sumpter (2016) e Sarmento et al. (2014), o futebol contemporâneo exige análises objetivas e baseadas em evidências, reforçando a relevância de investigações que explorem modelagens estatísticas para mensurar o desempenho esportivo.

A pesquisa foi um levantamento de dados quantitativos para a implementação de um algoritmo e análise estatística, configurando-se como uma pesquisa aplicada para gerar conhecimento prático para o scout futebolístico (Rodrigues, 2007). A abordagem quantitativa foi adotada para garantir precisão, objetividade e replicabilidade. A fase inicial do estudo foi exploratória, ao testar diferentes técnicas, evoluindo para uma fase descritiva ao caracterizar o desempenho dos jogadores com base nos dados analisados.

Os dados foram coletados da plataforma Football Reference (FBref, 2025), referentes à temporada 2023/24 da Premier League. O critério de seleção incluiu atletas nascidos até o ano 2000 (sub-23) e que disputaram um mínimo de 100 minutos em campo para garantir a representatividade estatística. As variáveis coletadas abrangeram um espectro de ações de jogo, incluindo minutos jogados, gols, assistências, passes certos, dribles, desarmes, interceptações e distância percorrida, entre outras métricas ofensivas, defensivas e de construção.

A preparação dos dados foi uma etapa crucial. Os dados brutos, em formato CSV, foram padronizados em um dataframe utilizando a biblioteca Pandas do Python. Em seguida, foram selecionadas as variáveis mais relevantes e as métricas foram padronizadas por 90 minutos de jogo para permitir uma comparação justa. O tratamento de valores ausentes consistiu na exclusão de jogadores com menos de 100 minutos jogados. Todo o processamento, análise e visualização foram realizados em Python, com o suporte das bibliotecas Pandas, Scikit-learn para os algoritmos de machine learning e Matplotlib para os gráficos.

As duas principais técnicas estatísticas empregadas foram a clusterização e a análise de regressão. A clusterização, com o algoritmo K-Means (aprendizado não supervisionado), foi utilizada para agrupar jogadores com características de desempenho semelhantes (Hastie et al., 2009). Para otimizar a visualização dos clusters, aplicou-se a Análise de Componentes Principais (PCA), uma técnica de redução de dimensionalidade (Jolliffe e Cadima, 2016). A análise de regressão linear (aprendizado supervisionado) foi utilizada para avaliar a relação entre as variáveis de desempenho e os índices combinados criados para cada categoria (finalização, passes e defesa), validando a consistência das métricas propostas (James et al., 2021).

A análise de clusterização com K-Means revelou grupos distintos de jogadores. Após a normalização dos dados com MinMaxScaler e a definição de três clusters (k=3) pelo método do cotovelo, foi possível identificar agrupamentos coerentes. Na dimensão de passes, que combinou ‘Passe que resulta chute (90 min)’ e ‘Assistências (90 min)’, o algoritmo agrupou no cluster 0 jogadores de perfil criativo como Bukayo Saka, Cole Palmer e Morgan Gibbs-White, que se destacaram no topo do ranking do índice. Este resultado confirma a similaridade estatística no desempenho desses atletas na construção de jogadas (Sarmento et al., 2014).

Na categoria defensiva, o índice considerou o ‘Percentual de disputas aéreas vencidas’ e as ‘Roubadas de bola por 90 minutos’. Os resultados destacaram João Gomes, Amadou Onana e Conor Gallagher como líderes, majoritariamente agrupados no cluster 1. Este grupo demonstrou características defensivas comuns, como combatividade e leitura de jogo (Carling et al., 2005). Notavelmente, João Gomes apareceu como um ponto isolado no gráfico, com um número excepcionalmente alto de roubadas de bola, ilustrando como a análise multivariada pode capturar nuances de desempenho.

A análise de finalização, baseada em ‘Gols por 90 minutos’ e ‘Percentual de gols por chute’, destacou Erling Haaland, Jáder Durán e Hannibal Mejbri. Enquanto a presença de Haaland confirma sua consistência, os casos de Durán e Mejbri exigiram cautela. Ambos apresentaram alta eficiência em uma amostra de minutos significativamente menor, caracterizando-os como outliers estatísticos. Mejbri, com pouco mais de 100 minutos, apareceu no cluster 2, mas sua posição reflete mais a eficiência em poucas oportunidades do que um padrão sustentado. Esta observação sublinha a importância de contextualizar métricas com o tempo de jogo para evitar conclusões imprecisas (Liu et al., 2016).

A aplicação combinada de K-Means com PCA enriqueceu a visualização dos agrupamentos. Ao reduzir a dimensionalidade, a PCA projetou os clusters em um espaço bidimensional, tornando os padrões mais claros (Jolliffe e Cadima, 2016). Na análise de passes, jogadores de elite como Saka, Gibbs-White, Foden e Palmer foram agrupados no cluster 2, visualmente distinto dos demais. Na análise defensiva, o cluster 2 agrupou os jogadores de maior impacto, como João Gomes e Onana, com a posição isolada de Gomes reforçando seu desempenho defensivo fora da curva.

Na dimensão de finalização com PCA, a análise novamente identificou Hannibal Mejbri como um outlier extremo, posicionado distante dos demais. Por outro lado, jogadores como Haaland, Saka, Palmer e Foden foram agrupados no cluster 0, compartilhando características de atletas com grande volume ofensivo. A combinação das duas técnicas mostrou-se eficaz para identificar, categorizar e visualizar diferentes perfis de jogadores, validando a utilidade da análise multivariada para extrair insights de dados complexos (Hastie et al., 2009).

A análise de regressão linear validou a consistência dos índices de desempenho. O modelo de finalização demonstrou excelente capacidade explicativa, com um coeficiente de determinação (R²) de 0,937. Isso indica que as variáveis selecionadas, como gols e eficiência de chutes, capturam quase toda a variação do índice, refletindo uma forte relação linear (Liu et al., 2016). Os baixos valores de erro (MSE, RMSE, MAE) confirmaram a precisão do modelo, mesmo para jogadores de extremo desempenho como Haaland.

Para a dimensão de passes, o modelo de regressão apresentou um R² de 0,627, indicando boa capacidade explicativa, embora inferior à da finalização. Essa queda é esperada, pois a construção de jogadas é mais multidimensional e dependente de fatores contextuais. Ainda assim, a análise confirmou que o percentual de acerto e a criação de assistências são preditores relevantes do índice, destacando jogadores como Bukayo Saka e Cole Palmer.

O modelo defensivo apresentou um R² de 0,881, confirmando que as variáveis selecionadas, como roubadas de bola e disputas aéreas, explicam de forma consistente o desempenho defensivo. O erro ligeiramente mais elevado (RMSE) sugere sensibilidade a jogadores com perfis híbridos. A análise destacou atletas como João Gomes e Conor Gallagher. De forma geral, a regressão validou os índices e reforçou que ações ofensivas como a finalização tendem a ser mais lineares e previsíveis, enquanto o desempenho em construção e defesa depende de interações mais complexas (Carling et al., 2005; Sarmento et al., 2014).

A aplicação conjunta de clusterização e regressão proporcionou uma análise robusta e complementar. A clusterização cumpriu um papel exploratório, identificando perfis de jogadores com base em semelhanças estatísticas. A regressão desempenhou um papel confirmatório, validando a fundamentação estatística dos índices de desempenho. Essa combinação metodológica permitiu segmentar os jogadores em grupos homogêneos e confirmar que os indicadores utilizados eram representações fiéis de suas respectivas dimensões de desempenho, aumentando a confiabilidade dos resultados (Hastie et al., 2009).

Este estudo demonstrou a eficácia da combinação de clusterização K-Means

Referências:
Anderson, C.; Sally, D. 2013. The Numbers Game: Why Everything You Know About Soccer Is Wrong. 1ed. Penguin Books, Westminster, Londres, Inglaterra.
Carling, C.; Williams, A. M.; Reilly, T. 2005. Handbook of Soccer Match Analysis: A Systematic Approach to Improving Performance. 1ed. Routledge, Abingdon, Inglaterra, Reino Unido.
Carvalho, F. S. M.; Vilarinho Sobrinho, A. A. Eficiência financeira e de performance dos jogadores de futebol no Campeonato Brasileiro de 2018, 2019 e 2020. In: XLVI Encontro da ANPAD (Encontro online), 2022. Anais p.1-26. Disponível em: <https://anpad. com. br/uploads/articles/120/approved/3cc697419ea18cc98d525999665cb94a. pdf>. Acesso em: 13 mar. 2025.
Draper, N. R.; Smith, H. 1998. Applied Regression Analysis. 3ed. Wiley, Nova Iorque, Nova Iorque, Estados Unidos da América.
Entertainment and Sports Programming Network [ESPN]. 2025. How Brighton’s transfer mastery broke Premier League profit record. Disponível em: <https://www. espn. com/soccer/story/_/id/40069726/how-brightons-transfer-mastery-broke-premier-league-profit-record>. Acesso em: 18 ago. 2025.
Football Reference [FBref], 2025. Página de análise e banco de dados de campeonatos esportivos. Disponível em: <https://fbref. com/pt/comps/9/2023-2024/stats/2023-2024-Premier-League-estatisticas>. Acesso em: 13 mar. 2025.
Globo Esporte. 2025. Conheça Joaquim Pinto, coordenador de scouting do Cruzeiro indicado por Jardim e ex-Benfica. Disponível em: <https://ge. globo. com/futebol/times/cruzeiro/noticia/2025/07/01/conheca-joaquim-pinto-coordenador-de-scouting-do-cruzeiro-indicado-por-jardim-e-e-ex-benfica. ghtml>. Acesso em: 18 ago. 2025.
Hastie, T.; Tibshirani, R.; Friedman, J. 2009. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2ed. Springer, Berlim, Alemanha. Disponível em: <https://www. sas. upenn. edu/~fdiebold/NoHesitations/BookAdvanced. pdf>. Acesso em: 19 mar. 2025.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R. 2021. An Introduction to Statistical Learning: with Applications in Python and R. 2ed. Springer, Nova Iorque, Nova Iorque, Estados Unidos da América.
Jolliffe, I. T.; Cadima, J. 2016. Principal component analysis: a review and recent developments. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 374(2065): 20150202.
Liu, H.; Gómez, M. A.; Lago-Peñas, C.; Sampaio, J. 2016. Match statistics related to winning in the group stage of 2014 Brazil FIFA World Cup. Journal of Sports Sciences 33(12): 1205–1213.
Rein, R.; Memmert, D. 2016. Big data and tactical analysis in elite soccer: Future challenges and opportunities for sports science. SpringerPlus 5(1): 1410.
Rodrigues, W. C. 2007. Metodologia Científica (PPT). 1ed. FAETEC/IST, Paracambi, Rio de Janeiro, Brasil.
Sarmento, H.; Marcelino, R.; Anguera, M. T.; Campaniço, J.; Matos, N.; Leitão, J. 2014. Match analysis in football: a systematic review. Journal of Sports Sciences 32(20): 1831–1843.
Sumpter, D. 2016. Soccermatics: Mathematical Adventures in the Beautiful Game. 1ed. Bloomsbury Sigma, Madison, WI, USA.
Trivela. 2025. Atlético-MG: Centro de Inteligência, Gestão e Análise (CIGA). Disponível em: <https://trivela. com. br/brasil/atletico-mg-centro-inteligencia-como-funciona/>. Acesso em: 18 ago. 2025.
We Are Brighton. 2025. Why Brighton’s recruitment model could be football’s most valuable blueprint. Disponível em: <https://www. wearebrighton. com/newsopinion/why-brightons-recruitment-model-could-be-footballs-most-valuable-blueprint/>. Acesso em: 18 ago. 2025.
Wooldridge, J. M. 2016. Introductory Econometrics: A Modern Approach. 6ed. Cengage, Boston, Massachusetts, Estados Unidos da América.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Mais recentes

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade