
02 de março de 2026
Recomendação de Preços de Ingressos para Shows Internacionais com Aprendizado de Máquina
José Marcel Berto de Souza; Ricardo Francisco Esposto
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este trabalho desenvolveu um sistema de recomendação de preços para ingressos de shows internacionais no Brasil, utilizando algoritmos de regressão e aprendizado de máquina supervisionado. O modelo foi treinado com características de artistas e locais para prever valores com base em dados históricos. A crescente demanda por entretenimento pós-pandemia evidenciou a necessidade de ferramentas analíticas para auxiliar produtoras na precificação, fator determinante para a viabilidade e o sucesso dos eventos.
O mercado de shows internacionais no Brasil demonstrou crescimento notável após as restrições da pandemia. Conforme Freire (2024), os cancelamentos e adiamentos geraram uma demanda reprimida significativa. Dados da Associação Brasileira de Produtores de Eventos (Abrape) indicam que o setor registrou um aumento de 46,6% em 2023, consolidando-se como o maior gerador de empregos do país. Tais eventos impactam a economia local, com destaque para São Paulo, que atingiu um recorde de R$ 289,6 bilhões no setor de turismo em 2023, representando 9,3% do PIB estadual. Este cenário, como observado por Lima et al. (2024), reflete um entusiasmo renovado do público, que busca recuperar o “tempo perdido”.
Apesar do cenário otimista, a definição do preço ideal para os ingressos é um desafio crítico. A precificação exige equilíbrio: um valor excessivamente alto pode afastar o público, enquanto um preço muito baixo pode erodir as margens de lucro. A escolha do local agrava essa complexidade, pois estádios implicam custos fixos elevados que exigem maior volume de vendas, ao passo que espaços menores limitam a receita potencial. Erros no dimensionamento do local ou na estratégia de preços têm levado a cancelamentos, evidenciando a fragilidade do modelo de negócios sem o amparo de análises de dados robustas.
A complexidade da precificação é acentuada pela multiplicidade de fatores que influenciam a demanda, como dia da semana, exclusividade da apresentação, participação em festivais, popularidade do artista em plataformas de streaming, gênero musical e histórico de apresentações no Brasil. Esta gama de características torna o problema ideal para a aplicação de algoritmos de aprendizado de máquina supervisionado, capazes de identificar padrões em grandes volumes de dados. A popularização da inteligência artificial impulsionou modelos que combinam estatística e aprendizado de máquina para prever preços e comportamentos de mercado (Payal Soni et al., 2022), com aplicações em áreas como mercado de ações (Huang e Liu, 2020; Philip, 2020), petróleo (Fan et al., 2016), ouro (Chen et al., 2020) e mercados futuros (Kim et al., 2020).
Para abordar este problema, o estudo comparou algoritmos de aprendizado de máquina baseados em árvores de decisão. Para mitigar o sobreajuste (overfitting) e aumentar a acurácia, foram empregados modelos de conjunto (ensemble models), como o Random Forest, que utiliza a técnica de “bagging”. Adicionalmente, foram explorados modelos de árvores com aumento de gradiente (Gradient Boosting), especificamente o XGBoost. Os algoritmos LightGBM e Support Vector Regression (SVR) também foram incluídos na análise comparativa, avaliando-os por meio de métricas de erro consolidadas.
A metodologia iniciou-se com a coleta de dados no site “Concert Archives”, extraindo registros de shows internacionais em São Paulo, Rio de Janeiro, Curitiba, Belo Horizonte e Porto Alegre, entre janeiro de 2023 e abril de 2025. Este período representa a retomada da indústria de eventos com preços ajustados à realidade pós-pandemia. A coleta inicial gerou 1212 registros, que foram enriquecidos e conferidos com informações do site “Setlist. fm”.
A base de dados foi enriquecida com variáveis explicativas, adicionadas manual ou automaticamente. Foram incluídas informações como dia da semana, exclusividade do show, participação em festivais, gênero musical e se a apresentação era inédita no Brasil. Também foram coletados dados de popularidade, como seguidores no YouTube, seguidores e ouvintes mensais no Spotify. Para contextualização geográfica, foram adicionados indicadores socioeconômicos de cada cidade (população, PIB per capita, IDHM) obtidos no IBGE. A variável alvo, o preço do ingresso (PRECO), foi coletada manualmente, priorizando o valor da entrada inteira para o setor “Pista Premium” ou equivalente, no último lote.
Para a coleta automatizada de dados de popularidade, foram desenvolvidos scripts em Python com a biblioteca Selenium para “web scraping” no YouTube, Spotify e “ALLMUSIC”. Em casos de falha, os dados foram verificados manualmente. Para extrair seguidores do Spotify, utilizou-se a API oficial da plataforma. Após limpeza, tratamento de dados ausentes e padronização, a base final foi consolidada com 1.467 registros e 22 variáveis. Registros sem o preço do ingresso foram removidos para garantir a integridade da análise.
A modelagem foi conduzida em Python (Spyder). A base de dados foi importada para um dataframe pandas. Variáveis categóricas não binárias foram transformadas em “dummies” via “one-hot encoding” (Adnan, 2022), e as numéricas foram padronizadas com “zscore” para otimizar a convergência dos modelos. A base foi dividida em 70% para treino e 30% para teste. A otimização dos hiperparâmetros de cada algoritmo empregou a validação cruzada “K-fold” (com k=5) por meio da função “GridSearchCV” (Syarif et al., 2016). Os modelos foram avaliados com base no Erro Quadrático Médio (MSE), Raiz do Erro Quadrático Médio (RMSE), Erro Absoluto Médio (MAE) e Coeficiente de Determinação (R²).
A análise comparativa revelou que o algoritmo XGBoost (XGBRegressor) obteve o melhor desempenho na base de testes, com os menores índices de erro e o maior Coeficiente de Determinação (R² = 73,80%). O Erro Absoluto Médio (MAE) foi de 158,7, indicando que, em média, a predição desviou-se em R$ 158,70 do preço real. O desempenho do XGBoost é consistente com sua reputação como uma implementação otimizada de Gradient Boosting, projetada para alta performance (Ramraj; Santhanam et al., 2016). Desenvolvido por Chen e Guestrin (2016), o XGBoost constrói árvores de decisão sequencialmente; cada nova árvore corrige os erros residuais do modelo anterior.
Apesar do desempenho superior, o modelo XGBoost apresentou sinais de “overfitting”, com métricas melhores na base de treino (R² = 90,10%) em comparação com a de teste. Isso sugere que o modelo “memorizou” os dados de treinamento. Embora tentativas de ajuste de hiperparâmetros tenham sido feitas para mitigar o sobreajuste, elas pioraram o desempenho no teste. Optou-se por manter a configuração que minimizava o erro na base de teste, aceitando o “overfitting” como um compromisso para alcançar a maior acurácia preditiva em dados não vistos.
O modelo Random Forest também demonstrou um desempenho notável, com menor grau de “overfitting” (R² de 71,80% no treino e 69,70% no teste). Seu MAE de 165,6 na base de teste foi próximo ao do XGBoost, consolidando-o como uma alternativa robusta. O Random Forest é eficaz em conjuntos de dados complexos, reduzindo o risco de sobreajuste ao construir múltiplas árvores a partir de subconjuntos aleatórios dos dados (Wang et al., 2024). A técnica de amostragem “Bootstrap” garante a diversidade entre as árvores, contribuindo para a estabilidade do modelo (Maimon e Rokach, 2014).
Os demais algoritmos apresentaram resultados inferiores. O LightGBM, outro modelo de “gradient boosting”, exibiu “overfitting” extremo (R² de 99,60% no treino vs. 61,30% no teste) e instabilidades computacionais. Embora a literatura sugira que o LightGBM acelera o treinamento com precisão semelhante (Ke, Guolin et al., 2017), isso não se confirmou neste estudo. O Support Vector Regression (SVR) teve o segundo pior desempenho. A teoria das Support Vector Machines (SVM) é poderosa para classificação (Gunn, 1997), mas sua adaptação para regressão (SVR) mostrou-se menos eficaz para a natureza não linear dos dados de precificação, além de apresentar maior dificuldade na calibração de seus parâmetros.
A análise de importância das variáveis (feature importance) no modelo XGBoost revelou que o porte do local do show é o fator mais influente no preço. A variável “PorteEstádio” apresentou uma importância de 0,36, mais de quatro vezes superior à segunda variável mais importante (“PorteGrande”, com 0,08). Este resultado indica que a escala do evento tem um impacto muito maior no preço do que a popularidade do artista, como seguidores no Spotify ou YouTube, que não figuraram entre as variáveis mais relevantes. A estrutura de custos e o potencial de receita de um estádio ditam uma faixa de preço substancialmente diferente das demais categorias.
Para uma visão detalhada da contribuição de cada variável, foi gerado um gráfico de SHAP (SHapley Additive Explanations), técnica que interpreta previsões de modelos complexos (Lundberg e Lee, 2017). A análise SHAP confirmou a dominância da variável “Porte_Estádio”, mas também atribuiu maior relevância às métricas de popularidade (seguidores no YouTube e Spotify) do que a análise de importância tradicional, especialmente para eventos com preços mais baixos. O gráfico SHAP também permitiu visualizar o impacto de “outliers”, como os shows do gênero “Classical”, que, apesar do forte impacto individual, tiveram uma influência limitada no comportamento geral do modelo devido à sua baixa frequência.
Como validação final, o modelo XGBoost previu os preços de quatro shows futuros, anunciados para o segundo semestre de 2025. Os resultados confirmaram as observações anteriores: o modelo demonstrou alta precisão para eventos de grande porte. Para os dois shows da banda Green Day em estádios, os erros de predição foram de -1,8% e 1,8%. Em contrapartida, para shows de menor porte das bandas Exodus e Glenn Hughes, os erros foram de -31,2% e -15,9%, respectivamente. A simulação reforça que o modelo é mais eficaz para prever preços de eventos em estádios; os ingressos são mais caros e os padrões de precificação mais consistentes.
O estudo possui limitações que abrem oportunidades para melhorias. A análise considerou apenas o ingresso “Pista Premium”, mas um tíquete médio, ponderando todos os setores, ofereceria uma representação mais precisa. A prática do “ingresso solidário”, comum em shows menores, pode distorcer os dados de preço. Fatores cruciais como a taxa de ocupação e a rentabilidade dos eventos não puderam ser coletados, mas sua inclusão em estudos futuros permitiria treinar modelos capazes não apenas de prever o preço praticado, mas de recomendar o preço ótimo para maximizar o lucro.
Conclui-se que o objetivo foi atingido.
Referências:
ADNAN, Muhammad et al. Utilizing grid search cross-validation with adaptive boosting for augmenting performance of machine learning models. PeerJ Computer Science, v. 8, p. e803, 2022.
ALSHARI, Haithm; SALEH, Abdulrazak Yahya; ODABAŞ, Alper. Comparison of gradient boosting decision tree algorithms for CPU performance. Journal of Institute of Science and Technology, v. 37, n. 1, p. 157-168, 2021.
BALLINI, Rosangela. Análise e previsão de vazões utilizando modelos de séries temporais, redes neurais e redes neurais nebulosas. 2000. Tese de doutorado – Universidade Estadual de Campinas, 2000.
BORUP, Daniel; CHRISTENSEN, Bent Jesper; MÜHLBACH, Nicolaj Søndergaard; NIELSEN, Mikkel Slot. Targeting predictors in random forest regression. International Journal of Forecasting, 2023, v. 39, n. 2, p. 841-868. ISSN 0169-2070.
CHEN, J. Analysis of Bitcoin Price Prediction Using Machine Learning. J. Risk Financial Manag., 2023, 16, 51.
CHEN, Tianqi; GUESTRIN, Carlos. Xgboost: A scalable tree boosting system. In: Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining, 2016, p. 785-794.
CHEN, Yinghao; XIE, Xiaoliang; ZHANG, Tianle; BAI, Jiaxian; HOU, Muzhou. A deep residual compensation extreme learning machine and applications. Journal of Forecasting, 2020, v. 39, p. 986–99.
CUNHA, Vinícius Bedeschi Costa. Uso de aprendizado de máquina para especificação do tempo de entrega em vendas via e-commerce. 2023. 42 f. Monografia (Graduação em Engenharia de Controle e Automação) – Escola de Minas, Universidade Federal de Ouro Preto, Ouro Preto, 2023.
FAN, Liwei; PAN, Sijia; LI, Zimin; LI, Huiping. An ica-based support vector regression scheme for forecasting crude oil prices. Technological Forecasting and Social Change, 2016, v. 112, p. 245–53.
FREIRE, Vítor Silva. Ainda ao vivo: entretenimento, arte e a relevância da presença. 2024. Tese (Doutorado em Desenvolvimento do Turismo) – Escola de Artes, Ciências e Humanidades, Universidade de São Paulo, São Paulo, 2024.
GUNN, Steve R. Support vector machines for classification and regression. Technical report, image speech and intelligent systems research group, University of Southampton, 1997.
HUANG, Jia-Yen; LIU, Jin-Hao. Using social media mining technology to improve stock price forecast accuracy. Journal of Forecasting, 2020, v. 39, p. 104–16.
KE, Guolin et al. Lightgbm: A highly efficient gradient boosting decision tree. Advances in neural information processing systems, v. 30, 2017.
KIM, Alisa; YANG, Y.; LESSMANN, Stefan; MA, Tiejun; SUNG, M.-C.; JOHNSON, Johnnie E. V. Can deep learning predict risky retail investors? A case study in financial risk behavior forecasting. European Journal of Operational Research, 2020, v. 283, p. 217–34.
LIMA, Luana et al. Desafios e Impactos Jurídicos na Prática de Cambistas em Eventos Musicais no Brasil. 2024. v. 20, n. 1. CIÊNCIA ATUAL – REVISTA CIENTÍFICA MULTIDISCIPLINAR DA UNISÃOJOSÉ.
LUNDBERG S. M, Lee S.-I. A unified approach to interpreting model predictions. Adv Neural Inf Process Syst. 2017;30
MAIMON, Oded Z.; ROKACH, Lior. Data mining with decision trees: theory and applications. World scientific, 2014.
PARIZOTTO, Gabriel Zanforlin. Predição de tendências no mercado americano com Random Forest. Orientador: Simone das Graças Domingues Prado. 2024. 56 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Universidade Estadual Paulista, Bauru, 2024.
PAYAL SONI et al. Machine Learning Approaches in Stock Price Prediction: A Systematic Review. J. Phys.: Conf. Ser., 2022, 2161, 012065.
PHILIP, Richard. Estimating permanent price impact via machine learning. Journal of Econometrics, 2020, v. 215, p. 414–49.
RAMRAJ, Santhanam et al. Experimenting XGBoost algorithm for prediction and classification of different datasets. International Journal of Control Theory and Applications, v. 9, n. 40, p. 651-662, 2016.
SHAPLEY, L. A value for n-person games. Contributions to the Theory of Games, 1953. pp. 307–317
SHIRI, Farhad Mortezapour et al. A comprehensive overview and comparative analysis on deep learning models: CNN, RNN, LSTM, GRU. arXiv preprint arXiv:2305.17473, 2023.
SYARIF, Iwan; PRUGEL-BENNETT, Adam; WILLS, Gary. SVM parameter optimization using grid search and genetic algorithm to improve classification performance. TELKOMNIKA (Telecommunication Computing Electronics and Control), v. 14, n. 4, p. 1502-1509, 2016.
WANG, Huanjing et al. Feature selection strategies: a comparative analysis of SHAP-value and importance-based methods. Journal of Big Data, v. 11, n. 1, p. 44, 2024.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































