
26 de fevereiro de 2026
Análise Exploratória do Perfil Musical em Plataformas de Streaming
Juliana Aparecida Salles; Beatriz Garcia Lopes
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo desta pesquisa foi analisar as características das músicas em uma plataforma de streaming, usando ciência de dados para identificar padrões, correlações e perfis de consumo. O estudo buscou responder como variáveis musicais intrínsecas (dançabilidade, energia, valência, duração) influenciam a popularidade das faixas e contribuem para a caracterização dos principais gêneros. A investigação partiu da premissa de que a transformação digital na indústria fonográfica não apenas alterou a distribuição e o consumo, mas também impactou as estruturas das composições que alcançam maior sucesso.
A música evolui continuamente com a sociedade (Napolitano, 2013), e os gêneros musicais emergiram como representações de diferentes culturas e contextos sociais (Guerrero, 2012). A transição de mídias físicas para plataformas de streaming marcou uma revolução no acesso e na interação com o conteúdo musical (Santos et al., 2016). Esta era digital democratizou o acesso, disponibilizando um vasto catálogo de milhões de criadores para mais de 600 milhões de usuários globalmente, segundo dados de 2023 (Loud & Clear, 2024).
Essa mudança tecnológica fomentou novas dinâmicas de consumo. A era do streaming é caracterizada por uma audição mais fragmentada e orientada por algoritmos. Observa-se que os ouvintes se tornam mais passivos, aceitando sugestões das plataformas, e demonstram um comportamento de “pular” faixas com maior frequência, o que sugere uma preferência por músicas mais curtas e objetivas (Donier, 2020). Este cenário cria um ambiente propício para a análise de dados; as características sonoras das músicas podem ser quantificadas e relacionadas ao seu desempenho.
Neste contexto, a ciência de dados é uma ferramenta para decifrar as tendências do consumo musical. Técnicas como a análise de correlação mensuram a associação entre atributos musicais (Paranhos et al., 2014), enquanto a Análise de Componentes Principais (PCA) reduz a dimensionalidade dos dados, identificando variáveis latentes (Fávero, 2017). Adicionalmente, a análise de clusterização segmenta as músicas em grupos homogêneos, revelando perfis com base em características compartilhadas (Rokach et al., 2005). A pesquisa aplicou essas técnicas para validar empiricamente as tendências discutidas, fornecendo uma visão quantitativa sobre o que define o sucesso e a identidade de uma música na era do streaming e oferecendo insights para artistas, produtores e a indústria fonográfica.
O estudo foi conduzido como uma pesquisa exploratória e explicativa, empregando uma Análise Exploratória de Dados (AED) sobre um conjunto de dados quantitativos e qualitativos. A AED é um processo que envolve a verificação da estrutura dos dados, a descrição das variáveis e a identificação de padrões e relações (Komorowski et al., 2016). A base de dados foi extraída via API de uma plataforma de streaming, referindo-se a dados de consumo de 2023 (Arvidsson, 2025). O conjunto continha informações de 28.356 faixas, abrangendo atributos como nome do artista, título, álbum, data de lançamento e métricas de áudio.
As variáveis centrais para a análise foram: playlistgenre (gênero), trackpopularity (índice de 0 a 100), danceability (adequação para dançar, 0 a 1), energy (intensidade, 0 a 1) e duration_ms (duração em milissegundos, convertida para minutos). Variáveis secundárias como acousticness, instrumentalness, liveness, loudness, speechiness e valence (positividade musical) também foram incorporadas para enriquecer a análise dos perfis musicais.
A metodologia foi estruturada em três fases. Na primeira, um dashboard interativo no Microsoft Power BI foi usado para a análise descritiva inicial, permitindo a visualização do perfil geral das músicas, distribuição por gênero, duração e popularidade. Na segunda fase, em Python, foi gerada uma Matriz de Correlação de Pearson para quantificar a relação linear entre as variáveis numéricas (Kijsipongse et al., 2011) e realizada uma Análise de Componentes Principais (PCA) para reduzir a dimensionalidade do conjunto de dados e identificar fatores latentes (Abdi et al., 2010).
Na terceira fase, aplicou-se a técnica de clusterização não hierárquica com o algoritmo K-means, também em Python, para agrupar as observações em um número pré-definido de clusters (k), maximizando a similaridade intra-grupo (Fávero, 2017). O número ideal de clusters foi determinado pelo método do “cotovelo” (Elbow method). A combinação dessas abordagens permitiu uma investigação multifacetada, partindo de uma visão descritiva para uma análise aprofundada de padrões e agrupamentos.
A análise inicial revelou que o conjunto de dados compreendia 28.356 músicas de 10.686 artistas, distribuídas em 22.545 álbuns e 433 playlists, classificadas em seis gêneros: Electronic Dance Music (EDM), Rap, Rhythm and Blues (R&B), Pop, Latino e Rock. A distribuição foi equilibrada: EDM (19,5%), Rap (19,4%), R&B e Pop (ambos 18,1%), Latino (16,4%) e Rock (15,7%). Embora os dados se refiram ao consumo de 2023, a maioria das músicas ouvidas foi lançada entre 2013 e 2020, indicando a longevidade do catálogo.
A análise da duração das faixas mostrou que 70,2% de todas as músicas possuíam entre 3 e 5 minutos, com um pico de 47,8% na faixa de 3 a 4 minutos. Em relação à popularidade, o sucesso é concentrado: apenas 8,2% do total alcançou uma pontuação superior a 70 (escala de 0 a 100). As músicas mais populares pertenciam predominantemente ao gênero Pop, com durações mais curtas (2 a 4 minutos) e alta dançabilidade (média de 0,68). Em contrapartida, o grupo de menor popularidade (inferior a 20 pontos, 24,7% da base) era dominado pelo gênero EDM, com faixas mais longas (3 a 5 minutos) e dançabilidade ligeiramente inferior (média de 0,64).
A caracterização por gênero revelou perfis distintos. O Rock destacou-se pela maior duração média (4,14 minutos) e menores médias de dançabilidade (0,52) e speechiness (0,06). O Rap, em oposição, apresentou a menor duração média (3,57 minutos) e as maiores médias de dançabilidade (0,72) e speechiness (0,20). O gênero Latino exibiu a maior média de valência, indicando músicas percebidas como mais positivas. O R&B mostrou-se o gênero com a maior média de acousticness (0,26) e a menor de energia (0,59), sugerindo um perfil sonoro mais suave.
A aplicação da Análise de Componentes Principais (PCA) foi validada pelo Teste de Esfericidade de Bartlett (p-valor de 0). Utilizando o critério de Kaiser (autovalores > 1), foram retidos quatro componentes principais, que explicaram 54,7% da variância total dos dados. A análise das cargas fatoriais permitiu a interpretação desses componentes. O Fator 1, influenciado por energy e loudness, foi interpretado como “intensidade sonora”. O Fator 2, com altas cargas de danceability e valence, foi denominado “ânimo e positividade”.
O Fator 3 apresentou cargas positivas para durationms e instrumentalness e negativas para trackpopularity, sendo interpretado como “complexidade estrutural”, opondo músicas longas e instrumentais (menos populares) a músicas curtas e vocais (mais populares). O Fator 4 foi dominado por speechiness e liveness, representando a “oralidade e ambiente de gravação”. A PCA, portanto, simplificou a estrutura dos dados e revelou dimensões subjacentes que governam as características musicais, com implicações para sistemas de recomendação (Vozalis et al., 2007).
A análise de correlação de Pearson aprofundou a investigação das relações. O resultado mais notável foi a correlação fraca e negativa entre popularidade (trackpopularity) e duração (durationms, r = -0,14), energia (energy, r = -0,11) e instrumentalidade (instrumentalness, r = -0,15). Embora os coeficientes sejam baixos, a direção negativa sugere uma leve tendência de que músicas mais populares sejam mais curtas, menos intensas e com mais vocais. Contudo, a fraqueza da correlação impede a afirmação de causa e efeito. Outras correlações mais fortes foram observadas: positiva moderada entre valence e danceability (r = 0,33) e forte positiva entre energy e loudness (r = 0,68).
A análise de clusterização, com k=5, segmentou as músicas em cinco perfis distintos. O Cluster 4 emergiu como o de maior sucesso, com a mais alta popularidade média (48,75). Composto por músicas dos gêneros Latino, Pop e R&B, caracterizava-se por serem as mais curtas, dançantes e com maior valência. Em contraste, o Cluster 1 apresentou o perfil oposto, com a menor popularidade média (28,82). Dominado pelo EDM, era formado por músicas significativamente mais longas, com a maior média de instrumentalidade e alta energia.
Os outros clusters apresentaram perfis intermediários. O Cluster 2, com alta popularidade (42,99) e dominado pelo Rap, agrupou músicas curtas, muito dançantes, positivas e com a maior taxa de speechiness. O Cluster 0, com popularidade também elevada (43,95) e forte presença de R&B, reuniu músicas com alta acousticness, de duração moderada e dançantes. Por fim, o Cluster 3, de popularidade moderada (37,03) e composto por EDM e Rock, caracterizou-se por músicas de alta energia e intensidade (loudness), com maior indicação de gravação ao vivo (liveness), mas com a menor dançabilidade. A clusterização confirmou que diferentes combinações de atributos sonoros definem nichos de consumo com níveis variados de apelo popular.
Em síntese, os resultados convergem para a identificação de padrões claros no consumo de música em streaming. Evidencia-se um perfil de sucesso associado a músicas mais curtas, dançantes e com sonoridade positiva, predominantemente nos gêneros Pop, Latino e R&B. Em contrapartida, músicas mais longas e instrumentais tendem a apresentar popularidade média inferior. Este comportamento reforça a hipótese de uma cultura de audição que privilegia a objetividade e o engajamento imediato, influenciada pela dinâmica das playlists e dos sistemas de recomendação.
Apesar da identificação desses padrões, é crucial ressaltar que a análise de correlação não demonstrou uma relação estatisticamente forte de causa e efeito entre, por exemplo, a duração e a popularidade. O sucesso de uma faixa é um fenômeno multifatorial que envolve, além de suas características intrínsecas, elementos como marketing, contexto cultural e a curadoria da plataforma. Este trabalho, ao focar nos atributos sonoros, oferece uma peça para a compreensão dos fatores que moldam o cenário musical na era digital. Conclui-se que o objetivo foi atingido: demonstrou-se a influência de variáveis como dançabilidade, energia e duração na popularidade e na definição de gênero das músicas, identificando padrões de consumo musical em plataformas de streaming.
Referências:
Abdi, Hervé; Williams, Lynne J. 2010. Principal component analysis. Wiley interdisciplinary reviews: computational statistics, v. 2, n. 4, p. 433-459.
Academia Brasileira de Letras. 2025. Streaming. Disponível em: https://www. academia. org. br/nossa-lingua/nova-palavra/streaming. Acesso em: 03 mar. 2025.
Arvidsson, Joakim. 2025. 30000 Spotify Songs. Disponível em: https://www. kaggle. com/datasets/joebeachcapital/30000-spotify-songs? select=spotify_songs. csv. Acesso em: 03 mar. 2025.
Chatfield, C. 1986. Exploratory data analysis. European journal of operational research, v. 23, n. 1, p. 5-13.
Donier, Jonathan. 2020. The universality of skipping behaviours on music streaming platforms.
Fávero, L. P.; Belfiore, P. 2017. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Elsevier Brasil.
Freire, Vanda Lima Bellard. 1992. Música e sociedade. Uma perspectiva histórica e uma reflexão aplicada ao ensino superior de música. ABEM, Série Teses, v. 1.
Guerrero, Juliana. 2012. “Gênero Musical na Música Popular: Alguns Problemas de sua Caracterização.” Transcultural Journal of Music, n. 16, p. 1-22.
Kijsipongse, E.; U-ruekolan, S.; Ngamphiw, C.; Tongsima, S. 2011. Efficient large Pearson correlation matrix computing using hybrid MPI/CUDA. In: 2011 Eighth International Joint Conference on Computer Science and Software Engineering (JCSSE). IEEE, 2011. p. 237-241.
Komorowski, Matthieu et al. 2016. Exploratory data analysis. Secondary analysis of electronic health records, p. 185-203.
Loud & Clear. 2024. Relatório anual de economia da música. Disponível em: https://loudandclear. byspotify. com/pt-BR/#introduction. Acesso em: 03 mar. 2025.
Microsoft Learn. 2025. Referência técnica do algoritmo Microsoft Clustering. Disponível em: https://learn. microsoft. com/pt-br/analysis-services/data-mining/microsoft-clustering-algorithm-technical-reference? view=asallproducts-allversions. Acesso em: 04 mar. 2025.
Napolitano, M. 2013. História & Música. Autêntica. Belo Horizonte. 120 p.
Paranhos, R.; Filho, D. B. F.; Rocha, E. C.; Silva, J. A. J.; Neves, J. A. B.; Santos, M. L. W. D. 2014. Desvendando os Mistérios do Coeficiente de Correlação de Pearson: o Retorno. Leviathan (São Paulo), São Paulo, Brasil, n. 8, p. 66–95.
Ripani, Richard J. 2006. The new blue music: changes in rhythm & blues, 1950-1999. Univ. Press of Mississippi.
Rokach, Lior; Maimon, Oded. 2005. Clustering methods. In: Data mining and knowledge discovery handbook. Boston, MA: Springer US. p. 321-352.
Santos, B.; Macedo, W.; Braga, V. 2016. Streaming de música como estímulo à expansão do consumo musical: um estudo do Spotify. Em: Anais do XXXIX Congresso Brasileiro de Ciências da Comunicação, São Paulo. p. 1-15.
Vozalis, Manolis G.; Margaritis, Konstantinos G. 2007. A recommender system using principal component analysis. In: 11th Panhellenic Conference in Informatics. 2007. p. 271-283.
Wu, Wen; Massart, D. L.; De Jong, S. 1997. The kernel PCA algorithms for wide data. Part I: theory and algorithms. Chemometrics and Intelligent Laboratory Systems, v. 36, n. 2, p. 165-172.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































