Artigo

Imagem Hit song science com técnica de machine learning aplicada aos hits número 1 da Billboard Hot 100 de 1958-2024

16 de junho de 2026

Hit song science com técnica de machine learning aplicada aos hits número 1 da Billboard Hot 100 de 1958-2024

Angélica Dolores Pereira de Melo; Paulo Fernando do Nascimento Afonso

DOI: 10.22167/2675-6528-2026M10

Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Resumo

A Hit Song Science (HSS) explora técnicas para predição e classificação de sucessos musicais. O presente estudo teve como objetivo investigar os padrões dos hits número 1 da Billboard Hot 100, no período de 1958 a 2024, e propor variáveis para uma modelagem supervisionada de máquina. Para isso, aplicou-se uma técnica de machine learning de clusterização hierárquica aglomerativa. A coleta de dados abrangeu 68 hits anuais da Billboard, considerando métricas intrínsecas como batidas por minuto (BPM), energia, danceabilidade, valência e repetição do título na letra, além de características extrínsecas como gênero do intérprete e formato de colaboração. A análise revelou um aumento significativo na longevidade dos hits a partir dos anos 2000, a predominância de vozes masculinas, e a crescente importância de parcerias entre artistas. Foram identificados sete clusters de hits com características musicais e líricas distintas, e propôs-se nove regras para hits atuais, baseadas nos padrões observados na amostra. Os resultados contribuem para o campo da HSS, fornecendo diretrizes e variáveis para o desenvolvimento de modelos preditivos de machine learning.

Palavras-chave: Análise de dados; Clusterização; Machine learning; Música popular; Padrões musicais.

1. Introdução

A indústria musical, desde suas origens mais formalizadas, tem sido impulsionada pela busca e produção de sucessos comerciais. No século XIX, a Tin Pan Alley em Manhattan emergiu como um centro onde a música era concebida e distribuída com uma lógica industrial, caracterizada como “fábricas” de canções (Bishop, 1958). Neste contexto, as músicas eram tratadas como commodities, sujeitas a processos de manufatura, promoção e distribuição, seguindo princípios capitalistas de divisão, especialização e padronização (Suisman, 2009).

A metrificação dos hits foi fundamental para a dinâmica de produção musical. A venda de partituras, embora inicialmente pouco lucrativa, estabeleceu a estrutura organizacional da indústria, onde o lucro substancial provinha dos sucessos, ou “Hits” (Suisman, 2009). Essa lógica não apenas moldou os negócios, mas também influenciou a própria forma da música popular, contribuindo para o surgimento e padronização de gêneros como o jazz e o blues (Suisman, 2009).

Com o passar do tempo, a indústria musical evoluiu através de diversas transformações tecnológicas, desde a era fonográfica dos álbuns até o formato atual de streaming, que remete à venda de singles a baixo custo. Diante dessa complexidade e da constante busca por padrões de sucesso, surgiu o campo da Hit Song Science (HSS). O termo HSS foi introduzido em 2003 pela empresa de inteligência artificial Polyphonic HMI, que desenvolveu um software de predição de hits, utilizado por artistas renomados (Seufitelli et al., 2023).

A HSS é um campo multidisciplinar que integra ciência da computação com áreas como teoria musical, sociologia da música e mercados culturais (Seufitelli et al., 2023). Seu objetivo principal é coletar e analisar dados musicais de diversas modalidades e fontes, empregando técnicas de Information Retrieval, Machine Learning e Data Mining para prever o potencial de sucesso de uma música antes de seu lançamento. A compreensão da estrutura de um hit é valiosa para diversos agentes do mercado, incluindo executivos, provedores de serviços digitais e artistas, auxiliando na maximização de investimentos e na tomada de decisões estratégicas (Seufitelli et al., 2023).

Apesar da relevância da HSS, pesquisas anteriores têm focado predominantemente em técnicas supervisionadas e na binaridade “hit ou não-hit”, muitas vezes utilizando dados já organizados por rankings, como as Top Charts (Seufitelli et al., 2023). Essa abordagem limita a exploração de padrões intrínsecos e extrínsecos em conjuntos de dados mais diversos e ao longo de extensos períodos, deixando uma lacuna na compreensão da evolução das características dos hits.

Nesse contexto, a presente pesquisa adota a clusterização, uma técnica de análise de agrupamentos não supervisionada, para diagnosticar similaridades e dissimilaridades em um conjunto de dados abrangente de hits. Essa escolha é justificada pela diversidade dos dados, que cobrem um período de 1958 a 2024, englobando múltiplas décadas e identidades culturais e musicais distintas. A clusterização permite identificar padrões subjacentes que editores da Tin Pan Alley já intuíam, mas que agora podem ser explorados com rigor científico (Fávero et al., 2024).

O estudo, portanto, aplicou técnicas de machine learning para identificar padrões e clusterizar os 68 hits número um da Billboard Hot 100 no período de 1958 a 2024. As métricas exploradas por um método hierárquico aglomerativo foram resultados da análise desses hits da “Top Chart Here’s Every Billboard Hot 100 Year-End No. 1 Song”, considerando também a literatura da história da indústria da música e dos hits da Tin Pan Alley. Assim, o objetivo deste estudo foi investigar os padrões dos hits da era do fonograma e propor variáveis em função de uma modelagem supervisionada de máquina.

2. Material e Métodos

O estudo adotou uma abordagem quantitativa e exploratória, empregando técnicas de machine learning para investigar padrões em sucessos musicais. O objetivo foi diagnosticar similaridades e dissimilaridades em um conjunto abrangente de hits, bem como propor variáveis para uma futura modelagem supervisionada de máquina, conforme delineado na introdução. A pesquisa concentrou-se na análise das características intrínsecas e extrínsecas de músicas que alcançaram o topo das paradas, seguindo a taxonomia proposta por Seufitelle et al. (2023).

A unidade de análise consistiu em 68 hits que atingiram a posição número um na Billboard Hot 100 anualmente, cobrindo o período de 1958 a 2024. Os dados foram coletados a partir da “Top Chart Here’s Every Billboard Hot 100 Year-End No. 1 Song”, disponível no site oficial da Billboard. Esta seleção permitiu uma análise longitudinal das características dos hits ao longo de múltiplas décadas.

Para a coleta das características intrínsecas dos hits, que se referem a atributos do áudio em si, utilizaram-se as ferramentas Sort Your Music e chosic.com, ambas integradas ao Spotify. Essas plataformas permitiram a extração de métricas como batidas por minuto (BPM), energia, danceabilidade, valência, duração, tonalidade e tempo do compasso. Tais dados foram fundamentais para a compreensão das propriedades musicais de cada hit.

As características relacionadas à letra e à estrutura lírica foram obtidas por meio do site musixmatch.com, sincronizado ao Spotify. Coletaram-se informações sobre a repetição do título na letra e a presença de elementos como introdução, pré-refrão, refrão, verso, bridge, hook e finalização. Adicionalmente, as características extrínsecas, como o gênero do intérprete (masculino, feminino, misto) e o formato de colaboração (solo, grupo, parceria), foram registradas.

Para o ano de 1997, dois hits de Elton John, “Candle in the wind” e “Something about the way you look tonight”, foram considerados separadamente devido à ausência de um único ISRC no Spotify que mesclasse as duas músicas. Cada um foi tratado como um fonograma distinto. Além disso, dois hits instrumentais, “Theme from a Summer place” (1960) e “Stranger on the shore” (1962), foram excluídos das análises descritivas da forma da música e da repetição do título na letra, por não possuírem esses elementos.

No que tange ao gênero do intérprete, para grupos mistos como “Ace of Base” e “Wings”, considerou-se o gênero daquele que cantava os versos. Em casos de artistas featurings e colaborações, onde ambos os artistas dividiam partes dos versos, o gênero do intérprete foi classificado como “misto”. Esta abordagem visou capturar a diversidade de formatos de apresentação vocal presentes na amostra.

A análise dos dados empregou a técnica de clusterização hierárquica aglomerativa, implementada em Python. A análise de agrupamentos, que se originou na Antropologia e Psicologia (Reis, 2001; Fávero et al., 2009), foi escolhida para identificar padrões e agrupamentos de hits com base em suas similaridades e dissimilaridades. Esta técnica exploratória é útil para verificar a existência de comportamentos semelhantes entre observações (Fávero et al., 2024), sendo aplicada para diagnosticar as similaridades e dissimilaridades dos hits na amostra.

As métricas utilizadas para a clusterização foram BPM, energia, valência, danceabilidade e a repetição do título. Antes da aplicação do método de encadeamento e da distância, a repetição do título foi convertida para segundos, e todas as métricas foram padronizadas por Zscore. A medida de dissimilaridade selecionada foi a distância de Manhattan, e o método de encadeamento aplicado foi o Complete, por apresentar maior diversidade entre os clusters.

A determinação dos clusters foi realizada com base em uma medida de corte de oito na distância de Manhattan, resultando na formação de sete clusters distintos. Esta abordagem permitiu agrupar os 68 hits em categorias que refletem características musicais e líricas compartilhadas, contribuindo para a identificação dos padrões buscados pelo estudo.

3. Resultados e Discussão

A análise dos hits número um da Billboard Hot 100, abrangendo o período de 1958 a 2024, revelou padrões significativos na longevidade e nas características intrínsecas e extrínsecas das canções. O critério principal da Billboard para classificar um hit como número um anual é sua permanência entre as 100 músicas mais vendidas e ouvidas ao longo de 12 meses. Essa longevidade é um indicador crucial da capacidade de uma música em movimentar o mercado musical, refletindo seu impacto para além da simples audição ou venda, influenciando múltiplos outros negócios na indústria. Os achados fornecem uma base empírica para a compreensão da dinâmica do sucesso musical.

Observou-se que, dos 68 hits analisados, a média de semanas de permanência no Top 100 foi de 26 semanas. O hit com menor longevidade foi “Bridge Over Trouble Water” (1970), que permaneceu por 17 semanas, enquanto “Heat Wave” (2022) demonstrou a maior durabilidade, com 91 semanas nas paradas. Curiosamente, quatro hits foram classificados como número um anuais não por terem alcançado a primeira posição em seu respectivo ano, mas pela sua notável permanência no Top 100. Exemplos incluem “Surfin’ U.S.A.” (1963), que atingiu a terceira posição e permaneceu por 25 semanas, e “Levitating” (2021), que alcançou a segunda posição e se manteve por 77 semanas, evidenciando a importância da consistência ao longo do tempo.

Um comportamento notável emergiu ao comparar a longevidade dos hits em diferentes períodos. Entre 1958 e 1999, a média de permanência de um hit no Top 100 foi de 25 semanas. Contudo, no período de 2000 a 2024, essa média quase dobrou, atingindo 49 semanas. Este aumento de 98% na capacidade de um hit permanecer relevante no gosto do público no século XXI sugere uma transformação significativa na dinâmica da indústria musical. Tal mudança pode ser atribuída à evolução tecnológica e à metrificação mais precisa do consumo de música, que passou de dados majoritariamente analógicos para a quantificação em tempo real via plataformas de streaming, conforme discutido por Suisman (2009) sobre a lógica da Tin Pan Alley.

A comparação da longevidade de artistas icônicos também ilustra essa mudança. Enquanto os Beatles, com dois hits número um na década de 1960 (“I Want to Hold Your Hand” e “Hey Jude”), somaram 34 semanas no Top 100, a cantora Adele, com apenas um hit (“Rolling in the Deep”) em 2011, permaneceu por 65 semanas. George Michael, com dois hits em 1985 e 1988, totalizou 43 semanas, e Elton John, com dois hits em 1986 e 1997, alcançou 65 semanas. Paul McCartney, com três hits em diferentes anos, somou 53 semanas. Esses dados, embora não impliquem que artistas atuais sejam mais ouvidos que os do século XX, refletem a maior capacidade de metrificação e o controle que os artistas contemporâneos têm sobre a distribuição e o consumo de suas músicas, impulsionados pela era digital e pelo streaming.

A década de 1990 representou um período de transição crucial, com a média de permanência dos hits subindo para 37,3 semanas, em contraste com as 21,15 semanas das décadas anteriores (1958-1989). Esse crescimento preparou o terreno para a revolução digital dos anos 2000. A influência da MTV e a popularização dos Compact Discs (CDs) contribuíram para o aumento dos relatórios e receitas da Billboard, diversificando as formas de consumo musical. A maior longevidade dos hits no século XXI, com quase o dobro da média do século XX, indica que a indústria se reinventou, contrariando o pessimismo do final dos anos 1990 e demonstrando sustentabilidade na era digital, com maior controle e democratização dos meios de distribuição para os artistas. Século XXI, a era dos colaboradores?

A análise das características extrínsecas dos hits revelou uma tendência crescente de colaborações entre artistas no século XXI. Na era da Tin Pan Alley, as características dos hits eram predominantemente acústicas e genotípicas, focadas na estrutura musical e lírica. Com a indústria fonográfica, o intérprete ganhou destaque, e a popularidade do artista passou a influenciar o valor da gravação. No período de 1958 a 1999, apenas três hits número um anuais foram colaborações, representando 7,14% do total. Contudo, entre 2000 e 2024, o número de parcerias aumentou para seis, correspondendo a 24% dos hits, um crescimento relativo de 7% a 24% em um período de tempo significativamente menor.

Esse aumento nas colaborações pode ser interpretado como uma estratégia para a fabricação de hits na era contemporânea, onde a diversidade de artistas e a competitividade do mercado são maiores. As parcerias permitem a ampliação das bases de fãs e a exploração de diferentes estilos musicais, o que pode ser um diferencial para o sucesso de uma canção. Embora a amostragem total de 68 hits mostre um equilíbrio entre hits de grupos/duos/parcerias (51,47%) e artistas solos (48,53%), a análise por década revela que, no século XXI, os artistas solos têm alcançado a posição número um com mais frequência, apesar do aumento das colaborações. Na década de 1960, sete hits eram de grupos, enquanto de 2000 a 2024, apenas quatro hits foram de grupos, indicando uma complexidade na dinâmica de sucesso. A predominância masculina

A pesquisa identificou uma predominância de intérpretes masculinos entre os 68 hits analisados, representando 64,71% do total. Para contextualizar essa predominância, é essencial considerar a conjuntura da indústria musical e as questões culturais ao longo das décadas. A média de hits número um anuais interpretados por mulheres foi de 2,83 por década. Na década de 1960, apenas uma mulher figurou entre os dez hits anuais. As décadas de 1970 e 2010 registraram três mulheres, sendo que nos anos 2010, duas eram artistas solo e um hit misto. Já nas décadas de 1980 e 1990, cinco mulheres (quatro solo e um hit misto) alcançaram o topo, e de 2000 a 2010, foram quatro mulheres (três solo e um hit misto).

A predominância masculina pode ser parcialmente explicada pela regra histórica de Irving Berlin (1913), que sugeria que um hit deveria estar dentro do alcance da voz média para que o público pudesse cantá-lo. Embora essa regra se aplicasse originalmente às partituras, ela parece ter influenciado o apreço por vozes masculinas na indústria. No entanto, a era dos fonogramas permitiu que a expertise técnica dos cantores se tornasse um diferencial. Artistas femininas como Barbra Streisand, Whitney Houston, Mariah Carey, Adele, Beyoncé e Faith Hill, que figuram entre os hits número um, frequentemente fogem do padrão da “voz média e com notas não muito altas”, demonstrando que o talento vocal pode superar essa regra histórica, embora ainda representem uma minoria na amostra. As tonalidades

A análise das tonalidades, uma característica intrínseca dos hits, revelou que a tonalidade de C e suas variações (C maior, C menor e C#) foi a mais frequente na amostra, presente em 16 hits. A tonalidade de F e suas variações (F maior, F menor e F#) foi a segunda mais comum, com 12 hits. Destes, apenas dois hits em C foram cantados por mulheres (Roberta Flack em 1972 e Mariah Carey em 2005). A região entre E e F (incluindo a variação sustenida de E, que é F) foi a mais cantada nos hits femininos, com quatro hits em E e quatro em F. Em contraste, os hits masculinos concentraram-se em tonalidades mais baixas, nas regiões de C e D e suas variações.

Especificamente, 11 hits em C foram cantados por homens, dois por mulheres, dois hits mistos e um instrumental. Em D e suas variações, sete hits foram cantados por homens, dois por mulheres e um instrumental. A tonalidade C# (ou Db) esteve presente em sete hits, todos cantados exclusivamente por homens. No total, 23 hits apresentaram tonalidades sustenidas, sendo 20 cantados por homens e apenas três por mulheres. As tonalidades C e F foram as mais presentes, com 23% e 17,65% respectivamente, ambas predominantemente masculinas. Quanto à modalidade, 75% dos hits apresentaram tonalidade Maior, e apenas 25% foram em tonalidade Menor, indicando uma preferência por sonoridades mais “positivas” ou “brilhantes” nos hits de sucesso. Diagnóstico das características genotípicas dos Hits

Para aprofundar a compreensão das métricas de sucesso, a pesquisa adotou a taxonomia de Seufitelle et al. (2023), que distingue características intrínsecas (genotípicas) e extrínsecas (fenotípicas) dos hits. As características intrínsecas referem-se ao áudio em si, como BPM, energia, danceabilidade, valência, duração, tonalidade, e são consideradas “características acústicas”. Já as características extrínsecas são informações não estruturais, como número de streamings, popularidade do artista, vendas, e colaborações. A coleta de dados para as métricas intrínsecas dos 68 hits da Billboard foi realizada utilizando ferramentas como chosic.com, que se baseia em dados do Spotify, permitindo uma análise detalhada da arte sonora.

A média de batidas por minuto (BPM) dos 68 hits foi de 123. O hit com o maior BPM foi “Last Night” (Morgan Wallen, 2023), com 204 BPM, enquanto o menor foi “I Will Always Love You” (Whitney Houston, 1993), com 68 BPM. A métrica de Energia, que mede a intensidade percebida da música, teve uma média geral de 58 (em uma escala de 0 a 100). “Believe” (Cher, 1999) foi o hit mais energético, com 92, e “The First Time Ever I Saw Your Face” (Roberta Flack, 1972) foi o menos energético, com apenas três. Observou-se uma tendência dos hits pós-anos 2000 em manter o nível de Energia acima de 50, sugerindo uma preferência por músicas mais intensas na era digital.

A danceabilidade, que indica a facilidade de dançar a música (escala de 0 a 100), teve uma média total de 63. “Low” (Flo Rida feat. T-Pain, 2008) foi o hit com maior danceabilidade, atingindo 92, enquanto “Bridge Over Troubled Water” (Simon & Garfunkel, 1970) apresentou a menor, com 15. As décadas de 1980 e 2010 destacaram-se como as mais dançáveis na amostra de hits. A Valência, que mede a capacidade da música de evocar emoções positivas ou negativas (escala de 0 a 100), teve uma média de 60,82. Três hits empataram com a maior valência de 97: “Surfin’ U.S.A.” (The Beach Boys, 1963), “Sugar, Sugar” (The Archies, 1969) e “Joy to the World” (Three Dog Night, 1971). O hit com menor valência, e o mais melancólico, foi “I Will Always Love You” (Whitney Houston, 1993), com 11.

A duração média dos fonogramas foi de 3 minutos e 50 segundos. O hit mais longo foi “Hey Jude” (Beatles, 1968), com 7 minutos e 6 segundos, e o mais curto foi “Wooly Bully” (Sam the Sham and the Pharaohs, 1965), com 2 minutos e 22 segundos. A partir da década de 2010, notou-se uma estabilização da duração dos hits entre três e quatro minutos. Essa padronização pode refletir as exigências das plataformas de streaming e a atenção do ouvinte na era digital, onde a concisão e a retenção são fatores importantes para o sucesso. As características intrínsecas, portanto, oferecem um panorama detalhado dos atributos musicais que contribuem para a popularidade dos hits ao longo do tempo. A forma da música

A análise da forma das letras e da estrutura temporal dos hits revelou padrões consistentes. Verificou-se que 93% dos hits seguiram o padrão de compasso de 4/4, enquanto apenas sete hits foram em compasso de 3/4. Essa predominância do compasso 4/4 sugere uma preferência por ritmos mais estáveis e convencionais na música popular. Todos os hits analisados apresentaram versos em sua estrutura, e apenas dois hits, “The First Time Ever I Saw Your Face” (Roberta Flack, 1972) e “The Way We Were” (Barbra Streisand, 1974), não possuíam refrão. Para os 66 hits restantes com letras, a média de versos contidos foi de 2,6, e a média de repetição do refrão foi de 2,8 vezes.

Outros elementos estruturais foram examinados. A “Introdução” esteve presente em 24,24% dos hits, enquanto a “Finalização” (ou Outro), um trecho final distinto que não se configura como verso ou refrão, foi observada em 72,73% dos hits. Essa finalização, que muitas vezes apresenta uma melodia ou letra diferente do restante da música, sugere a importância de fechar a narrativa lírica de forma única. O “Pré-refrão”, uma introdução repetitiva ao refrão, mas sem a mesma força, foi encontrado em 25,76% dos hits. A “Bridge” (ponte), um trecho de variação entre o verso e o refrão que reforça a ideia central da música, esteve presente em 46,97% dos hits. Por fim, o “Hook” (gancho), uma frase curta ou riff melódico/conceitual, foi identificado em 9,09% dos hits.

A repetição do título, total ou parcial, ao longo da letra foi uma característica marcante nos 66 hits com letras, com uma média de 17,95 vezes. Esta repetição, que pode ser explícita ou implícita, como em “Boom Boom Pow” (The Black Eyed Peas, 2009), onde a palavra “Boom” é reforçada, ou “Every Breath You Take” (The Police), com a repetição de “Every”, demonstra a importância de fixar a ideia central da música. Observou-se um crescimento notável na repetição do título a partir dos anos 2000, o que pode estar relacionado à necessidade de maior memorização e reconhecimento em um ambiente de consumo musical mais fragmentado e rápido, onde a identificação imediata do conteúdo é crucial para o engajamento do ouvinte. A formação dos clusters dos 68 Hits

A aplicação da clusterização hierárquica aglomerativa, utilizando a medida de dissimilaridade Manhattan e o método de encadeamento Complete, permitiu a identificação de sete clusters distintos entre os 68 hits. As métricas de BPM, Energia, Valência, Danceabilidade e Repetição do Título (convertida para segundos e padronizada por Zscore) foram utilizadas para diagnosticar similaridades e padrões. O método “Complete” foi escolhido por apresentar maior diversidade entre os clusters, com uma medida de corte de oito na distância Manhattan. Essa técnica exploratória foi fundamental para agrupar os hits com características semelhantes, revelando as “fórmulas” que os editores da Tin Pan Alley já intuíam.

O Cluster Um, denominado “A força do rap”, incluiu hits como “Low” (Flo Rida feat. T-Pain, 2008), “Yeah!” (Usher feat. Lil Jon & Ludacris, 2004) e “Boom Boom Pow” (The Black Eyed Peas, 2009). Esses hits são predominantemente do gênero rap e foram lançados nos anos 2000, compartilhando características musicais e líricas que os tornam similares. O Cluster Dois, “As baladas para dançar em diversas épocas”, reuniu canções como “Every Breath You Take” (The Police, 1983), “Macarena” (Los Del Rio, 1996) e “Uptown Funk” (Mark Ronson feat. Bruno Mars, 2015). Apesar da diversidade de épocas, a similaridade entre esses hits reside em sua capacidade de serem dançáveis, tornando-se ícones em danceterias e baladas ao longo do tempo.

O Cluster Três, “Positividade no mundo pós-guerra. O sonho americano”, foi composto por sete hits específicos da década de 1960, incluindo “Theme from a Summer Place” (Percy Faith and His Orchestra, 1960), “California Dreamin’” (The Mamas & The Papas, 1966) e “Surfin’ U.S.A.” (The Beach Boys, 1963). As letras desses hits expressam sentimentos positivos e ufanismo, refletindo o “sonho americano” do período. O Cluster Quatro, “Positividade do mundo atual”, agrupou hits predominantemente dos anos 1990 e 2000, como “Hanging by a Moment” (Lifehouse, 2001), “Believe” (Cher, 1999) e “Blinding Lights” (The Weeknd, 2020). As letras desses hits enfatizam sentimentos de autoconfiança e autoestima, bem como relacionamentos positivos.

O Cluster Cinco, “Hits visuais”, foi o mais heterogêneo, incluindo “Old Town Road” (Lil Nas X feat. Billy Ray Cyrus, 2019), “We Belong Together” (Mariah Carey, 2005) e “Rolling in the Deep” (Adele, 2011). Este cluster se caracteriza por hits bem-humorados, músicas com videoclipes narrativos e/ou letras que contam histórias, sugerindo que o apelo visual e a narrativa são elementos importantes para o sucesso dessas canções. O Cluster Seis, “Para sempre românticos”, foi um dos mais homogêneos, com hits como “Stranger on the Shore” (Mr. Acker Bilk, 1962), “I Will Always Love You” (Whitney Houston, 1993) e “Candle in the Wind” (Elton John, 1997). O caráter romântico de todas as músicas é a principal similaridade.

Por fim, o Cluster Sete, que recebeu o nome de “Baladas”, foi formado por hits como “Hey Jude” (The Beatles, 1968), “Silly Love Songs” (The Wings, 1976) e “Careless Whisper” (Wham!, 1985). Este cluster abrangeu baladas das décadas de 1960, 1970, 1980 e 1990, indicando que o gênero balada, com suas características melódicas e líricas específicas, manteve sua relevância como hit número um ao longo de várias décadas. A formação desses clusters demonstra que, apesar da diversidade temporal e estilística, existem padrões subjacentes que podem ser identificados e utilizados para prever o potencial de sucesso de uma música, contribuindo para o campo da Hit Song Science. As nove regras para os hits atuais, segundo análise dos Hot 100 da Billboard e tendência dos hits do século XXI para treinamento de máquina

Com base na análise dos padrões dos hits da Billboard Hot 100 e nas tendências observadas no século XXI, foram propostas nove regras para o treinamento de modelos de machine learning supervisionados. Primeiramente, os hits devem apresentar, em média, dois versos, repetir os refrões três vezes e incluir uma finalização. Em segundo lugar, a tonalidade predominante deve ser maior, e o tempo de compasso ideal é 4/4. Terceiro, os hits devem ser cantados em tonalidades de C a E, dentro de um alcance de voz média, preferencialmente por artistas solos, facilitando a identificação e o canto pelo público.

Quarto, o título da música deve ser repetido na letra, não apenas no refrão, mas em toda a estrutura, como um reforço da ideia central, com uma média de 17 repetições. Quinto, para hits cantados por mulheres, fora da região de voz média, a tonalidade de G é a mais indicada, sugerindo uma adaptação para as características vocais femininas que se destacam. Sexto, a média de batidas por minuto (BPM) deve ser de 123, indicando um ritmo que se alinha com a maioria dos sucessos. Sétimo, é crucial investir em parcerias e colaborações entre artistas, dada a crescente tendência de hits colaborativos no século XXI, que ampliam o alcance e a base de fãs.

Oitavo, os hits devem ter uma duração média de quatro minutos, refletindo a estabilização observada nas últimas décadas e a otimização para o consumo em plataformas digitais. Finalmente, nono, as métricas de Valência, Energia e Danceabilidade devem variar em torno de 60. Essas regras, derivadas dos padrões empíricos dos hits número um da Billboard, fornecem diretrizes concretas para o desenvolvimento de modelos preditivos em Hit Song Science. Elas sintetizam as características que, ao longo do tempo, demonstraram ser consistentes no sucesso musical, oferecendo um framework para futuras investigações e aplicações práticas na indústria.

Em síntese, a investigação dos hits número um da Billboard Hot 100 entre 1958 e 2024 revelou uma notável evolução na longevidade das canções, com um aumento significativo na era digital, e destacou a crescente importância das colaborações. A predominância de vozes masculinas, as tonalidades mais frequentes em C e F, e as médias de BPM, energia, danceabilidade e valência em torno de 60, juntamente com padrões estruturais como a repetição do título e a presença de finalizações, configuram um conjunto de características distintivas. A clusterização identificou grupos de hits com similaridades musicais e líricas, permitindo a formulação de nove regras que servem como variáveis fundamentais para o desenvolvimento de uma modelagem supervisionada de máquina, contribuindo para a compreensão e predição do sucesso musical no campo da Hit Song Science.

4. Conclusão

O presente estudo investigou os padrões dos hits número um da Billboard Hot 100, no período de 1958 a 2024, com o intuito de propor variáveis para uma modelagem supervisionada de máquina no campo da Hit Song Science. Verificou-se um aumento significativo na longevidade dos hits a partir dos anos 2000, com a média de permanência nas paradas quase dobrando em comparação com o século XX. Observou-se a predominância de intérpretes masculinos e uma crescente tendência de colaborações entre artistas, especialmente no século XXI. As análises revelaram que as tonalidades de C e F foram as mais frequentes, com 75% dos hits em tonalidade maior. Em termos de características intrínsecas, a média de batidas por minuto foi de 123, enquanto energia, danceabilidade e valência orbitaram em torno de 60. A duração média dos fonogramas estabilizou-se entre três e quatro minutos a partir da década de 2010. Quanto à estrutura lírica, identificou-se a prevalência do compasso 4/4, a presença de versos e refrões na maioria das canções, e uma notável repetição do título ao longo das letras, intensificada nos anos 2000. A aplicação da clusterização hierárquica aglomerativa permitiu a identificação de sete grupos distintos de hits, cada um com características musicais e líricas específicas, como “A força do rap” e “Para sempre românticos”, evidenciando padrões subjacentes que moldaram o sucesso musical.

A principal contribuição deste trabalho reside na formulação de nove regras para hits atuais, derivadas dos padrões empíricos observados, que servem como diretrizes e variáveis essenciais para o desenvolvimento de modelos preditivos de machine learning em Hit Song Science. Essas regras abrangem aspectos como estrutura lírica, tonalidade, alcance vocal, repetição do título, investimento em colaborações e métricas de áudio, oferecendo um framework prático para a indústria musical e a pesquisa acadêmica. Contudo, é importante reconhecer que a comparação direta da popularidade e do consumo de música entre artistas de diferentes eras, como os do século XX e os do século XXI, é limitada pela evolução das metodologias de metrificação, que passaram de dados majoritariamente analógicos para a quantificação em tempo real via streaming. Para estudos futuros, sugere-se a validação dessas regras em conjuntos de dados mais amplos e aprofundar a investigação sobre como as mudanças comportamentais no consumo de música e os novos formatos tecnológicos influenciam a longevidade e o sucesso dos hits, explorando a causalidade dessas associações.

Referências Bibliográficas

Berlin, Irving. 1916. Love-Interest´s as a Commodity. Green Book Magazine, Vol 13. Apr., pg. 695.

Bishop, W. 1958. How Popular Song Factories Manufacture a Hit. NYT, Sept. 18; “Reminiscences of Walter Bishop”, Sept. 1958, p. 23, CU-OHROC; Goldberg, Tin Pan Alley, 100.

Fávero, Luiz Paulo; Belfiore, Patrícia. (2024). Manual de análise da dados: estatísticas e machine learning com Excel, SPSS, R e Python. 2 ed. Rio de Janeiro: LTC.

Seufitelli, D.S.; Gabriel P. Oliveira; Mariana O. Silva; Clarisse Scofield and Mirella M. Moro. 2023. Hit song science: a comprehensive survey andresearch directions. In Journal of New Music Research. VOL. 52, NO. 1, 41–72. https://doi.org/10.1080/09298215.2023.2282999

Suisman, D. 2009. Selling sounds: the commercial revolution in American music. Havard University Press, Cambridge, Mass.

Artigo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade