
20 de fevereiro de 2026
Segmentação estratégica de clientes em negócios digitais com K-means e Hierárquico
Thiago Carvalho; Anna Carolina Martins
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Esta pesquisa segmenta clientes de um negócio digital a partir de dados transacionais financeiros, logísticos e comportamentais para subsidiar estratégias de marketing orientadas por dados. O objetivo é transformar registros brutos em agrupamentos de clientes acionáveis, cujos perfis guiem decisões de personalização, fidelização e otimização de campanhas, aprimorando o relacionamento com o consumidor e reforçando a ciência de dados como pilar para a inteligência de mercado.
A transição de um mercado de oferta para um centrado na demanda redefiniu as práticas de marketing. Anteriormente, as empresas determinavam os produtos, em um período que Kotler e Keller (2012) descrevem como orientado à produção e ao produto. Com o aumento da concorrência e a diversificação da oferta, os consumidores ganharam protagonismo, forçando as organizações a focar no entendimento de seu comportamento para se manterem competitivas.
Profissionais de marketing redirecionaram suas estratégias para o consumidor, no que Kotler et al. (2010) denominaram Marketing 2.0. A exigência por relacionamentos mais significativos levou ao Marketing 3.0, centrado no ser humano. O Marketing 4.0 consolidou essa evolução ao incorporar tecnologias digitais para criar vínculos interativos. Kotler et al. (2020) ressaltam que a convergência tecnológica impulsionou a economia compartilhada, o marketing de conteúdo, a integração omnicanal e o uso intensivo de sistemas de gestão de relacionamento com o cliente (CRM).
Neste contexto, a produção massiva de dados — marcada por volume, velocidade, variedade, variabilidade e complexidade (Luiz e Patrícia, 2017) — exige métodos analíticos eficazes. A mineração de dados, definida por Provost e Fawcett (2016) como o processo de identificar padrões e construir modelos a partir de grandes conjuntos de dados, transforma registros dispersos em conhecimento estratégico. Uma de suas aplicações mais relevantes é a segmentação de clientes, que agrupa consumidores com características semelhantes para personalizar ofertas, otimizar campanhas e desenvolver programas de fidelização.
Algoritmos de clusterização não supervisionada, como o K-means e o Hierárquico Aglomerativo, são eficazes para identificar padrões latentes em bases de dados multidimensionais. Neste estudo, o K-means foi adotado como abordagem principal por sua eficiência computacional e interpretabilidade. O método Hierárquico Aglomerativo foi usado complementarmente, com diferentes critérios de ligação (Single, Average e Complete) para comparação e validação visual. O número ótimo de clusters foi determinado pelo método do cotovelo (Elbow) e pela análise do coeficiente de silhueta, garantindo uma escolha metodológica alinhada aos objetivos do negócio.
A metodologia quantitativa e exploratória analisou dados transacionais reais de uma empresa varejista de São Paulo. A base de dados, extraída em formato CSV da plataforma de e-commerce, compreendeu o período de janeiro a dezembro de 2024 e continha 101.198 registros de itens. Conforme a Lei Geral de Proteção de Dados (LGPD), variáveis sensíveis foram anonimizadas. O pré-processamento consolidou a base de itens para o nível de pedido e, subsequentemente, para o de cliente, que se tornou a unidade final de análise.
O tratamento dos dados incluiu a conversão de tipos, ajustando variáveis temporais para o formato datetime, e a recodificação de atributos como “Cupom de desconto”, transformado na variável binária CupomFlag. Rótulos de variáveis categóricas, como “FormaEnvio”, foram padronizados. Pedidos com status “Cancelado” foram eliminados. A engenharia de atributos criou variáveis derivadas para enriquecer a análise, como “Idade” (calculada a partir da data de nascimento e filtrada para 18 a 100 anos), “TaxaUsoCupom” e “IndicePagamentoRapido”. A variável “UF” foi mapeada para a respectiva “Região”. Variáveis categóricas como “FormaPgto”, “Bandeira”, “FormaEnvio”, “UF”, “Região”, “FaixaIdade” e “FaixaValor” foram transformadas pela técnica de One-Hot Encoding, conforme recomendado por Géron (2020).
Para mitigar a alta dimensionalidade e a colinearidade do One-Hot Encoding, aplicou-se a Análise de Componentes Principais (PCA) em cada bloco de variáveis dummies. Essa abordagem sintetizou os grupos de categorias em componentes principais únicos, preservando a maior parte da variância original (com variância explicada variando de 25% para “UF” a 94% para “FormaPgto”) e aumentando a estabilidade dos algoritmos, como defendido por Fávero e Belfiore (2017). Uma análise de correlação entre as variáveis financeiras revelou alta redundância entre “ValorPedido”, “ValorProd”, “TicketMed” e “ValorParcela”. Por isso, essas variáveis foram removidas, mantendo-se apenas a “ReceitaTotal” como o principal proxy do comportamento financeiro do cliente. Todas as variáveis numéricas e os componentes principais resultantes foram padronizados pelo método Z-score, que as centraliza com média zero e desvio padrão um, garantindo contribuições equitativas no cálculo das distâncias euclidianas.
O conjunto de dados final, com 59.521 clientes e 20 variáveis padronizadas, constituiu a base para a modelagem. O algoritmo K-means foi aplicado para particionar os dados em k clusters, minimizando a soma dos quadrados intra-cluster (WCSS). A definição do número ideal de agrupamentos foi guiada pelo método do cotovelo e pela análise do coeficiente médio de silhueta. Complementarmente, o método hierárquico aglomerativo foi executado sobre uma amostra estratificada de 20% dos dados, utilizando os critérios de ligação único, completo e médio para construir dendrogramas de validação visual. A amostragem estratificada, definida pela combinação de “Região” e quintis de “Receita_Total” com alocação de Neyman (Silva et al., 2021), garantiu a representatividade da base de dados. As ferramentas utilizadas foram a linguagem Python e suas bibliotecas: Pandas (McKinney, 2017), Scikit-learn (Pedregosa et al., 2011), Matplotlib (Hunter, 2007) e Seaborn (Waskom, 2021).
A determinação do número ótimo de clusters revelou uma divergência entre o desempenho estatístico e a interpretabilidade prática. O método do cotovelo, que avalia a redução da inércia intra-cluster (WCSS), indicou um ponto de inflexão em k=4. A curva de inércia apresentou uma queda de 688.013 (para k=2) para 495.532 (para k=4), com ganhos marginais decrescentes a partir desse ponto. Em contraste, a análise do coeficiente médio de silhueta, que mede a coesão e a separação dos clusters, sugeriu um desempenho superior para um número maior de grupos, com os valores mais elevados sendo observados para k=9 (0,433) e k=10 (0,443). A solução com k=4 apresentou um coeficiente mais modesto (0,331).
Para resolver a divergência, as soluções com nove e dez clusters foram inspecionadas visualmente por meio de projeções em PCA. As visualizações revelaram sobreposição considerável entre os grupos e proximidade excessiva entre seus centróides, o que inviabilizaria a criação de perfis de clientes acionáveis. A alta fragmentação, embora metricamente superior, não se traduzia em segmentos com coerência semântica. Diante disso, a solução com k=4 foi adotada, priorizando a parcimônia e a clareza interpretativa. Essa escolha foi reforçada pelos dendrogramas gerados pelo método hierárquico aglomerativo, que, independentemente do critério de ligação (Single, Average ou Complete), mostraram que um corte em quatro grupos era uma representação estruturalmente coerente.
O terceiro grupo, “Cluster 3 – Alto Valor”, é composto por 14.828 clientes (24,9%) e representa o segmento de maior relevância estratégica. Estes clientes concentram a maior parte da receita, com um gasto médio de R$ 1.501,38, ticket por item elevado (R$ 197,15) e maior custo de frete, indicando compras de maior porte. Este é o cluster prioritário para ações de fidelização e programas de relacionamento. O quarto grupo, “Cluster 4 – Sensíveis a Desconto”, embora menor, com 184 clientes (0,3%), exibe um comportamento único. Possui a maior receita média (R$ 2.732,12), mas seu comportamento de compra está ligado ao uso de cupons de desconto, com uma taxa de uso de 100%. O perfil evidencia consumidores oportunistas, altamente responsivos a incentivos promocionais.
A projeção bidimensional dos clusters via PCA demonstrou uma separação visual clara entre os grupos, validando a coesão interna e a distinção externa dos segmentos. O heatmap das médias padronizadas por cluster também reforçou os contrastes, destacando as variáveis que mais diferenciam cada perfil. O Cluster 3 se destaca positivamente em “ReceitaTotal” e “TicketItem”, enquanto o Cluster 4 se isola na variável “TaxaUsoCupom”. Os Clusters 1 e 2 são diferenciados por suas preferências de forma de envio e pagamento, conforme indicado pelos altos valores de eta-quadrado na ANOVA.
A segmentação oferece insights acionáveis para a gestão de marketing. O cluster “Alto Valor” deve ser o foco de programas de fidelidade para maximizar sua retenção. O cluster “Sensíveis a Desconto” pode ser ativado por meio de campanhas promocionais direcionadas, evitando a canibalização de margens. Para os clusters “Baixo Valor” e “Médios”, as estratégias podem se concentrar em ações de cross-selling e up-selling para estimular o aumento do ticket médio. A identificação desses perfis permite que a empresa saia de uma abordagem de massa para uma comunicação segmentada, otimizando o retorno sobre o investimento.
A análise comparativa com o método hierárquico aglomerativo, usada como ferramenta de validação, corroborou a robustez da estrutura de quatro clusters. O critério de ligação “Single” foi o que melhor capturou as nuances de separação, apesar de sua sensibilidade ao efeito de encadeamento. Os critérios “Average” e “Complete” tenderam a formar um cluster dominante, com menor distinção. No entanto, a consistência geral na sugestão de quatro grupos entre diferentes algoritmos e critérios de validação confere maior confiança aos resultados obtidos.
A aplicação de técnicas de pré-processamento de dados, engenharia de atributos e algoritmos de clusterização permitiu a identificação de segmentos de clientes com perfis comportamentais, financeiros e logísticos distintos. A análise desses grupos revelou padrões de consumo que não seriam evidentes em uma análise agregada. Os resultados fornecem uma base sólida para a personalização de estratégias de marketing, permitindo que a empresa aloque seus recursos de forma mais eficiente e construa relações mais duradouras com seus consumidores.
O estudo alcançou seu propósito de segmentar clientes utilizando técnicas de clusterização, conciliando parcimônia estatística com clareza interpretativa. A solução de quatro clusters permitiu a identificação de perfis de clientes diferenciados por características financeiras, logísticas e comportamentais, fornecendo subsídios concretos para a otimização de estratégias de marketing, precificação e fidelização. Uma constatação relevante foi o elevado poder discriminatório de variáveis relacionadas ao meio de pagamento e à forma de envio, que se mostraram mais influentes na separação dos grupos do que as dimensões financeiras, reforçando a importância de uma visão multidimensional do consumidor. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação dos algoritmos K-means e Hierárquico Aglomerativo sobre dados transacionais
Referências:
Favero, L. P.; Belfiore, P. 2017. Manual de Análise de Dados: Estatística e Modelagem Multivariada com Excel, SPSS e Stata. 1ed. Gen, Rio de Janeiro, RJ, Brasil.
Geron, A. 2020. Mãos à Obra: Aprendizado de Máquina com Scikit-Learn, Keras e TensorFlow. 2ed. Alta Books, Rio de Janeiro, RJ, Brasil.
Hunter, J. D. 2007. Matplotlib: a 2D graphics environment. Computing in Science & Engineering 9(3): 90-95.
Kotler, P.; Kartajaya, H.; Setiawan, I. 2020. Marketing 4.0: Do Tradicional ao Digital. 1ed. Sextante, Rio de Janeiro, RJ, Brasil.
Kotler, P.; Keller, K. L. 2012. Administração de Marketing. 14ed. Pearson, São Paulo, SP, Brasil.
McKinney, W. 2017. Python for Data Analysis. 2ed. O’Reilly Media, Sebastopol, CA, EUA.
Pedregosa, F.; Varoquaux, G.; Gramfort, A.; Michel, V.; Thirion, B.; Grisel, O.; Blondel, M.; Prettenhofer, P.; Weiss, R.; Dubourg, V.; Vanderplas, J.; Passos, A.; Cournapeau, D.; Brucher, M.; Perrot, M.; Duchesnay, E. 2011. Scikit-learn: machine learning in Python. Journal of Machine Learning Research 12: 2825-2830.
Provost, F.; Fawcett, T. 2016. Data Science para Negócios: O Que Você Precisa Saber Sobre Mineração de Dados e Pensamento Analítico de Dados. 1ed. Alta Books, Rio de Janeiro, RJ, Brasil.
Silva, P. L. N.; Bianchini, Z. M.; Dias, A. J. R. 2021. Amostragem: teoria e prática usando R. Rio de Janeiro, RJ, Brasil. ISBN 978-65-00-54993-5. Disponível em: https://amostragemcomr. github. io/livro/ . Acesso em: 11 set. 2025.
Waskom, M. 2021. Seaborn: statistical data visualization. Journal of Open Source Software 6(60): 3021.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































