
02 de março de 2026
Segmentação de Usuários em Programas de Fidelidade com K-means e Árvores de Decisão
José Augusto da Fonseca Pinto Coutinho; Miguel Ângelo Lellis Moreira
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo segmenta participantes de um programa de fidelidade Business-to-Business (B2B) para vendedores do varejo, utilizando aprendizado de máquina. O objetivo é identificar grupos de usuários com base em seus padrões de engajamento e vendas, visando subsidiar a personalização de estratégias de incentivo e aprimorar a gestão do programa. A metodologia combina o algoritmo de clusterização K-means para o agrupamento dos vendedores e a técnica de Árvores de Decisão para identificar as variáveis de maior influência na caracterização desses grupos, proporcionando uma compreensão estratégica do comportamento dos participantes.
Programas de fidelidade são instrumentos estratégicos para fortalecer relações comerciais e aumentar a performance de vendas no contexto B2B. Quando direcionados à força de vendas do varejo, estimulam o engajamento, a motivação e os resultados comerciais (ODIONU et al., 2024). A eficácia dessas iniciativas está ligada à capacidade da empresa de compreender e atender às necessidades de diferentes perfis de participantes. A literatura corrobora a importância de estratégias de fidelização estruturadas para o fortalecimento das relações e o aumento da lealdade (CHIUSOLI et al., 2021; MAINARDES et al., 2020), sendo a qualidade do serviço e a confiança pilares para relacionamentos duradouros (Doung et al., 2024).
A digitalização das operações comerciais aumentou a geração de dados transacionais, tornando necessária a aplicação de análises avançadas para extrair insights (BAYCIK; GOWDA, 2023). Programas de fidelidade, em particular, são uma fonte rica de big data que permite a análise de padrões de compra e engajamento (KRISHNA et al., 2024; RITA et al., 2023). Nesse contexto, a segmentação de clientes é uma estratégia fundamental, permitindo que as empresas personalizem suas ofertas e maximizem a eficiência de suas ações. O uso de inteligência artificial para segmentação possibilita o desenvolvimento de campanhas mais direcionadas, otimizando o retorno sobre o investimento (Putri et al., 2024).
A demanda por produtos e serviços individualizados, impulsionada por comportamentos sociais, leva organizações a usar tecnologias de análise de dados para oferecer soluções alinhadas às necessidades de cada consumidor. Essa capacidade de personalização em massa representa um diferencial competitivo no ambiente digital (KOTLER et al., 2017). Algoritmos de clusterização como o K-means são amplamente empregados para a segmentação de clientes devido à sua simplicidade e eficiência na organização não supervisionada de dados (SARKAR et al., 2024). Contudo, sua implementação apresenta desafios, como a definição do número ótimo de clusters e a sensibilidade a outliers, que exigem abordagens complementares para assegurar a robustez dos resultados (OLUKANMI et al., 2022).
A relevância deste estudo reside no seu potencial de contribuição para empresas que buscam aprimorar a eficácia de seus programas de fidelidade por meio de uma segmentação precisa e acionável (BELLAALI, 2024). Ao identificar perfis comportamentais distintos, torna-se possível desenvolver estratégias personalizadas que aumentem o engajamento dos vendedores e a lucratividade. A pesquisa se justifica pela crescente importância da análise de dados no ambiente corporativo, reforçando o papel do Machine Learning como suporte à tomada de decisão estratégica (Daraojimba et al., 2024). O trabalho contribui para o avanço do conhecimento em Data Science aplicada a programas de fidelidade, oferecendo um estudo de caso com metodologias estatísticas para a análise de perfis de usuários.
A metodologia é uma pesquisa aplicada, com abordagem descritiva e quantitativa, que utiliza técnicas de análise de dados e Machine Learning para segmentar vendedores de um programa de fidelidade B2B. Os dados foram coletados de registros históricos de um programa corporativo de uma multinacional do setor de saúde óptica, abrangendo o período de janeiro a dezembro de 2024. O tratamento e a análise dos dados seguiram as diretrizes da Lei Geral de Proteção de Dados (LGPD), assegurando a confidencialidade e anonimização das informações. A base de dados original foi armazenada em BigQuery e o pré-processamento, incluindo criptografia de dados sensíveis, foi realizado com MS Excel e SQL.
O conjunto de dados compreende registros transacionais dos vendedores, com variáveis selecionadas para capturar desempenho comercial e características comportamentais. As variáveis primárias incluem: ID (identificador único), categoria (classificação da loja), ptslib (pontuação liberada), resgatado (pontos utilizados), incercoes (número de produtos registrados) e freq (frequência de participação em meses). Para enriquecer a análise, foram criadas três variáveis derivadas: taxaresgate (resgatado/ptslib), que indica o comportamento de consumo; ptsporinsercao (ptslib/incercoes), que revela a eficiência em valor por produto; e insercoespormes (incercoes/freq), que padroniza o nível de atividade.
O núcleo da análise foi o algoritmo K-means, um método não supervisionado que particiona dados em k grupos homogêneos, minimizando a Soma dos Quadrados Dentro dos Clusters (WCSS). O processo iterativo do algoritmo envolve a inicialização de centroides, a atribuição de cada ponto de dados ao cluster mais próximo (distância euclidiana) e a atualização dos centroides até a convergência. Para determinar o número ideal de clusters (k), foi empregado o método do cotovelo (Elbow Method), que analisa a variação da inércia (WCSS) à medida que o número de clusters aumenta, identificando o ponto onde os ganhos marginais na redução da variância se tornam menos expressivos (SYAKUR et al., 2020).
Para interpretar os clusters, foi utilizada a técnica de Árvores de Decisão, um método supervisionado que constrói um modelo hierárquico de regras. Neste estudo, a árvore identificou as variáveis e limiares mais relevantes na diferenciação dos segmentos. A construção da árvore baseia-se na seleção de atributos que maximizam o ganho de informação, uma medida da redução da impureza (calculada por Entropia ou Índice de Gini). O framework metodológico foi executado em quatro etapas: (1) coleta e pré-processamento dos dados, com remoção de inativos; (2) aplicação do método do cotovelo para definir o número de clusters; (3) execução do K-means para clusterização; e (4) aplicação de Árvores de Decisão para análise dos fatores de influência. A modelagem foi implementada em Python, utilizando bibliotecas como Scikit-learn.
A análise exploratória inicial revelou 17.806 registros de vendedores. Após o pré-processamento, que removeu 6.197 usuários inativos, a base final para modelagem foi consolidada em 11.609 usuários ativos. A estatística descritiva demonstrou heterogeneidade significativa no comportamento dos participantes. As variáveis de pontos liberados (pts_lib) e resgatados apresentaram médias superiores a 7 milhões, mas com desvios-padrão extremamente elevados, indicando grande dispersão e perfis de desempenho distintos. Essa variabilidade foi corroborada pelos coeficientes de variação das métricas de inserções e frequência, justificando a aplicação de técnicas de segmentação.
A aplicação do método do cotovelo, que calculou a soma dos erros quadráticos internos (SSE) para um número de clusters de 1 a 10, foi fundamental para a definição da segmentação. O gráfico resultante indicou que a redução da inércia era mais acentuada até quatro clusters. A partir de k=4, a curva achatou-se, sinalizando ganhos marginais decrescentes na explicação da variância. Portanto, optou-se por quatro clusters, buscando um equilíbrio entre a complexidade do modelo e sua capacidade de representar os padrões, evitando sub-segmentação ou super-segmentação.
A execução do K-means com k=4 resultou em quatro segmentos distintos de vendedores. O Cluster 1 é o maior grupo, com 6.917 vendedores (59,6% da base). Este segmento é caracterizado por baixo engajamento, com frequência média de 1,9 meses e mediana de zero para pontos liberados e resgatados. A predominância das categorias D e C sugere que é composto por novos participantes, usuários esporádicos ou inativos recentes. A taxa de resgate média de 0,63 indica que, mesmo entre os que pontuam, a utilização dos benefícios é limitada.
O Cluster 3 é o segundo maior grupo, com 4.116 vendedores (35,5%), classificado como de “usuários regulares” com engajamento consistente. A frequência média de participação é de 8,6 meses, e eles acumulam uma média de 110.697 pontos liberados. A taxa de resgate de 1,11 sugere que utilizam ativamente seus pontos, demonstrando bom envolvimento com o programa. As categorias mais comuns são C e B, indicando um perfil de desempenho intermediário e estável.
O Cluster 0, com 565 vendedores (4,9%), representa um segmento de “alto desempenho”. Estes participantes demonstram engajamento elevado, com frequência média de 8,6 meses, similar ao Cluster 3, mas com volume de pontos significativamente maior (média de 943.213 pontos liberados). A taxa de resgate de 1,19 e a predominância da Categoria A (442 dos 565 membros) confirmam seu status como vendedores de elite, que geram alto valor e utilizam os benefícios intensivamente. Este grupo é estratégico devido ao seu alto volume de vendas.
O Cluster 2 foi identificado como o grupo dos “super usuários”. Com apenas 11 vendedores (0,1% da base), seu desempenho é excepcional. Todos pertencem à Categoria A e apresentam médias de pontos liberados e resgatados na casa dos 6 milhões. A frequência média de 9,1 meses e o altíssimo volume de inserções (média de 3.112) os posicionam em um patamar de performance muito acima dos outros segmentos. Este grupo, embora pequeno, é de altíssima importância estratégica, representando os principais embaixadores do programa.
Para aprofundar a interpretação dos clusters, aplicou-se uma Árvore de Decisão. O modelo revelou as regras que melhor separam os segmentos. A variável mais importante na primeira divisão foi “pontos resgatados”, com um limiar de 446.006 pontos. Vendedores com resgates abaixo desse valor foram, em sua maioria, classificados nos grupos de menor atividade. Para este subgrupo, a “frequência” de participação (com corte em 5,5 meses) tornou-se o segundo critério mais relevante, separando com precisão os usuários do Cluster 1 (baixa frequência) dos demais.
Para vendedores com mais de 446.006 pontos resgatados, a variável “pontos liberados” (pts_lib) assumiu o papel discriminante, com um limiar de 1.294.959 pontos. Este corte foi eficaz para isolar os “super usuários” do Cluster 2. A análise de importância das variáveis confirmou que “frequência” (35,6%) e “pontos resgatados” (35,0%) são os fatores mais determinantes na segmentação, seguidos por “pontos liberados” (25,6%). O número de “inserções” (3,8%) apresentou relevância menor, sugerindo que a qualidade (valor em pontos) e a consistência da participação são mais importantes que o volume bruto de registros.
A metodologia oferece benefícios estratégicos para a gestão do programa. A segmentação permite a personalização das estratégias de incentivo. Para o Cluster 1 (baixo engajamento), podem ser desenvolvidas campanhas de reativação. Para o Cluster 3 (regulares), o foco pode ser em manter o engajamento com metas progressivas. O Cluster 0 (alto desempenho) pode ser alvo de recompensas exclusivas, enquanto o Cluster 2 (super usuários) demanda um tratamento VIP para garantir sua retenção. A compreensão dos fatores discriminantes fornece diretrizes para o redesenho de mecânicas de incentivo, contribuindo para o aumento da motivação e do desempenho comercial.
A combinação de K-means e Árvores de Decisão provou ser uma ferramenta robusta para a segmentação comportamental dos participantes do programa B2B. A identificação de quatro clusters, com perfis de baixa atividade a super usuários, fornece uma visão clara da heterogeneidade da base. A análise permitiu não apenas agrupar os participantes, mas também compreender os principais fatores que diferenciam seus comportamentos, com destaque para a frequência de participação e o volume de pontos resgatados. Essas descobertas oferecem subsídios técnicos para o desenvolvimento de estratégias de incentivo personalizadas.
A pesquisa contribui para as práticas de gestão orientadas por dados, demonstrando o valor do Machine Learning na tomada de decisão estratégica. As limitações do estudo, como a natureza transversal dos dados e a sensibilidade do K-means a outliers, abrem caminhos para trabalhos futuros, como análises temporais para monitorar a migração entre clusters e a inclusão de variáveis demográficas. Conclui-se que o objetivo central da pesquisa foi plenamente atingido: demonstrou-se que a combinação das técnicas de K-means e Árvores de Decisão permite uma segmentação eficaz e interpretável dos perfis de vendedores, gerando insights acionáveis para a otimização de programas de fidelidade.
Referências:
Baycik, N. O.; Gowda, S. 2023. Digitalization of operations and supply chains: insights from survey and case studies. Digital Transformation and Society, Vol 2.
Bellaali, F. 2024. Effectiveness of customer loyalty programs on SMEs in Morocco. International Journal of Applied Sciences & Development, Vol 3.
Chiusoli, C.; Souza, D. R. O.; Lecenko, E. R. C.; Camargo, I. W. 2021. Estratégia de fidelização como prática empresarial para conquista de clientes. Revista Científica Multidisciplinar Núcleo do Conhecimento, Vol 2.
Daraojimba, A. I.; Ibeh, C. V.; Asuzu, O. F.; Olorunsogo, T.; Elufioye, O. A.; Nduubuisi, N. L. 2024. Business analytics and decision science: A review of techniques in strategic business decision making. World Journal of Advanced Research and Reviews, Vol 21.
Doung, P.; Norng, S.; Ngam, P. 2024. Factors influencing customer loyalty in commercial banks: a case study of ACLEDA Bank Plc. Cambodia Journal for Business and Professional Practice, Vol 1.
Khairawati, S. 2020. Effect of customer loyalty program on customer satisfaction and its impact on customer loyalty. International Journal of Research in Business and Social Science.
Kotler, P.; Kartajaya, H.; Setiawan, I. 2017. Marketing 4.0: Do Tradicional ao Digital. Editora Sextante, Rio de Janeiro, RJ, Brasil.
Krishna, S. H.; Kaur, K.; Rajalakshmi, B.; Lakhanpal, S.; Sule, B.; Sumalatha, I. 2024. Competitive edge using big data analytics to improve customer relationship management. In: 7th International Conference on Information Technology. IEEE, New Delhi, India.
Mainardes, E.; Rosa, C. A. M.; Nossa, S. N. 2020. Omnichannel strategy and customer loyalty in banking. International Journal of Bank Marketing.
Odionu, C. S.; Bristol-Alagbariya, B.; Okon, R. 2024. Big data analytics for customer relationship management: enhancing engagement and retention strategies. International Journal of Science and Research.
Olukanmi, P.; Nelwamondo, F.; Marwala, T.; Twala, B. 2022. Automatic detection of outliers and the number of clusters in k-means clustering via Chebyshev-type inequalities. Neural Computing and Applications, Vol 34.
Putri, Y.; Aldo, D.; Ilham, W. 2024. Retail marketing strategy optimization: customer segmentation with artificial intelligence integration and K-means clustering. Sinkron: Jurnal dan Penelitian Teknik Informatika.
Rita, P.; Borges-Tiago, M. T.; Caetano, J. 2023. The theory-practice research gains from big data: evidence from hospitality loyalty programs. International Journal of Contemporary Hospitality Management.
Sarkar, M.; Puja, A. R.; Chowdhury, F. R. 2024. Optimizing marketing strategies with RFM method and K-means clustering-based AI customer segmentation analysis. Journal of Business and Management Studies, Vol 6.
Syakur, M. A.; Khotimah, B. K.; Rochman, E. M. S.; Satoto, B. D. 2020. Integration K-Means Clustering Method and Elbow Method for Identification of The Best Customer Profile Cluster. IOP Conference Series: Materials Science and Engineering.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































