Imagem Análise de cluster para segmentação estratégica de clientes bancários

19 de fevereiro de 2026

Análise de cluster para segmentação estratégica de clientes bancários

Ricardo dos Santos Vieira; Ricardo Janes

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este estudo implementa a análise de agrupamentos em uma base de clientes bancários para identificar perfis distintivos. A partir da interpretação destes perfis, sugere-se um conjunto de estratégias e produtos aderentes às suas necessidades, aprimorando a gestão do portfólio e as práticas de fidelização. A pesquisa se justifica pela crescente competitividade no setor bancário, que impulsiona a busca por inovações na compreensão e atendimento ao cliente. Nesse cenário, a segmentação de mercado emerge como uma ferramenta estratégica fundamental para direcionar esforços de marketing e desenvolvimento de produtos de maneira eficaz.

Técnicas quantitativas como a análise de agrupamentos, ou clusterização, consolidaram-se como um artifício para identificar padrões comportamentais e de consumo a partir da diferenciação de grupos homogêneos de clientes. Esta abordagem permite o redesenho de produtos e serviços alinhados às necessidades de cada segmento, maximizando a satisfação (Gupta e Kumar, 2018; Hussain et al., 2020). A segmentação transcende a simples categorização demográfica, evoluindo para uma compreensão mais profunda das motivações e do valor do ciclo de vida do cliente, o que é crucial para a sustentabilidade do negócio (Kumar e Sharma, 2017).

Estudos como os de Alparslan e Dündar (2019) e Jain e Singh (2020) reforçam a segmentação como recurso estratégico para a competitividade e o fortalecimento do relacionamento com os clientes. Ao agrupar clientes com características similares, os bancos otimizam campanhas de marketing e estratégias de retenção, que são mais rentáveis do que a aquisição de novos clientes. Adicionalmente, Hair et al. (2009) e Fávero e Belfiore (2017) defendem o uso de técnicas multivariadas, como a análise de clusters, como método robusto para reduzir a complexidade de grandes volumes de dados, gerando representações acionáveis sobre os fenômenos de mercado.

Apesar dos avanços em algoritmos de clusterização, incluindo abordagens híbridas (Sahu et al., 2021), persistem lacunas na literatura quanto à interpretação aprofundada de perfis de clientes a partir de múltiplos critérios. Pesquisadores como Al-Monami et al. (2020) e Bajdor et al. (2021) apontam que, embora variáveis psicográficas e comportamentais sejam cada vez mais utilizadas, muitas análises no setor bancário ainda se apoiam excessivamente em dados demográficos, financeiros e transacionais, o que pode levar a uma visão incompleta do cliente.

Portanto, a investigação sobre como diferentes tipos de variáveis podem ser combinados para gerar agrupamentos significativos e capazes de orientar decisões práticas no setor bancário permanece relevante. Este trabalho contribui para o preenchimento dessa lacuna, demonstrando um processo metodológico completo, desde o tratamento dos dados até a formulação de recomendações estratégicas baseadas nos perfis identificados, reforçando a ponte entre a análise de dados e a gestão de marketing no contexto financeiro.

Metodologicamente, a pesquisa é aplicada, com finalidade de gerar conhecimento para a resolução de um problema prático. A abordagem é quantitativa, com emprego de técnicas estatísticas uni e multivariadas, com destaque para a análise de clusters (Creswell, 2021). Quanto aos objetivos, o estudo é descritivo, ao apresentar as características da base de clientes, e explicativo, ao identificar as relações subjacentes que contribuem para a formação de grupos distintos por meio da clusterização (Bryman e Bell, 2019).

A pesquisa utilizou dados secundários da base fictícia “bankcustomerdetails. xlsx”, disponível na plataforma Kaggle. O conjunto de dados contém informações de 10.000 clientes de um banco hipotético na Europa, abrangendo variáveis demográficas (país, gênero), financeiras (pontuação de crédito, salário anual, saldo em conta, em euros) e gerenciais (posse de cartão de crédito, tempo de relacionamento, status de membro ativo). A escolha por uma base de dados pública e fictícia garante a reprodutibilidade do estudo e mitiga preocupações éticas com a privacidade de dados.

O processo de análise de dados foi estruturado em três etapas. A primeira consistiu no pré-processamento e na análise exploratória, com inspeção e tratamento de valores ausentes, tradução de rótulos e descrição das variáveis numéricas (média, desvio padrão) e categóricas (frequência). A segunda etapa envolveu análises gráficas, como histogramas, boxplots e mapas de calor para explorar a concentração geográfica de indicadores como saldo médio e elegibilidade para empréstimo por país. Conforme Creswell (2021), esta abordagem visual serve como base para identificar características distintivas.

A terceira e principal etapa foi a aplicação da análise de clusters por meio do algoritmo K-Means, técnica recomendada para segmentação de clientes por sua eficiência e capacidade de identificar grupos internamente homogêneos e externamente heterogêneos (Hair et al., 2009; Malhotra, 2012). O algoritmo oferece vantagens como simplicidade, rapidez e escalabilidade (Morettin e Singer, 2022). O procedimento foi dividido na definição do número ótimo de clusters (k), na implementação do algoritmo e na interpretação dos resultados. Para determinar k, foram utilizados o método do cotovelo e o coeficiente de silhueta (Fávero e Belfiore, 2017). Após a geração dos clusters, testes de Análise de Variância (ANOVA) verificaram quais variáveis mais contribuíram para a formação dos grupos (Triola, 2017). Todo o processo foi conduzido em Python com as bibliotecas pandas, matplotlib, seaborn e scikit-learn, garantindo a reprodutibilidade (Marconi e Lakatos, 2021).

Após o tratamento, obteve-se um dataset final com 10.000 observações. As estatísticas descritivas das variáveis numéricas revelaram heterogeneidade nas dimensões financeiras. A pontuação de crédito apresentou média de 650,5 com desvio padrão de 96,7, enquanto o tempo de relacionamento se concentrou em torno de 5 anos. A variável saldo exibiu assimetria, com média de 76.486 euros. A quantidade de produtos por cliente manteve uma média de 1,53, e o salário anual mostrou média de 100.090 euros com desvio padrão de 57.510 euros, confirmando a dispersão de renda. Histogramas complementaram essa visão, mostrando uma distribuição quase simétrica para a pontuação de crédito, uniforme para o tempo de relacionamento e bimodal para o saldo.

A análise das variáveis categóricas revelou predominância de clientes da França (50,1%), seguida por Alemanha (25,9%) e Espanha (24,8%). Houve equilíbrio de gênero (54,6% masculinos). A maioria possuía cartão de crédito (70,6%) e era elegível para empréstimo (82,7%), com 51,5% de membros ativos. Mapas de calor identificaram padrões geográficos, com alta concentração de clientes de alto valor na Alemanha; o núcleo de maior densidade indicava maior contribuição financeira. Padrão semelhante foi observado para elegibilidade de empréstimo, saldo e salário, com a Alemanha consistentemente se destacando, sugerindo uma base de clientes financeiramente mais consolidada neste país, um achado contextual valioso para a clusterização (Hair et al., 2009).

O processo de clusterização iniciou-se com a definição do número ótimo de agrupamentos. O método do cotovelo mostrou que a redução da soma dos quadrados dentro dos grupos (WCSS) se tornava menos acentuada a partir de k=4. O índice de silhueta, por sua vez, apresentou o maior valor para k=2. No entanto, uma solução com dois clusters foi considerada excessivamente simplista e de baixa utilidade prática (Ketchen e Shook, 1996; Punj e Stewart, 1983). Seguindo as recomendações de Dolnicar (2002) e Malhotra (2012), que defendem que a utilidade gerencial deve prevalecer sobre métricas estatísticas isoladas, optou-se por uma configuração com k=5, por representar um equilíbrio entre interpretabilidade e diferenciação.

A aplicação do K-Means com k=5 permitiu a identificação de cinco perfis de clientes. O Cluster 0, “Clientes de Alto Valor Consolidado”, foi caracterizado por pontuação de crédito média (651), o maior tempo de relacionamento (8 anos), e os mais elevados saldos e salários médios. O Cluster 1, “Clientes de Valor Moderado e Diversificado”, apresentou tempo de relacionamento intermediário, saldos e salários elevados, mas com um número significativamente maior de produtos. O Cluster 2, “Clientes de Baixo Engajamento Inicial”, agrupou clientes com menor tempo de relacionamento e menor adesão a produtos, embora com saldos significativos. O Cluster 3, “Clientes de Baixa Contribuição Financeira”, foi composto por clientes com os menores saldos e salários. Por fim, o Cluster 4, “Clientes de Alta Renda Emergente”, reuniu indivíduos com os salários médios mais altos, mas com saldos em conta relativamente baixos.

Para validar a formação dos clusters, testes de ANOVA confirmaram que as variáveis saldo (F = 9035,39; p < 0,001), quantidade de produtos (F = 3761,32; p < 0,001), tempo de relacionamento (F = 1734,61; p < 0,001) e salário (F = 1109,25; p < 0,001) apresentaram altíssima significância estatística. Em contrapartida, a pontuação de crédito (F = 1,62; p = 0,165) mostrou-se não significativa. A análise da variabilidade explicada (Eta²) reforçou que o saldo foi responsável por 78% da variância entre os grupos, seguido por quantidade de produtos (60%), tempo de relacionamento (41%) e salário (31%). A pontuação de crédito explicou menos de 0,1% da variabilidade, confirmando sua irrelevância para esta segmentação.

A interpretação dos cinco clusters revelou implicações práticas para a gestão. O perfil de “Alto Valor Consolidado” (Cluster 0) alinha-se a clientes estratégicos, cuja retenção é prioritária (Kotler & Keller, 2016; Kumar et al., 2019), sendo recomendados programas de private banking e gerentes de conta dedicados. O perfil de “Valor Moderado e Diversificado” (Cluster 1) representa um segmento com alto potencial de rentabilidade e evolução de valor (Lemon e Verhoef, 2016), ideal para estratégias de fidelização e cross-selling.

O grupo de “Baixo Engajamento Inicial” (Cluster 2) demanda estratégias de ativação para aprofundar o relacionamento e evitar a evasão (Verhoef et al., 2021), como incentivos para a contratação do primeiro crédito. O perfil de “Baixa Contribuição Financeira” (Cluster 3) requer uma análise de custo-benefício (Homburg et al., 2013), com atendimento otimizado por canais digitais de baixo custo. Finalmente, o perfil de “Alta Renda Emergente” (Cluster 4) representa um segmento com alto potencial latente que pode ser convertido em cliente de maior valor (Gupta e Lehmann, 2005; Kumar, 2018). Para este grupo, a oferta de consultoria financeira, produtos de investimento de entrada e cartões de crédito com benefícios progressivos pode ser eficaz. A clusterização orienta, assim, políticas customizadas para cada perfil, otimizando a alocação de recursos.

O presente trabalho demonstrou a aplicação da análise de clusters como estratégia para a segmentação de clientes bancários, identificando cinco perfis relevantes: alto valor consolidado, valor moderado e diversificado, baixo engajamento inicial, baixa contribuição financeira e alta renda emergente. Os resultados reforçam a importância da técnica para a compreensão da heterogeneidade da base de clientes, viabilizando o desenvolvimento de políticas direcionadas de fidelização e retenção, em consonância com a literatura (Kotler & Keller, 2016; Kumar, 2018). Na prática, a pesquisa evidencia que estratégias personalizadas podem fortalecer a retenção de clientes estratégicos e otimizar a alocação de recursos, reforçando a utilidade gerencial da clusterização para a competitividade no setor bancário.

Contudo, o estudo possui limitações. Os resultados refletem um conjunto de dados específico, não contemplando informações sobre comportamento digital, e a análise foi realizada em um recorte temporal estático, o que impede a observação de variações longitudinais. Essas limitações apontam para a necessidade de pesquisas futuras que incorporem séries temporais, dados não estruturados e variáveis contextuais. O trabalho reforça a aplicabilidade da clusterização e abre caminho para novos estudos que explorem abordagens híbridas, como a combinação com machine learning supervisionado e análises preditivas. Conclui-se que o objetivo foi atingido: demonstrou-se que a análise de clusters é uma ferramenta eficaz para a segmentação de clientes bancários, permitindo a identificação de perfis distintos e o direcionamento de estratégias personalizadas.

Referências:
Al-Monami, A., Al-Malaise, A., & Al-Dhaqm, A. (2020). Customer segmentation in banking sector using clustering algorithms. International Journal of Advanced Computer Science and Applications, 11(3).
Alparslan, U., & Dündar, S. (2019). Customer segmentation by using data mining techniques in banking sector. Journal of Business Research-Turk, 11(2), 1119-1130.
Bajdor, P., Starostka-Patyk, M., & Zasadzień, M. (2021). The role of customer segmentation in the digital era. Procedia Computer Science, 192, 4839-4848.
Bryman, A., & Bell, E. (2019). Business research methods. 5th ed. Oxford University Press.
Creswell, J. W. (2021). Research design: Qualitative, quantitative, and mixed methods approaches. 6th ed. Sage publications.
Dolnicar, S. (2002). A review of data-driven market segmentation in tourism. Journal of Travel & Tourism Marketing, 12(1), 1-22.
FÁVERO, L. P. L.; BELFIORE, P. P. Análise de dados: modelagem multivariada para tomada de decisões. Rio de Janeiro: LTC, 2017.
GUPTA, S.; LEHMANN, D. R. Managing customers as investments: the strategic value of customers in the long run. Upper Saddle River: Wharton School Publishing, 2005.
Gupta, S., & Kumar, S. (2018). Customer segmentation using machine learning. International Journal of Engineering and Technology, 7(4), 34-38.
HAIR, J. F.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.
HOMBURG, C.; SCHÄFER, H.; SCHNEIDER, J. Sales excellence: systematic sales management. Business Expert Press, v. 18, n. 3, p. 45-67, 2013.
Hussain, A., Ali, S., & Khan, M. A. (2020). A framework for customer segmentation in the banking sector using data mining techniques. IEEE Access, 8, 84567-84580.
Jain, A., & Singh, P. (2020). Customer segmentation using data mining techniques: a review. Journal of Ambient Intelligence and Humanized Computing, 11(6), 2365-2383.
Ketchen, D. J., & Shook, C. L. (1996). The application of cluster analysis in strategic management research: an analysis and critique. Strategic Management Journal, 17(6), 441-458.
KOTLER, P.; KELLER, K. L. Administração de marketing. 15. ed. São Paulo: Pearson, 2016.
KUMAR, V. Customer relationship management: concepts and technologies. 3. ed. Hoboken: Wiley, 2018.
Kumar, V., & Sharma, A. (2017). A review of customer segmentation using data mining techniques. International Journal of Computer Applications, 165(6), 1-6.
KUMAR, V.; SHAH, D.; VENKATESAN, R. Managing the customer lifecycle: customer valuation and relationship management. Journal of Marketing Research, v. 56, n. 6, p. 1045-1068, 2019.
LEMON, K. N.; VERHOEF, P. C. Understanding customer experience throughout the customer journey. Journal of Marketing, v. 80, n. 6, p. 69-96, 2016.
MALHOTRA, N. K. Pesquisa de marketing: uma orientação aplicada. 6. ed. Porto Alegre: Bookman, 2019.
Marconi, M. de A., & Lakatos, E. M. (2021). Fundamentos de metodologia científica. 9. ed. Atlas.
MORETTIN, P. A.; SINGER, J. M. Estatística e Ciência de Dados. Rio de Janeiro: LTC, 2022.
Punj, G., & Stewart, D. W. (1983). Cluster analysis in marketing research: review and suggestions for application. Journal of Marketing Research, 20(2), 134-148.
Sahu, S. K., Mohanty, S. N., & Mohapatra, S. (2021). A hybrid approach for customer segmentation using artificial intelligence and deep learning. Journal of Big Data, 8(1), 1-21.
TRIOLA, M. F. Introdução à estatística. 12. ed. Rio de Janeiro: LTC, 2017.
VERHOEF, P. C.; KANNAN, P. K.; INMAN, J. J. From multi-channel retailing to omni-channel retailing: introduction to the special issue on multi-channel retailing. Journal of Retailing, v. 97, n. 1, p. 1-6, 2021.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade