Imagem Clustering de clientes de cartão de crédito para personalização bancária

20 de fevereiro de 2026

Clustering de clientes de cartão de crédito para personalização bancária

Thiago Machado Guedes; Ana Julia Righetto

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo deste trabalho é aplicar técnicas de clustering para segmentar clientes com base em seus padrões de pagamento com cartão de crédito, possibilitando a oferta de serviços financeiros personalizados e complementares ao perfil de risco. A crescente digitalização dos serviços financeiros gerou um volume massivo de dados transacionais, criando uma oportunidade para as instituições compreenderem o comportamento do consumidor em nível granular. No setor de cartões de crédito, essa abundância de informações permite análises detalhadas sobre padrões de consumo e pagamento, essenciais para estratégias competitivas. A capacidade de transformar dados brutos em inteligência acionável tornou-se um diferencial crítico, impulsionando a transição de um modelo de negócios reativo para um proativo, com decisões fundamentadas em evidências empíricas (Fawcett & Provost, 2016). Este estudo demonstra como o aprendizado de máquina não supervisionado pode revelar estruturas ocultas nos dados e fornecer uma base para a tomada de decisões estratégicas.

A segmentação de clientes é uma prática consolidada que permite às empresas dividir um mercado heterogêneo em grupos menores e homogêneos com características ou necessidades semelhantes (Kotler et al., 2017). No setor bancário, essa abordagem influencia a gestão de risco, o desenvolvimento de produtos e a experiência do cliente. Ao agrupar clientes por hábitos de pagamento, as instituições financeiras podem personalizar ofertas de crédito, programas de fidelidade, limites e estratégias de renegociação de dívidas. Essa personalização aumenta a satisfação e a lealdade do cliente, otimiza a alocação de recursos e mitiga riscos de inadimplência. A literatura acadêmica corrobora a eficácia de técnicas de agrupamento, como K-Means, para categorizar consumidores a partir de variáveis transacionais como frequência de compras, valor médio e histórico de atrasos (Rocha et al., 2022).

A relevância do estudo é amplificada pelo cenário competitivo entre bancos tradicionais e fintechs. Em um mercado orientado por dados, a capacidade de antecipar as necessidades dos clientes e oferecer soluções sob medida é um fator determinante para o sucesso. A análise de dados permite identificar clientes rentáveis, em risco de inadimplência ou propensos a cancelar serviços. A combinação de modelos estatísticos e aprendizado de máquina tem sido amplamente utilizada para prever o comportamento do cliente e propor ações preventivas, como a retenção de clientes valiosos e a mitigação de perdas (Malhotra, 2019). Portanto, a segmentação por clustering é um componente estratégico que alinha as operações do banco às expectativas do mercado.

Este trabalho utiliza o “Default of Credit Card Clients Dataset” (Yeh e Liao, 2009), um conjunto de dados público e anonimizado do UCI Machine Learning Repository (Lichman, 2013). A escolha por uma base de dados reconhecida confere robustez e replicabilidade à análise. A utilização de dados secundários anonimizados assegura a conformidade com as normas éticas de pesquisa, protegendo a privacidade dos indivíduos. A análise foca em identificar perfis de comportamento distintos e explorar como podem ser utilizados para oferecer serviços financeiros alinhados às necessidades e ao perfil de risco de cada cliente.

A pesquisa é aplicada, pois gera conhecimento com aplicação prática no setor financeiro. Quanto aos objetivos, o estudo é descritivo, por detalhar os padrões de comportamento de pagamento, e quantitativo, por empregar técnicas estatísticas e de aprendizado de máquina para analisar variáveis numéricas (Gil, 2017). A abordagem metodológica foi o levantamento de dados secundários, estratégia que permite a análise de informações já existentes (Grady et al., 2015), justificada pela disponibilidade de um dataset público e validado.

O delineamento metodológico foi estruturado em três etapas. A primeira foi o pré-processamento dos dados, passo fundamental para assegurar a qualidade das informações. Esta fase incluiu o tratamento de valores ausentes, a padronização das variáveis numéricas pela técnica de normalização z-score para que tivessem a mesma escala, e uma análise exploratória para identificar a distribuição das variáveis, correlações e a presença de outliers (Zanella, 2013). A padronização é crucial para algoritmos baseados em distância, como o K-Means, pois evita que variáveis com magnitudes maiores dominem o processo de agrupamento.

A segunda etapa foi a aplicação das técnicas de clustering. O algoritmo principal foi o K-Means, escolhido por sua eficiência computacional e aplicabilidade. O algoritmo DBSCAN foi considerado como alternativa. A definição do número ideal de clusters (k) foi realizada com métodos complementares. O Método do Cotovelo (Elbow Method) foi utilizado para analisar a Soma dos Quadrados dos Erros Dentro do Grupo (SQE), identificando o ponto de inflexão na curva onde a adição de novos clusters não resulta em redução significativa da variância intragrupo. Adicionalmente, o Índice de Silhueta foi empregado para avaliar a qualidade da segmentação, medindo a coesão e a separação dos clusters. A escolha final do número de clusters baseou-se no equilíbrio entre a simplicidade do modelo e a qualidade da segmentação (Fleury et al., 2018).

A terceira etapa consistiu na análise e interpretação dos resultados para a personalização de serviços. Após a formação dos clusters, as características de cada grupo foram analisadas calculando-se as médias das variáveis financeiras por segmento. Essa análise permitiu a criação de perfis de clientes, como “clientes premium”, “clientes de alto risco” e “clientes conservadores”. Com base nesses perfis, foram formuladas recomendações de ofertas personalizadas, como ajustes de limite de crédito, programas de cashback e estratégias de renegociação de dívidas, considerando o perfil de risco de cada grupo (Kotler et al., 2017). A análise foi realizada em Python, com as bibliotecas pandas, numpy, scikit-learn, matplotlib e seaborn.

A análise exploratória dos dados revelou heterogeneidade no comportamento financeiro dos clientes. A distribuição da variável de limite de crédito (LIMITBAL) mostrou concentração em valores baixos, com a maioria dos clientes possuindo limites inferiores a NT$200.000, enquanto uma pequena fração detinha limites superiores a NT$500.000. Este padrão sugere a predominância de um perfil de cliente conservador, com um segmento minoritário de alta renda. As variáveis de histórico de pagamento (PAY0 a PAY6) indicaram que, embora a maioria dos pagamentos fosse realizada em dia ou com atraso de até um mês, existia um subgrupo com atrasos recorrentes. A análise das faturas (BILLAMT1 a BILLAMT6) e dos pagamentos (PAYAMT1 a PAY_AMT6) também revelou grande disparidade, com poucos clientes gerando altos volumes de transações e a maioria realizando pagamentos em faixas de valor mais baixas.

Para otimizar o clustering, foi aplicada a Análise de Componentes Principais (ACP). A análise da variância explicada acumulada demonstrou que os três primeiros componentes principais retinham aproximadamente 64% da variância total, enquanto cinco componentes explicavam cerca de 74%. Este resultado evidenciou que uma quantidade reduzida de componentes preservava a maior parte da informação relevante, simplificando o modelo. A ACP foi útil para sintetizar os padrões de correlação entre variáveis colineares, como os valores das faturas e os históricos de pagamento. A utilização de cinco componentes principais foi considerada um equilíbrio adequado entre retenção de informação e simplicidade do modelo.

A determinação do número ideal de clusters foi um passo crítico. O Método do Cotovelo, baseado na Soma dos Quadrados dos Erros Dentro do Grupo (SQE), mostrou uma queda acentuada da SQE até k=3, com a curva se estabilizando a partir de k=4, sugerindo entre três e quatro clusters. Para uma validação mais robusta, foi utilizado o Coeficiente de Silhueta. Embora o valor mais alto tenha sido alcançado com k=2 (0, 4175), uma segmentação com apenas dois grupos foi considerada genérica e pouco acionável. Ao avaliar outras opções, observou-se que k=5 apresentou um coeficiente de silhueta estável e válido (0, 2631), oferecendo uma granularidade mais refinada para identificar nuances comportamentais. Portanto, optou-se por uma estrutura de cinco clusters.

A análise das médias das variáveis por cluster permitiu a caracterização de cinco perfis distintos. O Cluster 0 agrupou clientes com alto limite de crédito (média de 280 mil NT$) e uso elevado do cartão, mas com pagamento relativamente regular, apresentando atrasos discretos. Este perfil foi identificado como “Clientes de alto limite e comportamento regular”, com potencial para produtos premium. O Cluster 1 representou clientes com baixo limite de crédito (média de 117 mil NT$), baixo volume de faturas e pagamentos pontuais, caracterizando um perfil conservador e de baixo uso. Para este grupo, produtos como cartões sem anuidade foram considerados adequados.

O Cluster 2 destacou-se por concentrar clientes com o maior limite de crédito médio (aproximadamente 333 mil NT$), pagamentos em dia ou antecipados e valores de pagamento mensais elevados. Este grupo foi classificado como “Clientes premium com histórico exemplar”, alvo ideal para produtos exclusivos e consultoria financeira personalizada. Em contraste, o Cluster 3 agrupou clientes com baixo limite de crédito (cerca de 76 mil NT$), mas com atrasos sistemáticos e valores pagos muito baixos. Este perfil foi identificado como “Clientes com risco elevado de inadimplência”, demandando ações preventivas, como revisão de limites e programas de renegociação de dívidas.

O Cluster 4 apresentou um comportamento atípico, com valores muito baixos de faturas e pagamentos, e padrões de atraso invertidos. Este grupo foi interpretado como “Clientes de uso mínimo ou comportamento atípico”, podendo representar contas inativas ou com inconsistências. Para este segmento, a recomendação foi a implementação de campanhas de reativação com benefícios promocionais ou, em casos de inatividade prolongada, o encerramento da conta para otimizar a gestão do portfólio. A visualização dos clusters no espaço bidimensional gerado pela ACP confirmou a separação entre os grupos.

Este estudo conclui que a aplicação de aprendizado de máquina não supervisionado, especificamente o K-Means combinado com a Análise de Componentes Principais, é uma abordagem eficaz para a segmentação de clientes de cartão de crédito. A análise do “Default of Credit Card Clients Dataset” permitiu a identificação de cinco perfis comportamentais distintos. A metodologia adotada, com pré-processamento criterioso e validação do número de clusters pelo Método do Cotovelo e Coeficiente de Silhueta, garantiu a robustez dos resultados. Os perfis identificados variam de clientes premium com histórico exemplar a grupos de alto risco de inadimplência, fornecendo um panorama completo da base de clientes.

A principal contribuição do trabalho reside na demonstração prática de como a segmentação baseada em dados pode subsidiar a formulação de estratégias de negócios personalizadas. As recomendações de serviços para cada cluster — como programas de fidelidade para clientes de alto valor, ações preventivas para clientes de risco e campanhas de reativação para inativos — ilustram o potencial da ciência de dados para otimizar o relacionamento com o cliente, aumentar a rentabilidade e mitigar riscos. Para trabalhos futuros, recomenda-se a exploração de outros algoritmos de clusterização, como DBSCAN ou Hierarchical Clustering, e a incorporação de variáveis socioeconômicas adicionais para enriquecer a análise. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de técnicas de clustering permite a segmentação eficaz de clientes de cartão de crédito em perfis comportamentais distintos, viabilizando a formulação de estratégias de personalização de serviços financeiros.

Referências:
BRASIL. Conselho Nacional de Saúde [CNS]. Resolução CNS nº 510, de 7 de abril de 2016. Normas aplicáveis a pesquisas em Ciências Humanas e Sociais. Disponível em: https://conselho. saude. gov. br/normativas-conep? view=default. Acesso em: 09/03/2023.
FAWCETT, T.; PROVOST, F. Data Science para Negócios: o que você precisa saber sobre mineração de dados e pensamento analítico de dados. Rio de Janeiro: Alta Books, 2016.
FLEURY, A.; MELLO, C. H. P.; NAKANO, D. N.; LIMA, E. D.; TURRIONI, J. B.; HO, L. L.; COSTA, S. E. G.; MARTINS, R. A.; SOUSA, R.; CAUCHICK-MIGUEL, P. A. Metodologia de Pesquisa em Engenharia de Produção e Gestão de Operações. 3. ed. Rio de Janeiro: Elsevier, 2018.
GIL, A. C. Como Elaborar Projetos de Pesquisa. 6. ed. São Paulo: Atlas, 2017.
GRADY, D. G.; CUMMINGS, S. R.; HULLEY, S. B. Pesquisa com Dados Existentes. In: HULLEY, S. B.; CUMMINGS, S. R.; BROWNER, W. S.; GRADY, D. G.; NEWMAN, T. B. Delineando a Pesquisa Clínica. 4. ed. Porto Alegre: Artmed, 2015.
KOTLER, P.; KARTAJAYA, H.; SETIAWAN, I. Marketing 4.0: Do Tradicional ao Digital. 1. ed. Rio de Janeiro: Sextante, 2017.
LICHMAN, M. UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science, 2013. Disponível em: http://archive. ics. uci. edu/ml. Acesso em: 09/03/2025.
MALHOTRA, N. K. Pesquisa de Marketing: Uma Orientação Aplicada. 7. ed. Porto Alegre: Bookman, 2019.
MIGUEL, P. A. C.; FLEURY, A.; MELLO, C. H. P.; NAKANO, D. N.; LIMA, E. P.; TURRIONI, J. B.; HO, L. L.; MORABITO, R.; MARTINS, R. A.; SOUSA, R.; COSTA, S. E. G.; PUREZA, V. Metodologia de Pesquisa em Engenharia de Produção e Gestão de Operações. 2. ed. Rio de Janeiro: Elsevier, 2012.
ROCHA, A.; MACÊDO, E.; PORTELA, L.; SILVA, V. Clustering Application for Customer Segmentation in the JUSTA Database. Revista de Engenharia e Pesquisa Aplicada, Recife, v. 7, n. 3, p. 39-53, 2022. DOI: 10.25286/repa. v7i3.2458.
ROCHA, E. Segmentação do Perfil de Clientes Inadimplentes Utilizando Ferramentas Computacionais. 2022. Trabalho de Conclusão de Curso (Bacharelado em Estatística) – Universidade Estadual Paulista (UNESP), Faculdade de Ciências e Tecnologia, Presidente Prudente, 2022.
YEH, I. C.; LIAO, C. H. Default of Credit Card Clients Dataset. 2009. Disponível em: https://archive. ics. uci. edu/ml/datasets/default+of+credit+card+clients. Acesso em: 09/03/2025.
ZANELLA, L. C. H. Metodologia de Pesquisa. 2. ed. Florianópolis: UFSC, 2013.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade