Imagem Previsão de churn com machine learning para clientes de banda larga

04 de fevereiro de 2026

Previsão de churn com machine learning para clientes de banda larga

Cristina Mayumi Kato Monteiro; Adriano de Freitas Fernandes

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo deste trabalho foi desenvolver um modelo preditivo para estimar a probabilidade de cancelamento de clientes por inadimplência (churn), visando apoiar a área de cobrança na seleção de clientes de alto risco para estratégias de retenção, como descontos e comunicação via WhatsApp. A pesquisa comparou a eficácia da regressão logística e do Random Forest para identificar clientes com até seis meses de contrato propensos a cancelar por falta de pagamento. A finalidade é otimizar os recursos da empresa, direcionando os esforços de recuperação de crédito para os casos mais críticos, maximizando a rentabilidade e a sustentabilidade da base.

A gestão da inadimplência e do churn é um desafio para empresas de serviços contínuos, como provedoras de internet. O custo de aquisição de um novo cliente é substancialmente maior que o de manutenção de um existente (Silva e Botelho, 2023), englobando despesas com equipamentos, instalação, comissões e marketing. A perda de um cliente recente representa não apenas a perda de receita futura, mas também a dificuldade em amortizar o investimento inicial. A inadimplência, definida como o descumprimento de uma obrigação de pagamento (Gering et al., 2021), é um precursor direto do churn, criando um risco financeiro que exige gerenciamento proativo (Sehn e Carlini Junior, 2007).

No setor de telecomunicações, o cancelamento por inadimplência ocorre após um período determinado, geralmente em torno de 90 dias (Meireles et al., 2021). Para mitigar esse risco, empresas utilizam modelos de pontuação como “credit scoring” e “behaviour scoring”. O primeiro avalia o risco no momento da aquisição com base em dados de mercado (Hand e Henley, 1997). Contudo, o risco residual persiste, tornando cruciais os modelos de “behaviour scoring”, que utilizam dados internos do comportamento do cliente após a ativação para prever seu comportamento futuro, oferecendo prognósticos mais consistentes (Salanek, 2020).

A abordagem tradicional da cobrança, segmentada por faixas de atraso, carece de granularidade. Modelos preditivos avançados permitem uma segmentação sofisticada, baseada na probabilidade individual de churn, otimizando recursos e minimizando custos operacionais (Salanek, 2020). Ao identificar clientes de alto risco com antecedência, a empresa pode personalizar ações, ofertando condições especiais de negociação apenas para quem precisa, evitando a canibalização da receita. Este estudo busca fornecer uma ferramenta analítica robusta para essa tomada de decisão.

A investigação comparou a regressão logística, um método estatístico clássico selecionado por sua interpretabilidade, com o Random Forest, um método de ensemble escolhido por sua alta capacidade preditiva e robustez para lidar com interações complexas. A análise considerou o desafio do desbalanceamento de dados, comum em problemas de churn; a classe de interesse (clientes que cancelam) é minoritária. Para lidar com essa questão, ambos os modelos foram avaliados com e sem a aplicação de técnicas de ponderação, visando corrigir o viés do algoritmo.

O estudo de caso utilizou dados de uma grande provedora de internet em Sumaré, São Paulo. A base de dados foi construída com quatro safras mensais de clientes: janeiro a março de 2024 para treinamento e teste, e junho de 2024 para validação final. A amostra totalizou 87.107 registros para treinamento e 103.329 para validação. Foram incluídos apenas clientes pessoa física, com no máximo seis meses de ativação, que possuíam pelo menos uma fatura gerada no mês de observação e um atraso máximo de 20 dias. Essa delimitação foca o estudo no período mais crítico de retenção.

A estrutura temporal da análise foi desenhada para evitar vazamento de dados (data leakage), garantindo que o modelo aprendesse a prever o futuro com base em informações passadas (Sarlija et al., 2009). Para cada cliente, foram construídas variáveis explicativas com base em seu histórico. A variável resposta, “churn”, foi definida como 1 se o cliente atingisse 90 dias ou mais de inadimplência nos meses subsequentes, e 0 caso contrário. As variáveis explicativas abrangeram dados cadastrais, características do serviço, comportamento de pagamento e de uso.

O processamento e a modelagem foram realizados em Python (versão 3.9.2) com dados de um banco PostgreSQL. Foram utilizadas as bibliotecas pandas para manipulação de dados, statsmodels para a regressão logística, sklearn para o Random Forest e métricas de performance, feature_engine para análise de correlação e matplotlib para visualização. A preparação dos dados incluiu a criação de variáveis “dummy” e uma análise de multicolinearidade entre as variáveis numéricas, utilizando a matriz de correlação de Pearson e o Fator de Inflação de Variância (VIF), etapa crucial para a estabilidade da regressão logística (Hosmer et al., 2013).

Para a regressão logística, um modelo linear generalizado, buscou-se estimar a probabilidade de churn com variáveis selecionadas pelo procedimento “stepwise”, que otimiza o modelo com base na significância estatística (Favero e Belfiore, 2024). Para o Random Forest, que combina múltiplas árvores de decisão, a abordagem utiliza a agregação de previsões para produzir um resultado mais robusto e menos propenso a sobreajuste (Breiman, 2001). A seleção aleatória de um subconjunto de variáveis em cada nó contribui para a descorrelação entre as árvores, aumentando a capacidade de generalização do modelo (Seitshiro e Govender, 2024). A avaliação de ambos priorizou métricas como a área sob a curva ROC (AUC), a precisão e a sensitividade (recall), pois é mais custoso não identificar um cliente propenso ao churn.

A análise descritiva revelou uma taxa de churn de aproximadamente 7,5% nas bases de treinamento e validação, caracterizando um problema de dados desbalanceados. Uma descoberta significativa foi a disparidade na taxa de churn entre canais de venda: o canal presencial apresentou uma taxa de 10,9% a 11,5%, enquanto o canal digital registrou de 6,1% a 6,3%. Essa diferença sugere que o processo de aquisição influencia o risco, com vendas proativas (domicílio) possivelmente atraindo um perfil de cliente com maior risco do que vendas reativas (canais digitais).

A análise de multicolinearidade confirmou altas correlações entre variáveis. Variáveis como diasaberto, meses e qtdfaturaspagasu6m apresentaram valores de VIF superiores a 30. Para mitigar esse problema na regressão logística, a estratégia foi testar essas variáveis de forma alternada durante a seleção via “stepwise”, garantindo que apenas uma de cada grupo correlacionado entrasse no modelo final. O modelo de regressão logística final, sem ponderação, incluiu 38 variáveis com significância estatística.

O modelo de regressão logística sem ponderação apresentou performance robusta na base de treinamento, com Gini de 0,81 e AUC de 0,91. No entanto, na base de validação, houve uma queda acentuada, com o Gini caindo para 0,61 e a AUC para 0,80. Essa perda de performance indicou sobreajuste ou incapacidade de generalizar para novos dados, um problema exacerbado pelo desbalanceamento da amostra, que levou o modelo a aprender a classificar bem a classe majoritária em detrimento da classe minoritária (churn).

O desbalanceamento dos dados gera um viés em favor da classe majoritária, resultando em baixa sensibilidade para a classe de interesse (Peng e Wang, 2022). Para contornar isso, uma segunda regressão logística foi ajustada com ponderação, atribuindo um peso maior aos erros de classificação da classe minoritária. A regressão logística ponderada apresentou uma leve melhora na AUC na validação, de 0,80 para 0,82, mas com uma queda drástica na precisão, de 0,56 para 0,19. Embora o modelo tenha identificado mais clientes com risco, o fez ao custo de um volume inviável de falsos positivos.

Diante disso, a análise voltou-se para o Random Forest. A base de treinamento foi dividida em 70% para treino e 30% para teste, mantendo a safra de junho como validação. O modelo Random Forest sem ponderação já demonstrou performance competitiva na validação, com AUC de 0,82, precisão de 0,80 e sensitividade de 0,18, superando a regressão logística ponderada em termos de precisão.

O avanço decisivo ocorreu com a aplicação da ponderação no modelo Random Forest. O Random Forest ponderado destacou-se como a melhor alternativa. Na base de validação, este modelo alcançou uma AUC de 0,86, uma precisão de 0,77 e uma sensitividade de 0,32. A comparação direta evidenciou sua superioridade: apresentou a maior capacidade de discriminação (AUC) e manteve alta precisão, ao mesmo tempo em que melhorou significativamente a capacidade de identificar corretamente os clientes que cancelariam. Este equilíbrio entre precisão e sensitividade é fundamental para o sucesso de uma campanha de retenção.

A análise do modelo final na base de validação demonstrou seu potencial prático. Ao segmentar os clientes por faixas de score, observou-se que na faixa entre 0.9 e 1.0, 94,2% dos clientes eram de fato churners, um lift de 12,5 vezes em relação à taxa média. Com base nisso, uma simulação financeira foi realizada. Adotando um ponto de corte de 0,80, a ação seria direcionada a 3.251 clientes (3% da base), que concentravam 32,1% de todos os churners. Assumindo uma taxa de recuperação de 30% e a oferta de um desconto de 30% na fatura (valor médio de R$100), a simulação indicou um potencial de receita adicional de R$ 30.327 em um único mês.

Este resultado financeiro ilustra o valor da implementação de um modelo preditivo robusto. A capacidade de focar os esforços de retenção em um segmento pequeno e relevante maximiza o retorno sobre o investimento e minimiza os custos com descontos. A precisão do modelo garante que os benefícios não sejam oferecidos desnecessariamente, enquanto a sensitividade aprimorada garante que uma porção significativa dos clientes em risco seja alcançada. A combinação de balanceamento de dados com um modelo como o Random Forest provou ser uma estratégia eficaz para a gestão de churn.

Em suma, a pesquisa demonstrou que o modelo Random Forest com ponderação de classes oferece uma solução superior à regressão logística para a previsão de churn por inadimplência em cenários de dados desbalanceados. O modelo final não apenas apresentou indicadores de performance superiores em capacidade de discriminação (AUC), precisão e sensitividade, mas também demonstrou, através de simulação, um potencial de retorno financeiro relevante para a área de cobrança. Os resultados reforçam que abordagens analíticas avançadas são cruciais para a otimização de recursos em mercados competitivos.

As implicações deste estudo são diretas para a gestão de clientes, permitindo uma transição de uma estratégia de cobrança reativa para uma abordagem proativa e segmentada. Os próximos passos recomendados incluem um projeto piloto para validar as estimativas financeiras e a comparação do desempenho do Random Forest com outras técnicas de ensemble, como XGBoost e LightGBM. Conclui-se que o objetivo foi atingido: demonstrou-se que o modelo Random Forest ponderado é uma ferramenta robusta e eficaz para prever o churn por inadimplência, superando a regressão logística e oferecendo um potencial de retorno financeiro significativo para a empresa.

Referências:
Breiman, L. 2001. Random Forests. Machine Learning 45(1), 5–32.
Favero, L. P.; Belfiore, P. 2024. Manual de análise de dados. 2ed. LTC, Rio de Janeiro, Rio de Janeiro, Brasil.
Gering, S.; Pinto, N.; Vieira, K. 2021. Causas e Consequências da Inadimplência: uma análise sob diferentes dimensões. Revista de Administração de Roraima 11.
Hand, D. J.; Henley, W. 1997. Statistical Classification Methods in Consumer Credit Scoring: a Review. Journal of the Royal Statistical Society 160(1):523-541.
Hosmer, D. W.; Lemeshow, S.; Sturdivant, R. X. 2013. Applied logistic regression. 3ed. John Wiley & Sons, NY, USA.
Meireles, S. B. A; Bezerra, R. M.; Paula, C. F. N. Q.; Visentin; I. C.; Souza, F. M. A. 2021. Estratégias para redução de inadimplência em uma empresa de telecomunicações no municipio de cidade Ocidental – GO. Revista Multidisciplinar Humanidades e Tecnologia 29.
Peng, H.; Wang, J. 2022. Unbalanced Data Processing and Machine Learning in Credit Card Fraud Detection. Disponível em: https://www. researchgate. net/publication/363199895. Acesso em: 19 jul. 2025.
Salanek Filho, P. 2020. Análise de crédito e risco. 1ed. Contentus, Curitiba, Paraná, Brasil.
Sarlija, N.; Bensic, M.; Zekic-Susac, M. 2009. Comparison procedure of predicting the time to default in behavioural scoring. Expert Systems with Applications 36(5): 8778-8788.
Sehn, C. F.; Carlini Junior, R. J. 2007. Inadimplência no sistema financeiro de habitação: um estudo junto à caixa econômica federal. Revista de Administração Mackenzie 8(2):59-84.
Seitshiro, M. B.; Govender, S. 2024. Credit risk prediction with and without weights of evidence using quantitative learning models. Cogent Economics & Finance 12(1).
Siddika, A.; Faruque, A.; Masum, A. 2021. Comparative Analysis of Churn Predictive Models and Factor Identification in Telecom Industry. International Conference on Computer and Information Technology (ICCIT) 1-6.
Silva, C. A. P. B.; Botelho, D. 2023. Relacionamento com o assinante de internet banda larga fixa (internet service provider – ISP). Revista Gestão & Tecnologia 23(4): 153-175.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade