
04 de fevereiro de 2026
Previsão de churn com machine learning para clientes de banda larga
Cristina Mayumi Kato Monteiro; Adriano de Freitas Fernandes
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo deste trabalho foi desenvolver um modelo preditivo para estimar a probabilidade de cancelamento de clientes por inadimplência (churn), visando apoiar a área de cobrança na seleção de clientes de alto risco para estratégias de retenção, como descontos e comunicação via WhatsApp. A pesquisa comparou a eficácia da regressão logística e do Random Forest para identificar clientes com até seis meses de contrato propensos a cancelar por falta de pagamento. A finalidade é otimizar os recursos da empresa, direcionando os esforços de recuperação de crédito para os casos mais críticos, maximizando a rentabilidade e a sustentabilidade da base.
A gestão da inadimplência e do churn é um desafio para empresas de serviços contínuos, como provedoras de internet. O custo de aquisição de um novo cliente é substancialmente maior que o de manutenção de um existente (Silva e Botelho, 2023), englobando despesas com equipamentos, instalação, comissões e marketing. A perda de um cliente recente representa não apenas a perda de receita futura, mas também a dificuldade em amortizar o investimento inicial. A inadimplência, definida como o descumprimento de uma obrigação de pagamento (Gering et al., 2021), é um precursor direto do churn, criando um risco financeiro que exige gerenciamento proativo (Sehn e Carlini Junior, 2007).
No setor de telecomunicações, o cancelamento por inadimplência ocorre após um período determinado, geralmente em torno de 90 dias (Meireles et al., 2021). Para mitigar esse risco, empresas utilizam modelos de pontuação como “credit scoring” e “behaviour scoring”. O primeiro avalia o risco no momento da aquisição com base em dados de mercado (Hand e Henley, 1997). Contudo, o risco residual persiste, tornando cruciais os modelos de “behaviour scoring”, que utilizam dados internos do comportamento do cliente após a ativação para prever seu comportamento futuro, oferecendo prognósticos mais consistentes (Salanek, 2020).
A abordagem tradicional da cobrança, segmentada por faixas de atraso, carece de granularidade. Modelos preditivos avançados permitem uma segmentação sofisticada, baseada na probabilidade individual de churn, otimizando recursos e minimizando custos operacionais (Salanek, 2020). Ao identificar clientes de alto risco com antecedência, a empresa pode personalizar ações, ofertando condições especiais de negociação apenas para quem precisa, evitando a canibalização da receita. Este estudo busca fornecer uma ferramenta analítica robusta para essa tomada de decisão.
A investigação comparou a regressão logística, um método estatístico clássico selecionado por sua interpretabilidade, com o Random Forest, um método de ensemble escolhido por sua alta capacidade preditiva e robustez para lidar com interações complexas. A análise considerou o desafio do desbalanceamento de dados, comum em problemas de churn; a classe de interesse (clientes que cancelam) é minoritária. Para lidar com essa questão, ambos os modelos foram avaliados com e sem a aplicação de técnicas de ponderação, visando corrigir o viés do algoritmo.
O estudo de caso utilizou dados de uma grande provedora de internet em Sumaré, São Paulo. A base de dados foi construída com quatro safras mensais de clientes: janeiro a março de 2024 para treinamento e teste, e junho de 2024 para validação final. A amostra totalizou 87.107 registros para treinamento e 103.329 para validação. Foram incluídos apenas clientes pessoa física, com no máximo seis meses de ativação, que possuíam pelo menos uma fatura gerada no mês de observação e um atraso máximo de 20 dias. Essa delimitação foca o estudo no período mais crítico de retenção.
A estrutura temporal da análise foi desenhada para evitar vazamento de dados (data leakage), garantindo que o modelo aprendesse a prever o futuro com base em informações passadas (Sarlija et al., 2009). Para cada cliente, foram construídas variáveis explicativas com base em seu histórico. A variável resposta, “churn”, foi definida como 1 se o cliente atingisse 90 dias ou mais de inadimplência nos meses subsequentes, e 0 caso contrário. As variáveis explicativas abrangeram dados cadastrais, características do serviço, comportamento de pagamento e de uso.
O processamento e a modelagem foram realizados em Python (versão 3.9.2) com dados de um banco PostgreSQL. Foram utilizadas as bibliotecas pandas para manipulação de dados, statsmodels para a regressão logística, sklearn para o Random Forest e métricas de performance, feature_engine para análise de correlação e matplotlib para visualização. A preparação dos dados incluiu a criação de variáveis “dummy” e uma análise de multicolinearidade entre as variáveis numéricas, utilizando a matriz de correlação de Pearson e o Fator de Inflação de Variância (VIF), etapa crucial para a estabilidade da regressão logística (Hosmer et al., 2013).
Para a regressão logística, um modelo linear generalizado, buscou-se estimar a probabilidade de churn com variáveis selecionadas pelo procedimento “stepwise”, que otimiza o modelo com base na significância estatística (Favero e Belfiore, 2024). Para o Random Forest, que combina múltiplas árvores de decisão, a abordagem utiliza a agregação de previsões para produzir um resultado mais robusto e menos propenso a sobreajuste (Breiman, 2001). A seleção aleatória de um subconjunto de variáveis em cada nó contribui para a descorrelação entre as árvores, aumentando a capacidade de generalização do modelo (Seitshiro e Govender, 2024). A avaliação de ambos priorizou métricas como a área sob a curva ROC (AUC), a precisão e a sensitividade (recall), pois é mais custoso não identificar um cliente propenso ao churn.
A análise descritiva revelou uma taxa de churn de aproximadamente 7,5% nas bases de treinamento e validação, caracterizando um problema de dados desbalanceados. Uma descoberta significativa foi a disparidade na taxa de churn entre canais de venda: o canal presencial apresentou uma taxa de 10,9% a 11,5%, enquanto o canal digital registrou de 6,1% a 6,3%. Essa diferença sugere que o processo de aquisição influencia o risco, com vendas proativas (domicílio) possivelmente atraindo um perfil de cliente com maior risco do que vendas reativas (canais digitais).
A análise de multicolinearidade confirmou altas correlações entre variáveis. Variáveis como diasaberto, meses e qtdfaturaspagasu6m apresentaram valores de VIF superiores a 30. Para mitigar esse problema na regressão logística, a estratégia foi testar essas variáveis de forma alternada durante a seleção via “stepwise”, garantindo que apenas uma de cada grupo correlacionado entrasse no modelo final. O modelo de regressão logística final, sem ponderação, incluiu 38 variáveis com significância estatística.
O modelo de regressão logística sem ponderação apresentou performance robusta na base de treinamento, com Gini de 0,81 e AUC de 0,91. No entanto, na base de validação, houve uma queda acentuada, com o Gini caindo para 0,61 e a AUC para 0,80. Essa perda de performance indicou sobreajuste ou incapacidade de generalizar para novos dados, um problema exacerbado pelo desbalanceamento da amostra, que levou o modelo a aprender a classificar bem a classe majoritária em detrimento da classe minoritária (churn).
O desbalanceamento dos dados gera um viés em favor da classe majoritária, resultando em baixa sensibilidade para a classe de interesse (Peng e Wang, 2022). Para contornar isso, uma segunda regressão logística foi ajustada com ponderação, atribuindo um peso maior aos erros de classificação da classe minoritária. A regressão logística ponderada apresentou uma leve melhora na AUC na validação, de 0,80 para 0,82, mas com uma queda drástica na precisão, de 0,56 para 0,19. Embora o modelo tenha identificado mais clientes com risco, o fez ao custo de um volume inviável de falsos positivos.
Diante disso, a análise voltou-se para o Random Forest. A base de treinamento foi dividida em 70% para treino e 30% para teste, mantendo a safra de junho como validação. O modelo Random Forest sem ponderação já demonstrou performance competitiva na validação, com AUC de 0,82, precisão de 0,80 e sensitividade de 0,18, superando a regressão logística ponderada em termos de precisão.
O avanço decisivo ocorreu com a aplicação da ponderação no modelo Random Forest. O Random Forest ponderado destacou-se como a melhor alternativa. Na base de validação, este modelo alcançou uma AUC de 0,86, uma precisão de 0,77 e uma sensitividade de 0,32. A comparação direta evidenciou sua superioridade: apresentou a maior capacidade de discriminação (AUC) e manteve alta precisão, ao mesmo tempo em que melhorou significativamente a capacidade de identificar corretamente os clientes que cancelariam. Este equilíbrio entre precisão e sensitividade é fundamental para o sucesso de uma campanha de retenção.
A análise do modelo final na base de validação demonstrou seu potencial prático. Ao segmentar os clientes por faixas de score, observou-se que na faixa entre 0.9 e 1.0, 94,2% dos clientes eram de fato churners, um lift de 12,5 vezes em relação à taxa média. Com base nisso, uma simulação financeira foi realizada. Adotando um ponto de corte de 0,80, a ação seria direcionada a 3.251 clientes (3% da base), que concentravam 32,1% de todos os churners. Assumindo uma taxa de recuperação de 30% e a oferta de um desconto de 30% na fatura (valor médio de R$100), a simulação indicou um potencial de receita adicional de R$ 30.327 em um único mês.
Este resultado financeiro ilustra o valor da implementação de um modelo preditivo robusto. A capacidade de focar os esforços de retenção em um segmento pequeno e relevante maximiza o retorno sobre o investimento e minimiza os custos com descontos. A precisão do modelo garante que os benefícios não sejam oferecidos desnecessariamente, enquanto a sensitividade aprimorada garante que uma porção significativa dos clientes em risco seja alcançada. A combinação de balanceamento de dados com um modelo como o Random Forest provou ser uma estratégia eficaz para a gestão de churn.
Em suma, a pesquisa demonstrou que o modelo Random Forest com ponderação de classes oferece uma solução superior à regressão logística para a previsão de churn por inadimplência em cenários de dados desbalanceados. O modelo final não apenas apresentou indicadores de performance superiores em capacidade de discriminação (AUC), precisão e sensitividade, mas também demonstrou, através de simulação, um potencial de retorno financeiro relevante para a área de cobrança. Os resultados reforçam que abordagens analíticas avançadas são cruciais para a otimização de recursos em mercados competitivos.
As implicações deste estudo são diretas para a gestão de clientes, permitindo uma transição de uma estratégia de cobrança reativa para uma abordagem proativa e segmentada. Os próximos passos recomendados incluem um projeto piloto para validar as estimativas financeiras e a comparação do desempenho do Random Forest com outras técnicas de ensemble, como XGBoost e LightGBM. Conclui-se que o objetivo foi atingido: demonstrou-se que o modelo Random Forest ponderado é uma ferramenta robusta e eficaz para prever o churn por inadimplência, superando a regressão logística e oferecendo um potencial de retorno financeiro significativo para a empresa.
Referências:
Breiman, L. 2001. Random Forests. Machine Learning 45(1), 5–32.
Favero, L. P.; Belfiore, P. 2024. Manual de análise de dados. 2ed. LTC, Rio de Janeiro, Rio de Janeiro, Brasil.
Gering, S.; Pinto, N.; Vieira, K. 2021. Causas e Consequências da Inadimplência: uma análise sob diferentes dimensões. Revista de Administração de Roraima 11.
Hand, D. J.; Henley, W. 1997. Statistical Classification Methods in Consumer Credit Scoring: a Review. Journal of the Royal Statistical Society 160(1):523-541.
Hosmer, D. W.; Lemeshow, S.; Sturdivant, R. X. 2013. Applied logistic regression. 3ed. John Wiley & Sons, NY, USA.
Meireles, S. B. A; Bezerra, R. M.; Paula, C. F. N. Q.; Visentin; I. C.; Souza, F. M. A. 2021. Estratégias para redução de inadimplência em uma empresa de telecomunicações no municipio de cidade Ocidental – GO. Revista Multidisciplinar Humanidades e Tecnologia 29.
Peng, H.; Wang, J. 2022. Unbalanced Data Processing and Machine Learning in Credit Card Fraud Detection. Disponível em: https://www. researchgate. net/publication/363199895. Acesso em: 19 jul. 2025.
Salanek Filho, P. 2020. Análise de crédito e risco. 1ed. Contentus, Curitiba, Paraná, Brasil.
Sarlija, N.; Bensic, M.; Zekic-Susac, M. 2009. Comparison procedure of predicting the time to default in behavioural scoring. Expert Systems with Applications 36(5): 8778-8788.
Sehn, C. F.; Carlini Junior, R. J. 2007. Inadimplência no sistema financeiro de habitação: um estudo junto à caixa econômica federal. Revista de Administração Mackenzie 8(2):59-84.
Seitshiro, M. B.; Govender, S. 2024. Credit risk prediction with and without weights of evidence using quantitative learning models. Cogent Economics & Finance 12(1).
Siddika, A.; Faruque, A.; Masum, A. 2021. Comparative Analysis of Churn Predictive Models and Factor Identification in Telecom Industry. International Conference on Computer and Information Technology (ICCIT) 1-6.
Silva, C. A. P. B.; Botelho, D. 2023. Relacionamento com o assinante de internet banda larga fixa (internet service provider – ISP). Revista Gestão & Tecnologia 23(4): 153-175.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































