
12 de fevereiro de 2026
Modelagem preditiva de churn rate no setor de telecomunicações com regressão logística
Vinicius Gomes Moreira; Renato Máximo Sátiro
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo aplicou a regressão logística binomial para estimar a probabilidade de cancelamento de clientes em uma empresa de telecomunicações. O objetivo foi identificar as variáveis endógenas que mais influenciam a evasão, quantificando o impacto de fatores como valor do plano, tempo de contrato, reajustes de fatura e produtos especiais, a fim de validar o modelo como ferramenta de gestão e subsidiar estratégias de retenção orientadas por dados em um mercado competitivo.
O setor de telecomunicações, com sua intensa concorrência, enfrenta o desafio da retenção de clientes como pilar para sua sustentabilidade (Ahmad et al., 2024). Nesse cenário, a gestão da taxa de evasão, ou “churn rate”, é uma prioridade estratégica. O “churn rate”, a proporção de clientes que cancelam serviços em um período, é uma métrica vital da saúde do negócio e da satisfação do consumidor (Zendesk, 2023). A compreensão dos fatores que levam ao cancelamento permite que as empresas ajustem suas políticas e serviços, transformando a análise de dados em vantagem competitiva.
Mitigar o “churn” é crucial para a eficiência econômica, pois reter um cliente existente é mais econômico do que adquirir um novo (Ahmad et al., 2024). Clientes fidelizados tendem a gerar maior Lifetime Value e a atuar como promotores da marca. A capacidade de prever quais clientes estão em risco de evasão permite que as empresas implementem ações proativas e personalizadas, otimizando a alocação de recursos em programas de fidelização (Abelrahim et al., 2024).
As razões para o cancelamento em telecomunicações são multifatoriais, incluindo a percepção de baixa qualidade técnica e a atratividade de ofertas concorrentes (Radosavljevik et al., 2010). Fatores como políticas de preços pouco transparentes, atendimento ineficiente e a falta de percepção de valor são gatilhos comuns para a evasão (Botelho e Tostes, 2010). Diante dessa complexidade, modelos de aprendizado de máquina, como a regressão logística, tornaram-se uma abordagem fundamental para decifrar os padrões de comportamento do consumidor e identificar os preditores de “churn”.
Técnicas analíticas avançadas permitem que as organizações adotem uma postura preditiva, antecipando-se às insatisfações dos clientes. A regressão logística binomial, em particular, destaca-se por modelar a probabilidade de um evento dicotômico (cancelar ou permanecer) com base em variáveis explicativas, oferecendo coeficientes interpretáveis que quantificam a influência de cada fator (Albuquerque et al., 2022). Essa clareza analítica é crucial para a tomada de decisão gerencial, pois fundamenta o desenvolvimento de políticas de retenção mais eficazes e personalizadas, vitais para a sustentabilidade no setor (Hota e Dash, 2019).
Os dados utilizados foram extraídos do “data lake” da empresa Telecom T, compreendendo um recorte de 2023 e 2024. A base de dados foi composta por 253.594 observações de clientes do segmento B2C das cinco cidades com maior concentração de assinantes. Para garantir a confidencialidade, todos os dados foram anonimizados, identificando cada cliente por um “id localizador”. O volume de dados confere robustez estatística ao estudo, assegurando a estabilidade dos coeficientes e a confiabilidade das inferências, superando os requisitos mínimos para modelagem logística (Hosmer, Lemeshow e Sturdivant, 2013).
As variáveis foram categorizadas em exógenas (fora do controle direto da empresa, como o município) e endógenas (relacionadas a decisões gerenciais). O modelo preditivo concentrou-se no impacto das variáveis endógenas, pois oferecem alavancas para intervenção estratégica. As variáveis selecionadas para o modelo final foram: Aumento de valor do plano (Dicotômica: Sim/Não), Cidade (Categórica), Produto Especial (Dicotômica: Sim/Não), Valor do Plano (Quantitativa), Tempo de Casa (Quantitativa, em meses) e a variável dependente “churn” (Dicotômica: 1 para cancelou, 0 para permaneceu).
A metodologia empregada foi a regressão logística binomial, técnica adequada para modelar a relação entre variáveis independentes e uma variável dependente dicotômica (Fávero e Belfiore, 2021). O modelo foi escolhido por sua ampla aplicação e pela interpretabilidade de seus resultados em termos de “odds ratio”. O processo de modelagem incluiu a verificação de pressupostos como a ausência de multicolinearidade severa (Figueiredo, Silva e Domingos, 2015) e o tratamento de “outliers” (Figueiredo Filho e Silva, 2016). A qualidade do ajuste foi avaliada pelos testes Omnibus e Hosmer-Lemeshow, enquanto a performance preditiva foi mensurada pela matriz de confusão, acurácia, sensibilidade, especificidade e a Área Sob a Curva ROC (AUC) (Garson, 2011).
O pré-processamento dos dados revelou a presença de “outliers” nas variáveis Valor do Plano e Tempo de Casa, que foram removidos para garantir a fidedignidade do modelo, uma vez que a regressão logística é sensível a observações aberrantes (Figueiredo Filho; Silva, 2016). Após o ajuste da base, o modelo foi estimado utilizando o método “Generalized Linear Model” (GLM). Todos os coeficientes apresentaram elevada significância estatística (p < 0,01), indicando que as variáveis selecionadas contribuem de forma consistente para explicar a probabilidade de “churn” (Hosmer; Lemeshow; Sturdivant, 2013).
A análise dos resultados revelou que o Valor do Plano possui uma relação positiva e estatisticamente significativa com a probabilidade de “churn” (coef. = 0,0074). Embora o efeito de cada unidade monetária seja marginal, a associação sugere que clientes com planos de maior valor são mais propensos a cancelar, alinhado com a literatura que aponta a sensibilidade ao preço como fator crítico (Botelho; Tostes, 2010; Kumar; Naik, 2017). Clientes que investem mais tendem a ter expectativas mais elevadas, tornando-se menos tolerantes a falhas. Gerencialmente, isso sinaliza a necessidade de estratégias de retenção segmentadas para clientes de alto valor, focadas em agregar benefícios percebidos.
Em contrapartida, a variável Tempo de Casa apresentou um coeficiente negativo (coef. = -0,0074), indicando que quanto maior o tempo de relacionamento, menor a probabilidade de cancelamento. Este resultado corrobora a teoria de que a lealdade se fortalece ao longo do tempo, criando barreiras de saída (Hota e Dash, 2019). Para a gestão, o achado reforça a importância de investir em programas de relacionamento de longo prazo, que reconheçam e recompensem a permanência do cliente, consolidando o vínculo e reduzindo a propensão à evasão.
De forma contraintuitiva, as variáveis Aumento de Fatura (coef. = -0,9564) e Produto Especial (coef. = -1,1958) exibiram uma forte associação negativa com o “churn”. O resultado sugere que um reajuste de preço, quando comunicado de forma transparente e associado a contrapartidas, pode ser percebido como justo. Da mesma forma, a adesão a um Produto Especial atua como um forte fator de retenção, indicando que esses produtos funcionam como mecanismos de diferenciação e fidelização, agregando valor que transcende o preço. O fenômeno está em linha com estudos que defendem que a permanência se baseia na percepção de valor agregado, não apenas no preço absoluto (Albuquerque et al., 2022).
A análise também revelou heterogeneidade geográfica no risco de “churn”. Comparada à cidade de referência (Cidade A), a Cidade E apresentou uma chance de evasão significativamente menor (coef. = -0,1382), enquanto as Cidades C (coef. = 0,0531) e D (coef. = 0,0780) mostraram um risco maior. Essas diferenças podem ser atribuídas a fatores locais como intensidade da concorrência, qualidade da infraestrutura ou perfil socioeconômico. O resultado sublinha a importância de desenvolver abordagens de retenção segmentadas por localidade, adaptando ofertas e investimentos às particularidades de cada mercado.
A capacidade preditiva do modelo foi avaliada por múltiplas métricas. A Curva ROC resultou em uma área sob a curva (AUC) de 0,670, valor que indica um desempenho de classificação moderado, porém superior ao acaso e aceitável em aplicações práticas de previsão de “churn” (Hota e Dash, 2019; Ahmad et al., 2024). A acurácia geral do modelo foi de 77,7%. O destaque foi a alta sensibilidade de 92,6%, que mede a proporção de clientes que de fato cancelaram e foram corretamente identificados pelo modelo.
Essa elevada sensibilidade é de particular importância estratégica. Em telecomunicações, o custo de um falso negativo (prever que um cliente em risco irá permanecer) é tipicamente maior do que o de um falso positivo (prever que um cliente fiel irá cancelar) (Ahn et al., 2011). Perder um cliente implica perda de receita futura e custos de reconquista. O custo de um falso positivo se resume ao investimento em uma ação de retenção para um cliente que não precisaria dela. Portanto, um modelo que prioriza a identificação correta dos verdadeiros casos de “churn” está alinhado com a lógica de negócio do setor (Radosavljevik et al., 2010).
A análise da matriz de confusão corrobora essa interpretação. O modelo identificou corretamente 38.970 dos clientes que cancelaram, errando em apenas 3.103 casos (falsos negativos). Por outro lado, classificou incorretamente 158.121 clientes que permaneceram como potenciais “churners” (falsos positivos). Embora a precisão (42,2%) e a especificidade (74,8%) sejam mais baixas, a estrutura de erros do modelo é gerencialmente útil. Ele fornece uma lista de clientes em risco que, embora inflada, contém a grande maioria daqueles que realmente pretendem sair, permitindo que a empresa direcione seus esforços de retenção de forma eficaz.
Em suma, a análise permitiu compreender os principais fatores associados ao “churn”. O modelo de regressão logística binária demonstrou ser uma ferramenta robusta e de alta sensibilidade, capaz de identificar a maioria dos clientes em risco. As evidências mostraram que a evasão é influenciada por uma combinação de fatores financeiros, de relacionamento e geográficos. Variáveis como valor do plano e tempo de casa atuam em direções opostas, enquanto reajustes de fatura e produtos especiais, quando associados à percepção de valor, podem funcionar como âncoras de retenção. As diferenças regionais reforçam a necessidade de estratégias segmentadas.
As implicações gerenciais destes resultados são diretas. A empresa pode desenvolver um sistema de “scoring” de risco de “churn” para priorizar clientes em ações proativas. As políticas de reajuste de preços devem ser acompanhadas de comunicação transparente e da oferta de benefícios tangíveis. Além disso, investimentos em programas de fidelização que recompensam a permanência e a expansão da oferta de produtos especiais mostram-se como estratégias eficazes. Conclui-se que o objetivo foi atingido: demonstrou-se que a regressão logística binomial é uma ferramenta eficaz para prever o “churn” e que variáveis endógenas como valor do plano, tempo de contrato e percepção de valor agregado são determinantes cruciais para a retenção de clientes no setor de telecomunicações.
Referências:
Ahmad, A. K.; Jafar, A.; Aljoumaa, K. 2024. Customer churn prediction in telecom using machine learning in big data platform. Journal of Big Data 11(1): 1-15.
Ahn, H.; Ahn, J. J.; Oh, K. J.; Kim, D. H. 2011. Facilitating cross-selling in a mobile telecom market to develop customer classification model based on hybrid data mining techniques. Expert Systems with Applications 38(5): 5005-5012.
Albuquerque, Í. G. C.; Bertuci, M. H.; cadeia, B. A.; Gomes, N. O. 2022. Churn rate: como reduzir em empresas de telecomunicações utilizando aprendizado de máquina? Revista Interface Tecnológica 7(2): 34-52.
Botelho, D.; Tostes, F. 2010. Modelagem de probabilidade de churn. Revista de Administração de Empresas 50(4): 343-358.
Fávero, L. P.; Belfiore, P. 2021. Manual de análise de dados: estatística e modelagem multivariada com Excel, SPSS e Stata. LTC, Rio de Janeiro, RJ, Brasil.
Fernandes, A. A. T.; Malaquias, C.; Figueiredo, D.; Rocha, E.; Lins, R. 2019. Why quantitative variables should not be recoded as categorical. Journal of Applied Mathematics and Physics 7(7): 1519-1530.
Figueiredo Filho, D.; Silva, J. 2016. O outlier que perturba o seu sono: Como identificar casos extremos? Disponível em: https://www. researchgate. net/publication/340860660OOUTLIERQUEPERTURBAOSEUSONOCOMOIDENTIFICARCASOS_EXTREMOS.
Figueiredo, D.; Silva, L.; Domingos, A. 2015. O que é e como superar a multicolinearidade? Um guia para Ciência Política. Conexão Política 4(2): 95-104.
Garson, G. D. 2011. Logistic regression: Binary and multinomial. Statistical Associates Publishing, Asheboro, NC, USA.
Hagle, T.; Mitchell, G. 1992. Goodness-of-fit measures for probit and logit. American Journal of Political Science 36(3): 762-784.
Hair, J.; Black, W. C.; Babin, B. J.; Anderson, R. E.; Tatham, R. L. 2009. Análise multivariada de dados. Bookman Editora, Porto Alegre, RS, Brasil.
Hosmer, D.; Lemeshow, S.; Sturdivant, R. 2013. Applied Logistic Regression. 3ed. Wiley, New York, USA.
Hota, L.; Dash, P. K. 2019. Prediction of customer “churn” in telecom industry: a machine learning perspective. Journal of Big Data 6(1): 1-24.
Kennedy, P. 2005. A Guide to Econometrics. 6ed. MIT Press, Cambridge, USA.
Kumar, N.; Naik, C. 2017. Comparative analysis of machine learning algorithms for their effectiveness in churn prediction in the telecom industry. International Research Journal of Engineering and Technology 4(8): 748-753.
Menard, S. 2002. Applied Logistic Regression Analysis. 2ed. Sage Publications, Thousand Oaks, USA.
Radosavljevik, D.; Putten, P. van der; Larsen, K. 2010. The impact of experimental setup in prepaid “churn” prediction for mobile telecommunications: What to predict, for whom, and does the customer experience. Transactions on Machine Learning and Data Mining 3(2): 80-99.
Taylor, J.; Yu, Q. 2002. The impact of categorization on regression analysis. Journal of Statistical Computation and Simulation 72(2): 99-118.
Zendesk. 2023. O que é churn rate, como calcular, +10 dicas para ajudar a reduzir essa taxa. Disponível em: https://www. zendesk. com. br/blog/churn-rate/.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































