Imagem Modelagem preditiva de churn rate no setor de telecomunicações com regressão logística

12 de fevereiro de 2026

Modelagem preditiva de churn rate no setor de telecomunicações com regressão logística

Vinicius Gomes Moreira; Renato Máximo Sátiro

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este estudo aplicou a regressão logística binomial para estimar a probabilidade de cancelamento de clientes em uma empresa de telecomunicações. O objetivo foi identificar as variáveis endógenas que mais influenciam a evasão, quantificando o impacto de fatores como valor do plano, tempo de contrato, reajustes de fatura e produtos especiais, a fim de validar o modelo como ferramenta de gestão e subsidiar estratégias de retenção orientadas por dados em um mercado competitivo.

O setor de telecomunicações, com sua intensa concorrência, enfrenta o desafio da retenção de clientes como pilar para sua sustentabilidade (Ahmad et al., 2024). Nesse cenário, a gestão da taxa de evasão, ou “churn rate”, é uma prioridade estratégica. O “churn rate”, a proporção de clientes que cancelam serviços em um período, é uma métrica vital da saúde do negócio e da satisfação do consumidor (Zendesk, 2023). A compreensão dos fatores que levam ao cancelamento permite que as empresas ajustem suas políticas e serviços, transformando a análise de dados em vantagem competitiva.

Mitigar o “churn” é crucial para a eficiência econômica, pois reter um cliente existente é mais econômico do que adquirir um novo (Ahmad et al., 2024). Clientes fidelizados tendem a gerar maior Lifetime Value e a atuar como promotores da marca. A capacidade de prever quais clientes estão em risco de evasão permite que as empresas implementem ações proativas e personalizadas, otimizando a alocação de recursos em programas de fidelização (Abelrahim et al., 2024).

As razões para o cancelamento em telecomunicações são multifatoriais, incluindo a percepção de baixa qualidade técnica e a atratividade de ofertas concorrentes (Radosavljevik et al., 2010). Fatores como políticas de preços pouco transparentes, atendimento ineficiente e a falta de percepção de valor são gatilhos comuns para a evasão (Botelho e Tostes, 2010). Diante dessa complexidade, modelos de aprendizado de máquina, como a regressão logística, tornaram-se uma abordagem fundamental para decifrar os padrões de comportamento do consumidor e identificar os preditores de “churn”.

Técnicas analíticas avançadas permitem que as organizações adotem uma postura preditiva, antecipando-se às insatisfações dos clientes. A regressão logística binomial, em particular, destaca-se por modelar a probabilidade de um evento dicotômico (cancelar ou permanecer) com base em variáveis explicativas, oferecendo coeficientes interpretáveis que quantificam a influência de cada fator (Albuquerque et al., 2022). Essa clareza analítica é crucial para a tomada de decisão gerencial, pois fundamenta o desenvolvimento de políticas de retenção mais eficazes e personalizadas, vitais para a sustentabilidade no setor (Hota e Dash, 2019).

Os dados utilizados foram extraídos do “data lake” da empresa Telecom T, compreendendo um recorte de 2023 e 2024. A base de dados foi composta por 253.594 observações de clientes do segmento B2C das cinco cidades com maior concentração de assinantes. Para garantir a confidencialidade, todos os dados foram anonimizados, identificando cada cliente por um “id localizador”. O volume de dados confere robustez estatística ao estudo, assegurando a estabilidade dos coeficientes e a confiabilidade das inferências, superando os requisitos mínimos para modelagem logística (Hosmer, Lemeshow e Sturdivant, 2013).

As variáveis foram categorizadas em exógenas (fora do controle direto da empresa, como o município) e endógenas (relacionadas a decisões gerenciais). O modelo preditivo concentrou-se no impacto das variáveis endógenas, pois oferecem alavancas para intervenção estratégica. As variáveis selecionadas para o modelo final foram: Aumento de valor do plano (Dicotômica: Sim/Não), Cidade (Categórica), Produto Especial (Dicotômica: Sim/Não), Valor do Plano (Quantitativa), Tempo de Casa (Quantitativa, em meses) e a variável dependente “churn” (Dicotômica: 1 para cancelou, 0 para permaneceu).

A metodologia empregada foi a regressão logística binomial, técnica adequada para modelar a relação entre variáveis independentes e uma variável dependente dicotômica (Fávero e Belfiore, 2021). O modelo foi escolhido por sua ampla aplicação e pela interpretabilidade de seus resultados em termos de “odds ratio”. O processo de modelagem incluiu a verificação de pressupostos como a ausência de multicolinearidade severa (Figueiredo, Silva e Domingos, 2015) e o tratamento de “outliers” (Figueiredo Filho e Silva, 2016). A qualidade do ajuste foi avaliada pelos testes Omnibus e Hosmer-Lemeshow, enquanto a performance preditiva foi mensurada pela matriz de confusão, acurácia, sensibilidade, especificidade e a Área Sob a Curva ROC (AUC) (Garson, 2011).

O pré-processamento dos dados revelou a presença de “outliers” nas variáveis Valor do Plano e Tempo de Casa, que foram removidos para garantir a fidedignidade do modelo, uma vez que a regressão logística é sensível a observações aberrantes (Figueiredo Filho; Silva, 2016). Após o ajuste da base, o modelo foi estimado utilizando o método “Generalized Linear Model” (GLM). Todos os coeficientes apresentaram elevada significância estatística (p < 0,01), indicando que as variáveis selecionadas contribuem de forma consistente para explicar a probabilidade de “churn” (Hosmer; Lemeshow; Sturdivant, 2013).

A análise dos resultados revelou que o Valor do Plano possui uma relação positiva e estatisticamente significativa com a probabilidade de “churn” (coef. = 0,0074). Embora o efeito de cada unidade monetária seja marginal, a associação sugere que clientes com planos de maior valor são mais propensos a cancelar, alinhado com a literatura que aponta a sensibilidade ao preço como fator crítico (Botelho; Tostes, 2010; Kumar; Naik, 2017). Clientes que investem mais tendem a ter expectativas mais elevadas, tornando-se menos tolerantes a falhas. Gerencialmente, isso sinaliza a necessidade de estratégias de retenção segmentadas para clientes de alto valor, focadas em agregar benefícios percebidos.

Em contrapartida, a variável Tempo de Casa apresentou um coeficiente negativo (coef. = -0,0074), indicando que quanto maior o tempo de relacionamento, menor a probabilidade de cancelamento. Este resultado corrobora a teoria de que a lealdade se fortalece ao longo do tempo, criando barreiras de saída (Hota e Dash, 2019). Para a gestão, o achado reforça a importância de investir em programas de relacionamento de longo prazo, que reconheçam e recompensem a permanência do cliente, consolidando o vínculo e reduzindo a propensão à evasão.

De forma contraintuitiva, as variáveis Aumento de Fatura (coef. = -0,9564) e Produto Especial (coef. = -1,1958) exibiram uma forte associação negativa com o “churn”. O resultado sugere que um reajuste de preço, quando comunicado de forma transparente e associado a contrapartidas, pode ser percebido como justo. Da mesma forma, a adesão a um Produto Especial atua como um forte fator de retenção, indicando que esses produtos funcionam como mecanismos de diferenciação e fidelização, agregando valor que transcende o preço. O fenômeno está em linha com estudos que defendem que a permanência se baseia na percepção de valor agregado, não apenas no preço absoluto (Albuquerque et al., 2022).

A análise também revelou heterogeneidade geográfica no risco de “churn”. Comparada à cidade de referência (Cidade A), a Cidade E apresentou uma chance de evasão significativamente menor (coef. = -0,1382), enquanto as Cidades C (coef. = 0,0531) e D (coef. = 0,0780) mostraram um risco maior. Essas diferenças podem ser atribuídas a fatores locais como intensidade da concorrência, qualidade da infraestrutura ou perfil socioeconômico. O resultado sublinha a importância de desenvolver abordagens de retenção segmentadas por localidade, adaptando ofertas e investimentos às particularidades de cada mercado.

A capacidade preditiva do modelo foi avaliada por múltiplas métricas. A Curva ROC resultou em uma área sob a curva (AUC) de 0,670, valor que indica um desempenho de classificação moderado, porém superior ao acaso e aceitável em aplicações práticas de previsão de “churn” (Hota e Dash, 2019; Ahmad et al., 2024). A acurácia geral do modelo foi de 77,7%. O destaque foi a alta sensibilidade de 92,6%, que mede a proporção de clientes que de fato cancelaram e foram corretamente identificados pelo modelo.

Essa elevada sensibilidade é de particular importância estratégica. Em telecomunicações, o custo de um falso negativo (prever que um cliente em risco irá permanecer) é tipicamente maior do que o de um falso positivo (prever que um cliente fiel irá cancelar) (Ahn et al., 2011). Perder um cliente implica perda de receita futura e custos de reconquista. O custo de um falso positivo se resume ao investimento em uma ação de retenção para um cliente que não precisaria dela. Portanto, um modelo que prioriza a identificação correta dos verdadeiros casos de “churn” está alinhado com a lógica de negócio do setor (Radosavljevik et al., 2010).

A análise da matriz de confusão corrobora essa interpretação. O modelo identificou corretamente 38.970 dos clientes que cancelaram, errando em apenas 3.103 casos (falsos negativos). Por outro lado, classificou incorretamente 158.121 clientes que permaneceram como potenciais “churners” (falsos positivos). Embora a precisão (42,2%) e a especificidade (74,8%) sejam mais baixas, a estrutura de erros do modelo é gerencialmente útil. Ele fornece uma lista de clientes em risco que, embora inflada, contém a grande maioria daqueles que realmente pretendem sair, permitindo que a empresa direcione seus esforços de retenção de forma eficaz.

Em suma, a análise permitiu compreender os principais fatores associados ao “churn”. O modelo de regressão logística binária demonstrou ser uma ferramenta robusta e de alta sensibilidade, capaz de identificar a maioria dos clientes em risco. As evidências mostraram que a evasão é influenciada por uma combinação de fatores financeiros, de relacionamento e geográficos. Variáveis como valor do plano e tempo de casa atuam em direções opostas, enquanto reajustes de fatura e produtos especiais, quando associados à percepção de valor, podem funcionar como âncoras de retenção. As diferenças regionais reforçam a necessidade de estratégias segmentadas.

As implicações gerenciais destes resultados são diretas. A empresa pode desenvolver um sistema de “scoring” de risco de “churn” para priorizar clientes em ações proativas. As políticas de reajuste de preços devem ser acompanhadas de comunicação transparente e da oferta de benefícios tangíveis. Além disso, investimentos em programas de fidelização que recompensam a permanência e a expansão da oferta de produtos especiais mostram-se como estratégias eficazes. Conclui-se que o objetivo foi atingido: demonstrou-se que a regressão logística binomial é uma ferramenta eficaz para prever o “churn” e que variáveis endógenas como valor do plano, tempo de contrato e percepção de valor agregado são determinantes cruciais para a retenção de clientes no setor de telecomunicações.

Referências:
Ahmad, A. K.; Jafar, A.; Aljoumaa, K. 2024. Customer churn prediction in telecom using machine learning in big data platform. Journal of Big Data 11(1): 1-15.
Ahn, H.; Ahn, J. J.; Oh, K. J.; Kim, D. H. 2011. Facilitating cross-selling in a mobile telecom market to develop customer classification model based on hybrid data mining techniques. Expert Systems with Applications 38(5): 5005-5012.
Albuquerque, Í. G. C.; Bertuci, M. H.; cadeia, B. A.; Gomes, N. O. 2022. Churn rate: como reduzir em empresas de telecomunicações utilizando aprendizado de máquina? Revista Interface Tecnológica 7(2): 34-52.
Botelho, D.; Tostes, F. 2010. Modelagem de probabilidade de churn. Revista de Administração de Empresas 50(4): 343-358.
Fávero, L. P.; Belfiore, P. 2021. Manual de análise de dados: estatística e modelagem multivariada com Excel, SPSS e Stata. LTC, Rio de Janeiro, RJ, Brasil.
Fernandes, A. A. T.; Malaquias, C.; Figueiredo, D.; Rocha, E.; Lins, R. 2019. Why quantitative variables should not be recoded as categorical. Journal of Applied Mathematics and Physics 7(7): 1519-1530.
Figueiredo Filho, D.; Silva, J. 2016. O outlier que perturba o seu sono: Como identificar casos extremos? Disponível em: https://www. researchgate. net/publication/340860660OOUTLIERQUEPERTURBAOSEUSONOCOMOIDENTIFICARCASOS_EXTREMOS.
Figueiredo, D.; Silva, L.; Domingos, A. 2015. O que é e como superar a multicolinearidade? Um guia para Ciência Política. Conexão Política 4(2): 95-104.
Garson, G. D. 2011. Logistic regression: Binary and multinomial. Statistical Associates Publishing, Asheboro, NC, USA.
Hagle, T.; Mitchell, G. 1992. Goodness-of-fit measures for probit and logit. American Journal of Political Science 36(3): 762-784.
Hair, J.; Black, W. C.; Babin, B. J.; Anderson, R. E.; Tatham, R. L. 2009. Análise multivariada de dados. Bookman Editora, Porto Alegre, RS, Brasil.
Hosmer, D.; Lemeshow, S.; Sturdivant, R. 2013. Applied Logistic Regression. 3ed. Wiley, New York, USA.
Hota, L.; Dash, P. K. 2019. Prediction of customer “churn” in telecom industry: a machine learning perspective. Journal of Big Data 6(1): 1-24.
Kennedy, P. 2005. A Guide to Econometrics. 6ed. MIT Press, Cambridge, USA.
Kumar, N.; Naik, C. 2017. Comparative analysis of machine learning algorithms for their effectiveness in churn prediction in the telecom industry. International Research Journal of Engineering and Technology 4(8): 748-753.
Menard, S. 2002. Applied Logistic Regression Analysis. 2ed. Sage Publications, Thousand Oaks, USA.
Radosavljevik, D.; Putten, P. van der; Larsen, K. 2010. The impact of experimental setup in prepaid “churn” prediction for mobile telecommunications: What to predict, for whom, and does the customer experience. Transactions on Machine Learning and Data Mining 3(2): 80-99.
Taylor, J.; Yu, Q. 2002. The impact of categorization on regression analysis. Journal of Statistical Computation and Simulation 72(2): 99-118.
Zendesk. 2023. O que é churn rate, como calcular, +10 dicas para ajudar a reduzir essa taxa. Disponível em: https://www. zendesk. com. br/blog/churn-rate/.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade