Imagem Previsão de Churn de Clientes em Telecomunicações com Machine Learning e IA Explicável

26 de fevereiro de 2026

Previsão de Churn de Clientes em Telecomunicações com Machine Learning e IA Explicável

João Carlos Matos Druczkoski; Daniel Alvarez Firmino

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo deste trabalho é desenvolver um modelo preditivo de alta performance para a evasão de clientes (churn) no setor de telecomunicações, traduzindo os achados em recomendações estratégicas. Os objetivos específicos são: identificar as variáveis de impacto; construir e comparar o desempenho de algoritmos de machine learning, incluindo Regressão Logística, Random Forest, XGBoost e CatBoost; validar os modelos com métricas de classificação, focando em recall; e utilizar Inteligência Artificial Explicável (XAI) para extrair insights acionáveis que otimizem a retenção de clientes. A pesquisa busca, assim, criar uma ferramenta de previsão acurada e fornecer um diagnóstico sobre os fatores que impulsionam a perda de clientes, permitindo ações proativas.

O setor de telecomunicações opera em um ambiente de alta competitividade e crescente comoditização de serviços. Empresas do setor dependem da manutenção de uma base de clientes estável para seu modelo de negócio, baseado em receitas recorrentes (Lima e Pamplona, 2010). A evasão de clientes é uma métrica crítica, pois o custo de aquisição de um novo cliente (CAC) é significativamente superior ao de reter um existente, tornando a fidelização um pilar para a lucratividade do negócio (Hennig-Thurau et al., 2004).

Neste cenário, antecipar quais clientes estão em risco de cancelar seus serviços representa uma vantagem competitiva. A retenção eficaz é proativa, baseada na compreensão das necessidades e do nível de satisfação do cliente. Fatores como qualidade do atendimento, inovação e percepção de valor são cruciais para a lealdade do consumidor (Reicheld, 2022). O conhecimento aprofundado desses fatores permite que as empresas de telecomunicações personalizem suas ofertas e estratégias de comunicação, aumentando as chances de fidelização.

O aprendizado de máquina (machine learning) surge como uma solução para analisar grandes volumes de dados históricos e identificar padrões complexos associados ao churn. Algoritmos de classificação podem, com alta acurácia, agrupar clientes por risco, permitindo que as equipes de retenção concentrem seus esforços naqueles com maior probabilidade de evasão. Essa abordagem orientada por dados transforma a gestão de clientes de uma prática reativa para uma estratégia proativa, otimizando a alocação de recursos.

Este estudo propõe um sistema de previsão de churn que combina alta performance preditiva com interpretabilidade. A utilização de algoritmos de classificação avançados e da metodologia SHAP (Shapley Additive Explanations) permite não apenas prever “quem” irá cancelar, mas também entender “por que”. Essa capacidade de diagnóstico possibilita o desenvolvimento de intervenções direcionadas, como campanhas de marketing personalizadas, ofertas de descontos ou melhorias em serviços específicos, com o objetivo de fortalecer o relacionamento com o cliente e reduzir a taxa de churn.

A pesquisa adota uma abordagem quantitativa, aplicando técnicas de aprendizado de máquina para desenvolver um modelo de classificação binária. O estudo seguiu as fases da metodologia CRISP-DM (Chapman et al., 2000). A base de dados utilizada é um conjunto público da IBM, com informações anonimizadas de 7.043 clientes de uma empresa de telecomunicações na Califórnia, coletados no terceiro trimestre de 2018 (IBM, 2017). O dataset é composto por 21 variáveis, incluindo dados demográficos, contratuais, de serviços e a variável alvo, que indica se o cliente realizou churn.

Para a modelagem, foram selecionados quatro algoritmos. A Regressão Logística foi escolhida como baseline por sua simplicidade e interpretabilidade (Boateng e Abaye, 2019). Foram explorados modelos de ensemble, como o Random Forest, por sua robustez e capacidade de reduzir sobreajuste (Breiman, 2001). Adicionalmente, foram testados dois algoritmos de Gradient Boosting: o XGBoost, conhecido por sua velocidade (Chen e Guestrin, 2016), e o CatBoost, projetado para lidar eficientemente com variáveis categóricas e que frequentemente demonstra desempenho superior (Prokhorenkova et al., 2018). A literatura aponta que modelos de ensemble baseados em boosting são eficazes para a previsão de churn devido à sua habilidade em lidar com desbalanceamento de classes e interações complexas (Imani, 2024).

A otimização de hiperparâmetros foi realizada por meio de uma estratégia híbrida para maximizar o potencial preditivo do modelo. Inicialmente, a Busca Aleatória (Random Search) foi utilizada para explorar um vasto espaço de valores de forma eficiente (Bergstra e Bengio, 2012). Subsequentemente, a Busca por Grades (Grid Search) foi aplicada para refinar a busca em regiões promissoras, avaliando exaustivamente um conjunto focado de combinações. Essa abordagem equilibra exploração e refinamento, aumentando a probabilidade de encontrar uma configuração próxima do ótimo global (Wang e Gadi, 2024).

Para garantir que os resultados fossem compreensíveis e acionáveis, foi aplicada a técnica de XAI conhecida como SHAP (Shapley Additive Explanations). Baseada na teoria dos jogos, a metodologia SHAP calcula a contribuição de cada variável para cada predição individual, permitindo uma análise detalhada de como o modelo toma suas decisões (Lundberg e Lee, 2017). Essa etapa foi crucial para traduzir os padrões identificados pelo algoritmo em insights estratégicos, identificando os principais fatores de risco e de retenção. A avaliação dos modelos foi realizada utilizando métricas como Acurácia, Precisão, Recall, F1-Score e a área sob a curva ROC (AUC-ROC), garantindo uma análise completa da performance.

A análise exploratória dos dados revelou que a taxa de churn geral na base foi de 26,5%. A preparação dos dados incluiu a conversão da variável TotalCharges para formato numérico, o que revelou 11 valores nulos, que foram removidos. A análise das variáveis numéricas mostrou que tenure (tempo de permanência) e TotalCharges possuíam alta correlação, com um Fator de Inflação da Variância (VIF) de 9,53 para TotalCharges. Para evitar multicolinearidade, a variável TotalCharges foi excluída da modelagem.

A investigação da relação entre as variáveis e o churn expôs que a maioria dos cancelamentos ocorre nos primeiros meses de contrato, sugerindo falhas no processo de onboarding. Outro achado foi a maior propensão ao churn entre clientes idosos (SeniorCitizen), o que pode indicar barreiras de complexidade técnica. Clientes com internet de fibra ótica (Fiber optic) apresentaram uma taxa de churn de 41,89%, sinalizando possíveis problemas de qualidade ou precificação neste serviço.

A análise das variáveis categóricas aprofundou o entendimento dos fatores de risco. O tipo de contrato (Contract) emergiu como um dos preditores mais fortes: clientes com contratos mensais (Month-to-month) tiveram uma taxa de churn de 42,71%, enquanto aqueles com contratos de dois anos (Two year) apresentaram uma taxa de apenas 2,85%. O método de pagamento com cheque eletrônico (Electronic check) foi associado a uma taxa de churn de 45,29%, muito superior a métodos automáticos como transferência bancária (16,73%) ou cartão de crédito (15,25%). A ausência de serviços como segurança online (OnlineSecurity) e suporte técnico (TechSupport) também foi correlacionada com maiores taxas de cancelamento.

A combinação de características permitiu identificar segmentos de altíssimo risco. Clientes novos (tenure de até 3 meses) sem o serviço de segurança online apresentaram uma taxa de churn de 71,1%. O segmento de clientes com contrato mensal e internet de fibra ótica teve uma taxa de 54,6%. Clientes idosos sem suporte técnico cancelaram o serviço em 50,6% dos casos. Por fim, clientes que utilizavam cheque eletrônico e possuíam cobranças mensais superiores a 75 dólares tiveram uma taxa de churn de 49,3%. Esses segmentos representam alvos prioritários para ações de retenção.

O processo de modelagem iniciou-se com a preparação final dos dados. Após a remoção das colunas CustomerID e TotalCharges, as variáveis categóricas foram transformadas utilizando One-Hot Encoding. A base de dados foi dividida em conjuntos de treino (70%) e teste (30%) de forma estratificada. As variáveis numéricas tenure e MonthlyCharges foram padronizadas utilizando StandardScaler para ajustar sua distribuição a uma média de zero e desvio padrão de um.

Na primeira fase de avaliação, os quatro algoritmos foram treinados com configurações padrão e validação cruzada de 5 folds. Para lidar com o desbalanceamento de classes (26,5% de churn), foi aplicada uma estratégia de ponderação a nível de algoritmo. A Regressão Logística alcançou um recall médio de 78,59%, com precisão de 52,19%. O Random Forest teve um desempenho modesto, com recall de 49,24%. Os modelos de boosting, XGBoost e CatBoost, apresentaram desempenho equilibrado, com o CatBoost se destacando com um recall de 77,82%, F1-Score de 62,89% e AUC de 0,85. Considerando o objetivo de maximizar o recall e seu desempenho superior em métricas de equilíbrio, o CatBoost foi selecionado para a etapa de otimização.

O modelo CatBoost foi submetido a uma otimização de hiperparâmetros em duas etapas (Random Search e Grid Search) para maximizar o F1-Score. O modelo final, com hiperparâmetros otimizados, demonstrou ganhos incrementais: o recall aumentou de 79% para 80%, a precisão subiu de 51% para 52%, e o F1-Score melhorou de 62% para 63%. Embora marginais, esses ganhos são relevantes no contexto de negócio, pois um aumento de 1% no recall pode se traduzir na retenção de milhares de assinantes. O valor da AUC permaneceu em 0,85, indicando que a otimização refinou o equilíbrio entre precisão e recall. Estes resultados estão alinhados com a literatura, que reporta valores de recall entre 70% e 85% para modelos de churn em telecomunicações (Barsotti et al., 2024).

A etapa final consistiu na interpretação do modelo otimizado utilizando SHAP. A análise revelou que as variáveis de maior impacto na predição do churn foram, em ordem: Contract, tenure e InternetService. Os gráficos de dependência SHAP mostraram que contratos mensais (Month-to-month) aumentam drasticamente a predição em direção ao churn, enquanto contratos de dois anos (Two year) atuam como fator de retenção. A variável tenure mostrou que o risco de churn é altíssimo nos primeiros meses e decresce continuamente, tornando-se um fator de proteção após aproximadamente 20 meses. Para o serviço de internet, a fibra ótica (Fiber optic) foi o principal vetor de churn, enquanto a ausência de serviços como OnlineSecurity e TechSupport também contribuiu para o risco. Com base nesses achados, foram formuladas recomendações como a implementação de um programa de onboarding, incentivos para migração para contratos de longo prazo, investigação de problemas no serviço de fibra ótica e promoção de cross-sell de serviços de segurança e suporte.

O presente trabalho desenvolveu um modelo de alta performance para a predição de churn, alcançando o objetivo proposto. Por meio do algoritmo CatBoost e de um rigoroso processo de otimização, foi construído um modelo preditivo capaz de identificar clientes propensos a cancelar o serviço com um recall de 80%. A utilização de técnicas de XAI, como o SHAP, permitiu desvendar os fatores determinantes por trás das predições, transformando o modelo em uma ferramenta de diagnóstico. A análise revelou que a adesão a contratos mensais, o baixo tempo de permanência e a contratação de internet por fibra ótica são os principais impulsionadores do churn. Em contrapartida, contratos de longa duração e a aquisição de serviços adicionais de segurança e suporte emergiram como fortes indicadores de retenção. Os achados fornecem um direcionamento acionável para a gestão, indicando a necessidade de ações focadas na migração para contratos de longo prazo, na melhoria da experiência inicial do cliente e na investigação de possíveis falhas operacionais ou de percepção de valor em serviços específicos. A implementação dessas ações possui o potencial de reduzir a taxa de churn e fortalecer a posição competitiva da empresa. A principal limitação do estudo reside no uso de uma base de dados pública, que pode não capturar todas as nuances do mercado brasileiro. Conclui-se que o objetivo foi atingido: demonstrou-se que é possível desenvolver um modelo de machine learning de alta performance para prever a evasão de clientes e identificar seus principais determinantes, fornecendo uma ferramenta robusta para a criação de estratégias proativas de retenção.

Referências:
Barsotti, A.; Gianini, G.; Mio, C.; Cabitza, F.; Campagner, A. 2024. A decade of churn prediction techniques in the TelCo domain: a survey. SN Computer Science 5: 404.
Bergstra, J.; Bengio, Y. 2012. Random search for hyper-parameter optimization. Journal of Machine Learning Research 13:281-305.
Boateng, E. Y.; Abaye, D. A. 2019. A review of the logistic regression model with emphasis on medical research. Journal of Data Analysis and Information Processing 7(4):190-207.
Boehmke, B.; Greenwell, B. 2019. Hands-On Machine Learning with R. Chapman and Hall/CRC, New York, NY, USA.
Breiman, L. 2001. Random forests. Machine Learning 45(1):5-32.
Chapman, P.; Clinton, J.; Kerber, R.; Khabaza, T.; Reinartz, T.; Shearer, C.; Wirth, R. 2000. CRISP-DM 1.0: Step-by-Step Data Mining Guide. SPSS Inc, Chicago, IL, USA.
Chen, T.; Guestrin, C. 2016. Xgboost: A scalable tree boosting system. In: 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, San Francisco, CA, USA. Anais… p. 785-794.
Hennig-Thurau, T.; Gwinner, K. P.; Walsh, G.; Gremler, D. D. 2004. Electronic word-of-mouth via consumer-opinion platforms: What motivates consumers to articulate themselves on the internet. Journal of Interactive Marketing 18(1):38-52.
IBM. 2017. Telco Customer Churn. Disponível em: <https://www. kaggle. com/datasets/blastchar/telco-customer-churn>. Acesso em: 21 maio 2025.
Imani, M. 2024. Customer Churn Prediction in Telecommunication Industry: A Literature Review. Disponível em: <https://www. preprints. org/manuscript/202403.0585/v3>. Acesso em: 21 maio 2025.
Lima, K.; Pamplona, N. 2010. Contribuição do Brasil vai além do setor de telecom. Estadão. Disponível em: <https://www. estadao. com. br/economia/contribuicao-do-brasil-vai-alem-do-setor-de-telecom-imp-/>. Acesso em: 21 maio 2025.
Lundberg, S. M.; Lee, S. I. 2017. A unified approach to interpreting model predictions. In: Conference on Neural Information Processing Systems, 2017, Long Beach, CA, USA. Anais… p. 4765-4774.
Prokhorenkova, L.; Gusev, G.; Vorobev, A.; Dorogush, A. V.; Gulin, A. 2018. CatBoost: unbiased boosting with categorical features. In: Conference on Neural Information Processing Systems, 2018, Montréal, Canada. Anais… p. 6638-6647.
Reicheld, F. 2022. Vencendo com Propósito. Editora Benvirá, São José dos Campos, SP, Brasil.
Ul Hassan, C. A.; Khan, M. S.; Shah, M. A. 2018. Comparison of machine learning algorithms in data classification. In: 24th International Conference on Automation and Computing (ICAC), 2018, Newcastle upon Tyne, UK. Anais… p. 1-6.
Wang, Z.; Gadi, M. 2024. Optimal HVAC setpoints for energy efficiency and thermal comfort in Chinese residential buildings. Journal of Building Engineering 96:107626.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade