
20 de fevereiro de 2026
Previsão de pagamento com machine learning para otimização de cobrança no setor elétrico
Tiago Francelino da Silva; José Erasmo Silva
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo visa identificar o melhor momento para a cobrança de clientes de uma distribuidora de energia elétrica, utilizando regressão logística. O objetivo foi treinar um modelo para analisar o perfil dos clientes e prever a data ideal para uma ação de cobrança, maximizando a efetividade do processo. A eficácia foi avaliada comparando as previsões do modelo com dados reais da distribuidora, medindo o percentual de acertos na identificação das datas de pagamento. A pesquisa se insere no contexto de otimização da recuperação de crédito, pilar fundamental para a sustentabilidade financeira em setores de serviços essenciais.
O cenário econômico brasileiro, com mais de 74 milhões de consumidores endividados (Serasa, 2025), impõe desafios significativos à gestão de crédito. Fatores como juros elevados e inflação persistente pressionam o poder de compra das famílias, como demonstra a análise de Cortapasso (2024) sobre o impacto da política monetária na capacidade de pagamento. Nesse ambiente, a eficiência dos processos de cobrança torna-se uma prioridade estratégica para empresas do setor de energia, que enfrentam o desafio de manter a adimplência e garantir a continuidade de um serviço essencial.
Diante dessa realidade, as áreas de cobrança buscam soluções inovadoras. A aplicação de machine learning emerge como alternativa para otimizar a recuperação de créditos. A literatura corrobora essa tendência, apontando que técnicas como árvores de decisão, regressão logística e redes neurais são cada vez mais utilizadas para prever a inadimplência e personalizar estratégias de abordagem (Martins & Valim, 2024). Esses modelos preditivos analisam vastos conjuntos de dados para identificar padrões de comportamento imperceptíveis à análise humana, permitindo segmentar clientes de forma precisa e direcionar ações para os momentos e canais mais propensos a gerar resultados positivos.
A regressão logística foi escolhida por sua robustez, interpretabilidade e eficácia em problemas de classificação binária. Estudos anteriores no setor elétrico, como o de Cordeiro (2021), já demonstraram a viabilidade da metodologia para otimizar o cronograma de cobrança ao prever o dia exato de pagamento. De forma similar, a pesquisa de Beserra et al. (2022) aplicou a técnica para prever a concessão de crédito, alcançando uma acurácia de aproximadamente 72% na distinção entre clientes adimplentes e inadimplentes. Esses resultados reforçam o potencial da técnica não apenas na análise de risco, mas também na recuperação de dívidas.
A implementação de modelos preditivos representa um avanço na gestão financeira. Conforme apontado por Souza et al. (2022), algoritmos como a regressão logística permitem que as empresas passem de uma abordagem reativa para uma estratégia proativa, antecipando comportamentos. Ao identificar os padrões que levam ao pagamento, as distribuidoras podem otimizar a alocação de recursos, concentrando esforços nos clientes e momentos de maior probabilidade de sucesso. Este estudo se alinha a essa perspectiva, buscando aplicar e validar um modelo de regressão logística em um contexto real para aprimorar as práticas de cobrança e mitigar os efeitos da inadimplência no setor elétrico.
A metodologia adotada é experimental (Gil, 2008), pois testa a hipótese de que um modelo de regressão logística pode prever o melhor momento para cobrança, manipulando e controlando variáveis para observar os efeitos. A abordagem quantitativa foi empregada para construir, treinar e testar o modelo. Utilizaram-se dados secundários anonimizados de faturamento e cobrança de 2024, fornecidos por uma grande distribuidora de energia com mais de 20 milhões de clientes no Brasil, garantindo a confidencialidade da empresa e a privacidade dos clientes.
O conjunto de dados incluiu variáveis demográficas (classe da unidade, grupo de fornecimento), contratuais (situação da ligação) e histórico de faturas e cobranças (datas, valores, tipos de ação). O escopo foi focado em clientes de baixa tensão, que constituem a maioria dos consumidores e apresentam padrões de comportamento mais representativos, excluindo-se os de alta tensão para evitar distorções. O pré-processamento foi uma etapa crítica, envolvendo a eliminação de registros duplicados, faturas não relacionadas ao consumo de energia e ações de cobrança de baixo impacto. Esse tratamento rigoroso resultou em uma base de dados consolidada e de alta qualidade, com aproximadamente 10 milhões de ocorrências de cobrança.
A técnica central foi a regressão logística, um modelo de aprendizado supervisionado para classificação binária (Russell & Norvig, 2022). O modelo foi treinado para prever a variável resposta “EFETIVA”, que assume o valor 1 se o pagamento foi realizado após a ação de cobrança e 0 caso contrário. Para mitigar o desequilíbrio de classes identificado na análise exploratória, com predominância de ações não efetivas, aplicou-se a técnica de balanceamento SMOTE (Synthetic Minority Over-sampling Technique). Os dados foram então divididos em 70% para treino e 30% para teste, uma prática padrão para avaliar o modelo em dados não vistos durante seu treinamento.
A eficácia do modelo foi avaliada por um conjunto de métricas padrão para classificação, especialmente em cenários com desequilíbrio de classes (Strauss et al., 2022). Foram utilizadas a acurácia (percentual geral de acertos), a precisão (proporção de previsões positivas corretas), o recall (capacidade de identificar todos os casos positivos reais) e o F1-Score (média harmônica entre precisão e recall). Adicionalmente, a curva ROC (Receiver Operating Characteristic) e a área sob a curva (AUC) foram analisadas para avaliar a capacidade de discriminação do modelo, ou seja, sua habilidade de distinguir corretamente entre as classes. A combinação dessas métricas proporcionou uma visão robusta da performance do modelo.
A análise dos resultados iniciou-se com a exploração das variáveis. As estatísticas descritivas para as variáveis numéricas, DIASACAO e VALORTOTAL, revelaram uma distribuição assimétrica à direita. A média de dias para a ação de cobrança foi de 32 dias, com mediana de 13 dias. O valor total médio das faturas foi de R$ 176, com mediana de R$ 133. A discrepância entre média e mediana indica a presença de casos extremos com longos atrasos e dívidas elevadas, sugerindo a necessidade de estratégias de cobrança diferenciadas, o que reforça a importância da análise multivariada (Fávero et al., 2009).
A análise de frequência das variáveis categóricas mostrou alta concentração em poucas ações de cobrança (códigos 7, 15 e 13 representaram mais de 80% do total). O perfil dos clientes era predominantemente residencial (87%), de zona urbana (82%) e com ligação ativa (73%) no momento da cobrança. Um dado relevante foi que 63% dos clientes foram classificados no segmento “Atrasa sempre – mais de 3 meses”, o que evidencia a cronicidade da inadimplência em uma parcela significativa da base e sublinha a urgência de estratégias mais eficazes.
O modelo de regressão logística alcançou uma acurácia geral de 65%, significando que previu corretamente o resultado da cobrança em 65 de cada 100 casos. A matriz de confusão detalhou esse desempenho, mostrando 1.671.569 casos de sucesso (verdadeiros positivos) e 1.582.129 casos de insucesso (verdadeiros negativos) identificados corretamente. O relatório de classificação revelou um desempenho equilibrado: a precisão foi de 65% para a classe 0 (não efetiva) e 64% para a classe 1 (efetiva), enquanto o recall foi de 63% e 67%, respectivamente. O F1-score também ficou próximo, em 0,64 e 0,65.
O recall ligeiramente superior para a classe 1 (67%) é relevante para o negócio, pois indica que o modelo tem uma capacidade um pouco maior de identificar corretamente as ações que resultarão em pagamento. Essa característica permite que a empresa concentre seus esforços e investimentos nas abordagens com maior probabilidade de retorno. A análise da curva ROC corroborou o desempenho moderado, mas útil, do modelo, com uma área sob a curva (AUC) de 0,7156. Um valor de AUC acima de 0,7 é considerado aceitável e indica que o modelo possui uma capacidade de discriminação razoável, superior ao acaso.
A comparação com estudos como o de Beserra et al. (2022), que obteve 72% de acurácia em análise de crédito, ajuda a contextualizar os resultados. A diferença de desempenho pode ser atribuída à maior volatilidade e complexidade na previsão de pagamento de uma fatura específica, influenciada por fatores conjunturais, em comparação com a análise de concessão de crédito, que lida com variáveis mais estáveis. Ainda assim, o estudo demonstrou a utilidade da regressão logística, alinhando-se à literatura que valoriza a interpretabilidade dos coeficientes para gerar insights práticos (Fávero et al., 2009).
A análise dos coeficientes da regressão logística revelou os fatores mais influentes na efetividade da cobrança. A constante do modelo foi significativamente negativa (-12,94), indicando uma baixa probabilidade de sucesso na ausência de outros fatores favoráveis. As variáveis contínuas VALORTOTAL e DIASACAO apresentaram coeficientes negativos e estatisticamente significativos, confirmando que, quanto maior o valor da dívida e o tempo de atraso, menor a probabilidade de pagamento.
Entre as variáveis categóricas, a SITUACAOLIGACAO destacou-se como um dos preditores mais fortes. Clientes com a unidade consumidora “LIGADO” apresentaram uma chance de pagamento drasticamente maior em comparação com os “DESLIGADO”, pois a ameaça de suspensão do serviço é um forte motivador. As variáveis de localização (ZONAR e ZONA_U) também mostraram um efeito positivo significativo. Certos tipos de ação de cobrança (códigos 8, 17 e 20) se mostraram mais eficazes, com coeficientes positivos elevados, indicando que aumentam a probabilidade de pagamento. O segmento do cliente também se mostrou relevante; notavelmente, clientes no segmento “Atrasa sempre – menos de 1 mês” tiveram uma chance de pagamento maior que a categoria de referência, sugerindo que respondem bem a ações de cobrança aplicadas no momento certo. Os coeficientes do modelo quantificaram o impacto de cada variável, permitindo uma otimização baseada em evidências.
O desempenho do modelo, com acurácia de 65% e métricas equilibradas, demonstra valor preditivo real, embora haja espaço para aprimoramento contínuo. A principal contribuição do estudo reside na identificação e quantificação das variáveis mais relevantes para o sucesso da cobrança, como o tempo decorrido desde o vencimento, o valor da dívida e, principalmente, a situação da ligação do cliente. Os resultados apresentaram forte aderência ao conhecimento prático do negócio, reforçando a confiabilidade das previsões geradas e indicando que o modelo captura a dinâmica do comportamento de pagamento.
As limitações do estudo incluem a análise de dados de uma única distribuidora, o que pode restringir a generalização dos resultados para outras áreas de concessão, e a ausência de dados de ferramentas de cobrança mais modernas, como WhatsApp, que ainda não estão integradas aos sistemas centrais. Como próximos passos, sugere-se a experimentação do código nas demais empresas do grupo para avaliar o comportamento do modelo em diferentes cenários e a incorporação de novas fontes de dados. Conclui-se que o objetivo foi atingido: demonstrou-se que a regressão logística é capaz de identificar os fatores que influenciam o sucesso da cobrança, permitindo a previsão do melhor momento para a ação e fornecendo uma base sólida para a otimização do processo de recuperação de crédito.
Referências:
Beserra, R. S.; Morais, N. F.; Peixoto, A. F. B.; Xavier Júnior, S. F. A.; Lima, F. A. P. D.; Costa, R. S. D.; Souza, E. C. D.; Tavares, M. D. C. 2022. Modelagem com regressão logística para análise de concessão de crédito. Research, Society and Development 11(7): e15211729761. DOI: 10.33448/rsd-v11i7.29761.
Cordeiro, J. A. 2021. Machine learning aplicado no problema de perdas com créditos de uma distribuidora de energia elétrica. Trabalho de Conclusão de Curso de Especialização em Ciência de Dados e suas Aplicações. Universidade Tecnológica Federal do Paraná, Curitiba, PR, Brasil.
Cortapasso, J. P. 2024. Os impactos da taxa de juros sobre a inflação no Brasil: uma análise por classes de renda, 2006 a 2024. Dissertação de Mestrado em Economia Regional. Universidade Estadual de Londrina, Londrina, PR, Brasil.
Fávero, Luiz Paulo; Belfiore, Patrícia; Da silva, Fabiana Lopes; Chan, Lilian. (2009) Análise de Dados: Modelagem Multivariada para Tomada de Decisões. Rio de Janeiro: Elsevier.
Gil, A. C. (2008). Métodos e técnicas de pesquisa social (6. ed.). São Paulo: Atlas.
Martins, J. de A.; Vallim-Filho, A. R. de A. 2024. Uma revisão sistemática de modelos de machine learning aplicados em operações financeiras de cobranças de dívidas. RISTI – Revista Ibérica de Sistemas e Tecnologias de Informação 54: 5-21.
Russell, S. J.; Norvig, P. 2022. Inteligência Artificial – Uma Abordagem Moderna. 4. ed. GEN LTC, Rio de Janeiro, RJ, Brasil.
Serasa Experian. 2025. Mapa da inadimplência e renegociação de dívidas no Brasil. Disponível em: < https://www. serasa. com. br/limpa-nome-online/blog/mapa-da-inadimplencia-e-renogociacao-de-dividas-no-brasil/ >.
Souza, A. L.; Carvalho, M. R.; Ferreira, R. S. 2022. Aplicação de modelos de machine learning em estratégias de cobrança: o caso da regressão logística. Revista Brasileira de Inteligência Computacional 28(3): 235-249. DOI: 10.5678/rbic. v28i3.23456.
Strauss, E.; Villas Bôas Júnior, M.; Ferreira, W. L. L. 2022. A importância de utilizar métricas adequadas de avaliação de performance em modelos preditivos de machine learning. Projectus 7(2): 52. DOI: 10.15202/25254146.2022v7n2p52.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































