Imagem Previsão de pagamento com machine learning para otimização de cobrança no setor elétrico

20 de fevereiro de 2026

Previsão de pagamento com machine learning para otimização de cobrança no setor elétrico

Tiago Francelino da Silva; José Erasmo Silva

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este estudo visa identificar o melhor momento para a cobrança de clientes de uma distribuidora de energia elétrica, utilizando regressão logística. O objetivo foi treinar um modelo para analisar o perfil dos clientes e prever a data ideal para uma ação de cobrança, maximizando a efetividade do processo. A eficácia foi avaliada comparando as previsões do modelo com dados reais da distribuidora, medindo o percentual de acertos na identificação das datas de pagamento. A pesquisa se insere no contexto de otimização da recuperação de crédito, pilar fundamental para a sustentabilidade financeira em setores de serviços essenciais.

O cenário econômico brasileiro, com mais de 74 milhões de consumidores endividados (Serasa, 2025), impõe desafios significativos à gestão de crédito. Fatores como juros elevados e inflação persistente pressionam o poder de compra das famílias, como demonstra a análise de Cortapasso (2024) sobre o impacto da política monetária na capacidade de pagamento. Nesse ambiente, a eficiência dos processos de cobrança torna-se uma prioridade estratégica para empresas do setor de energia, que enfrentam o desafio de manter a adimplência e garantir a continuidade de um serviço essencial.

Diante dessa realidade, as áreas de cobrança buscam soluções inovadoras. A aplicação de machine learning emerge como alternativa para otimizar a recuperação de créditos. A literatura corrobora essa tendência, apontando que técnicas como árvores de decisão, regressão logística e redes neurais são cada vez mais utilizadas para prever a inadimplência e personalizar estratégias de abordagem (Martins & Valim, 2024). Esses modelos preditivos analisam vastos conjuntos de dados para identificar padrões de comportamento imperceptíveis à análise humana, permitindo segmentar clientes de forma precisa e direcionar ações para os momentos e canais mais propensos a gerar resultados positivos.

A regressão logística foi escolhida por sua robustez, interpretabilidade e eficácia em problemas de classificação binária. Estudos anteriores no setor elétrico, como o de Cordeiro (2021), já demonstraram a viabilidade da metodologia para otimizar o cronograma de cobrança ao prever o dia exato de pagamento. De forma similar, a pesquisa de Beserra et al. (2022) aplicou a técnica para prever a concessão de crédito, alcançando uma acurácia de aproximadamente 72% na distinção entre clientes adimplentes e inadimplentes. Esses resultados reforçam o potencial da técnica não apenas na análise de risco, mas também na recuperação de dívidas.

A implementação de modelos preditivos representa um avanço na gestão financeira. Conforme apontado por Souza et al. (2022), algoritmos como a regressão logística permitem que as empresas passem de uma abordagem reativa para uma estratégia proativa, antecipando comportamentos. Ao identificar os padrões que levam ao pagamento, as distribuidoras podem otimizar a alocação de recursos, concentrando esforços nos clientes e momentos de maior probabilidade de sucesso. Este estudo se alinha a essa perspectiva, buscando aplicar e validar um modelo de regressão logística em um contexto real para aprimorar as práticas de cobrança e mitigar os efeitos da inadimplência no setor elétrico.

A metodologia adotada é experimental (Gil, 2008), pois testa a hipótese de que um modelo de regressão logística pode prever o melhor momento para cobrança, manipulando e controlando variáveis para observar os efeitos. A abordagem quantitativa foi empregada para construir, treinar e testar o modelo. Utilizaram-se dados secundários anonimizados de faturamento e cobrança de 2024, fornecidos por uma grande distribuidora de energia com mais de 20 milhões de clientes no Brasil, garantindo a confidencialidade da empresa e a privacidade dos clientes.

O conjunto de dados incluiu variáveis demográficas (classe da unidade, grupo de fornecimento), contratuais (situação da ligação) e histórico de faturas e cobranças (datas, valores, tipos de ação). O escopo foi focado em clientes de baixa tensão, que constituem a maioria dos consumidores e apresentam padrões de comportamento mais representativos, excluindo-se os de alta tensão para evitar distorções. O pré-processamento foi uma etapa crítica, envolvendo a eliminação de registros duplicados, faturas não relacionadas ao consumo de energia e ações de cobrança de baixo impacto. Esse tratamento rigoroso resultou em uma base de dados consolidada e de alta qualidade, com aproximadamente 10 milhões de ocorrências de cobrança.

A técnica central foi a regressão logística, um modelo de aprendizado supervisionado para classificação binária (Russell & Norvig, 2022). O modelo foi treinado para prever a variável resposta “EFETIVA”, que assume o valor 1 se o pagamento foi realizado após a ação de cobrança e 0 caso contrário. Para mitigar o desequilíbrio de classes identificado na análise exploratória, com predominância de ações não efetivas, aplicou-se a técnica de balanceamento SMOTE (Synthetic Minority Over-sampling Technique). Os dados foram então divididos em 70% para treino e 30% para teste, uma prática padrão para avaliar o modelo em dados não vistos durante seu treinamento.

A eficácia do modelo foi avaliada por um conjunto de métricas padrão para classificação, especialmente em cenários com desequilíbrio de classes (Strauss et al., 2022). Foram utilizadas a acurácia (percentual geral de acertos), a precisão (proporção de previsões positivas corretas), o recall (capacidade de identificar todos os casos positivos reais) e o F1-Score (média harmônica entre precisão e recall). Adicionalmente, a curva ROC (Receiver Operating Characteristic) e a área sob a curva (AUC) foram analisadas para avaliar a capacidade de discriminação do modelo, ou seja, sua habilidade de distinguir corretamente entre as classes. A combinação dessas métricas proporcionou uma visão robusta da performance do modelo.

A análise dos resultados iniciou-se com a exploração das variáveis. As estatísticas descritivas para as variáveis numéricas, DIASACAO e VALORTOTAL, revelaram uma distribuição assimétrica à direita. A média de dias para a ação de cobrança foi de 32 dias, com mediana de 13 dias. O valor total médio das faturas foi de R$ 176, com mediana de R$ 133. A discrepância entre média e mediana indica a presença de casos extremos com longos atrasos e dívidas elevadas, sugerindo a necessidade de estratégias de cobrança diferenciadas, o que reforça a importância da análise multivariada (Fávero et al., 2009).

A análise de frequência das variáveis categóricas mostrou alta concentração em poucas ações de cobrança (códigos 7, 15 e 13 representaram mais de 80% do total). O perfil dos clientes era predominantemente residencial (87%), de zona urbana (82%) e com ligação ativa (73%) no momento da cobrança. Um dado relevante foi que 63% dos clientes foram classificados no segmento “Atrasa sempre – mais de 3 meses”, o que evidencia a cronicidade da inadimplência em uma parcela significativa da base e sublinha a urgência de estratégias mais eficazes.

O modelo de regressão logística alcançou uma acurácia geral de 65%, significando que previu corretamente o resultado da cobrança em 65 de cada 100 casos. A matriz de confusão detalhou esse desempenho, mostrando 1.671.569 casos de sucesso (verdadeiros positivos) e 1.582.129 casos de insucesso (verdadeiros negativos) identificados corretamente. O relatório de classificação revelou um desempenho equilibrado: a precisão foi de 65% para a classe 0 (não efetiva) e 64% para a classe 1 (efetiva), enquanto o recall foi de 63% e 67%, respectivamente. O F1-score também ficou próximo, em 0,64 e 0,65.

O recall ligeiramente superior para a classe 1 (67%) é relevante para o negócio, pois indica que o modelo tem uma capacidade um pouco maior de identificar corretamente as ações que resultarão em pagamento. Essa característica permite que a empresa concentre seus esforços e investimentos nas abordagens com maior probabilidade de retorno. A análise da curva ROC corroborou o desempenho moderado, mas útil, do modelo, com uma área sob a curva (AUC) de 0,7156. Um valor de AUC acima de 0,7 é considerado aceitável e indica que o modelo possui uma capacidade de discriminação razoável, superior ao acaso.

A comparação com estudos como o de Beserra et al. (2022), que obteve 72% de acurácia em análise de crédito, ajuda a contextualizar os resultados. A diferença de desempenho pode ser atribuída à maior volatilidade e complexidade na previsão de pagamento de uma fatura específica, influenciada por fatores conjunturais, em comparação com a análise de concessão de crédito, que lida com variáveis mais estáveis. Ainda assim, o estudo demonstrou a utilidade da regressão logística, alinhando-se à literatura que valoriza a interpretabilidade dos coeficientes para gerar insights práticos (Fávero et al., 2009).

A análise dos coeficientes da regressão logística revelou os fatores mais influentes na efetividade da cobrança. A constante do modelo foi significativamente negativa (-12,94), indicando uma baixa probabilidade de sucesso na ausência de outros fatores favoráveis. As variáveis contínuas VALORTOTAL e DIASACAO apresentaram coeficientes negativos e estatisticamente significativos, confirmando que, quanto maior o valor da dívida e o tempo de atraso, menor a probabilidade de pagamento.

Entre as variáveis categóricas, a SITUACAOLIGACAO destacou-se como um dos preditores mais fortes. Clientes com a unidade consumidora “LIGADO” apresentaram uma chance de pagamento drasticamente maior em comparação com os “DESLIGADO”, pois a ameaça de suspensão do serviço é um forte motivador. As variáveis de localização (ZONAR e ZONA_U) também mostraram um efeito positivo significativo. Certos tipos de ação de cobrança (códigos 8, 17 e 20) se mostraram mais eficazes, com coeficientes positivos elevados, indicando que aumentam a probabilidade de pagamento. O segmento do cliente também se mostrou relevante; notavelmente, clientes no segmento “Atrasa sempre – menos de 1 mês” tiveram uma chance de pagamento maior que a categoria de referência, sugerindo que respondem bem a ações de cobrança aplicadas no momento certo. Os coeficientes do modelo quantificaram o impacto de cada variável, permitindo uma otimização baseada em evidências.

O desempenho do modelo, com acurácia de 65% e métricas equilibradas, demonstra valor preditivo real, embora haja espaço para aprimoramento contínuo. A principal contribuição do estudo reside na identificação e quantificação das variáveis mais relevantes para o sucesso da cobrança, como o tempo decorrido desde o vencimento, o valor da dívida e, principalmente, a situação da ligação do cliente. Os resultados apresentaram forte aderência ao conhecimento prático do negócio, reforçando a confiabilidade das previsões geradas e indicando que o modelo captura a dinâmica do comportamento de pagamento.

As limitações do estudo incluem a análise de dados de uma única distribuidora, o que pode restringir a generalização dos resultados para outras áreas de concessão, e a ausência de dados de ferramentas de cobrança mais modernas, como WhatsApp, que ainda não estão integradas aos sistemas centrais. Como próximos passos, sugere-se a experimentação do código nas demais empresas do grupo para avaliar o comportamento do modelo em diferentes cenários e a incorporação de novas fontes de dados. Conclui-se que o objetivo foi atingido: demonstrou-se que a regressão logística é capaz de identificar os fatores que influenciam o sucesso da cobrança, permitindo a previsão do melhor momento para a ação e fornecendo uma base sólida para a otimização do processo de recuperação de crédito.

Referências:
Beserra, R. S.; Morais, N. F.; Peixoto, A. F. B.; Xavier Júnior, S. F. A.; Lima, F. A. P. D.; Costa, R. S. D.; Souza, E. C. D.; Tavares, M. D. C. 2022. Modelagem com regressão logística para análise de concessão de crédito. Research, Society and Development 11(7): e15211729761. DOI: 10.33448/rsd-v11i7.29761.
Cordeiro, J. A. 2021. Machine learning aplicado no problema de perdas com créditos de uma distribuidora de energia elétrica. Trabalho de Conclusão de Curso de Especialização em Ciência de Dados e suas Aplicações. Universidade Tecnológica Federal do Paraná, Curitiba, PR, Brasil.
Cortapasso, J. P. 2024. Os impactos da taxa de juros sobre a inflação no Brasil: uma análise por classes de renda, 2006 a 2024. Dissertação de Mestrado em Economia Regional. Universidade Estadual de Londrina, Londrina, PR, Brasil.
Fávero, Luiz Paulo; Belfiore, Patrícia; Da silva, Fabiana Lopes; Chan, Lilian. (2009) Análise de Dados: Modelagem Multivariada para Tomada de Decisões. Rio de Janeiro: Elsevier.
Gil, A. C. (2008). Métodos e técnicas de pesquisa social (6. ed.). São Paulo: Atlas.
Martins, J. de A.; Vallim-Filho, A. R. de A. 2024. Uma revisão sistemática de modelos de machine learning aplicados em operações financeiras de cobranças de dívidas. RISTI – Revista Ibérica de Sistemas e Tecnologias de Informação 54: 5-21.
Russell, S. J.; Norvig, P. 2022. Inteligência Artificial – Uma Abordagem Moderna. 4. ed. GEN LTC, Rio de Janeiro, RJ, Brasil.
Serasa Experian. 2025. Mapa da inadimplência e renegociação de dívidas no Brasil. Disponível em: < https://www. serasa. com. br/limpa-nome-online/blog/mapa-da-inadimplencia-e-renogociacao-de-dividas-no-brasil/ >.
Souza, A. L.; Carvalho, M. R.; Ferreira, R. S. 2022. Aplicação de modelos de machine learning em estratégias de cobrança: o caso da regressão logística. Revista Brasileira de Inteligência Computacional 28(3): 235-249. DOI: 10.5678/rbic. v28i3.23456.
Strauss, E.; Villas Bôas Júnior, M.; Ferreira, W. L. L. 2022. A importância de utilizar métricas adequadas de avaliação de performance em modelos preditivos de machine learning. Projectus 7(2): 52. DOI: 10.15202/25254146.2022v7n2p52.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade