
16 de janeiro de 2026
Modelagem preditiva da tarifa social de energia no Distrito Federal
Autor(a): José Victor Gonçalves Baylão — Orientador(a): Jose Guilherme Martins dos Santos
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.O objetivo desta pesquisa é prever a evolução do número de beneficiários da Tarifa Social de Energia Elétrica (TSEE) no Distrito Federal, utilizando dados históricos da ANEEL de abril de 2020 a março de 2025. Por meio da aplicação e comparação de modelos de séries temporais, especificamente ARIMA e Suavização Exponencial de Holt, busca-se identificar o modelo preditivo de maior acurácia para estimar a demanda futura, fornecendo subsídios quantitativos para o planejamento de políticas públicas no setor energético.
A relevância do estudo reside na correlação positiva entre acesso à energia e bem-estar social, um fato documentado por estudos como o de Pasten e Santamarina (2012), que demonstram como incrementos no consumo de energia melhoram indicadores de qualidade de vida. No Brasil, apesar da cobertura de fornecimento elétrico atingir 99,5% dos domicílios, a universalização do acesso ainda é um desafio em regiões com profundas desigualdades socioeconômicas, mantendo a energia como uma pauta social prioritária (Thives et al., 2022).
A Tarifa Social de Energia Elétrica, instituída pela Lei 10.438 de 2002, é uma política pública chave para mitigar a barreira econômica ao acesso, garantindo descontos na conta de energia para famílias de baixa renda registradas no Cadastro Único (CadÚnico) (Brasil, 2002; Brasil, 2010). A importância do benefício foi reforçada durante a pandemia de COVID-19, com a implementação temporária de um desconto de 100%, evidenciando a energia como pilar para a justiça social (Thives et al., 2022). A evolução do número de beneficiários da TSEE funciona, portanto, como um termômetro das condições sociais e disparidades regionais.
Nesse cenário, a gestão pública necessita de ferramentas para alocar recursos limitados de forma eficiente. A ciência de dados oferece métodos para transformar informações governamentais em insights acionáveis, aprimorando a eficácia das políticas públicas com análises empíricas robustas (Hossin et al., 2023), embora seu potencial ainda seja subexplorado no setor público.
A modelagem de séries temporais é uma abordagem estatística adequada para analisar a dinâmica de programas como a TSEE. Modelos como o ARIMA (AutoRegressive Integrated Moving Average) identificam tendências e padrões sazonais em dados cronológicos (Box, Jenkins e Reinsel, 2016), enquanto o método de Suavização Exponencial de Holt é eficaz para séries que apresentam componentes de tendência (Hyndman e Athanasopoulos, 2018). A análise da evolução temporal dos beneficiários da TSEE pode revelar informações cruciais sobre a adesão ao programa e seu impacto, em um momento em que a pauta energética engloba dimensões políticas, sociais e ambientais.
Este estudo adota uma abordagem quantitativa seguindo as fases do modelo de Box e Jenkins: identificação, estimação e diagnóstico, precedidas pela preparação dos dados (Box, Jenkins e Reinsel, 2016). A fase preliminar consistiu na coleta de dados públicos da ANEEL (Sistema de Controle de Subvenções e Programas Sociais) para o Distrito Federal, de março de 2020 a março de 2025, resultando em uma série com 60 observações mensais. As variáveis selecionadas foram “SigAgente” (para filtrar a concessionária Neoenergia Brasília), “DatRegistro” e as unidades consumidoras, que foram agregadas. O tratamento de dados incluiu a suavização de outliers por meio de uma média móvel simples para minimizar a influência de ruídos aleatórios, conforme recomendado por Fávero e Belfiore (2017).
A metodologia prosseguiu com a fase de identificação, na qual a série foi decomposta em tendência, sazonalidade e resíduos (Hyndman e Athanasopoulos, 2021). A estacionariedade, premissa essencial para modelos ARIMA, foi verificada formalmente com o teste de Dickey-Fuller Aumentado (ADF). A não estacionariedade, causada pela tendência, foi tratada por diferenciação, processo que calcula a diferença entre observações consecutivas para estabilizar a média da série (Morettin e Toloi, 2006). A ordem de diferenciação (parâmetro ‘d’ do ARIMA) foi determinada com base no resultado do teste ADF, que avalia a presença de uma raiz unitária (Nielsen, 2019).
Na fase de estimação, a função auto_arima da biblioteca pmdarima foi utilizada para selecionar os parâmetros ótimos do ARIMA (p, d, q) por meio de uma busca stepwise que minimiza o Critério de Informação de Akaike (AIC). O componente autorregressivo (p) modela a dependência com observações passadas, e o de média móvel (q) modela a dependência com erros de previsões anteriores (Peixeiro, 2022). Adicionalmente, foram implementados modelos de suavização exponencial de Holt, projetado para séries com tendência, e sua variação com tendência amortecida (damped trend) (Hyndman e Athanasopoulos, 2018). A comparação de desempenho foi realizada com validação cruzada walk-forward, que treina e testa o modelo iterativamente para uma avaliação mais robusta.
A acurácia dos modelos foi quantificada pelas métricas: Raiz do Erro Quadrático Médio (RMSE), Erro Médio Absoluto (MAE), Erro Percentual Médio Absoluto (MAPE) e Viés (BIAS). O RMSE, por penalizar erros maiores, foi o principal critério de seleção (Bruce e Bruce, 2019). Na fase de diagnóstico, o modelo selecionado foi submetido a uma análise de resíduos para validar se estes se comportavam como ruído branco (independentes, identicamente distribuídos com média zero e variância constante), utilizando gráficos de diagnóstico e o teste de Ljung-Box para confirmar a ausência de autocorrelação.
A análise exploratória revelou um crescimento exponencial no número de beneficiários da TSEE no DF durante a pandemia de COVID-19 (março de 2020 a maio de 2023), saltando de menos de 20.000 para quase 100.000 unidades consumidoras. Após esse período, o crescimento continuou, mas de forma mais moderada. As estatísticas descritivas confirmaram a alta variabilidade dos dados, com desvio padrão de 37.799 e um aumento superior a 1.000% entre o valor mínimo (8.661) e o máximo (105.904), indicando a não estacionariedade da série.
A decomposição da série temporal corroborou essas observações, mostrando uma tendência de escalada acentuada durante a pandemia, seguida por um crescimento mais lento, o que sugere uma mudança estrutural. O componente de sazonalidade revelou um padrão anual, mas com amplitude de variação baixa (em torno de ±1.000 unidades), indicando que seu impacto era pouco expressivo. A presença da tendência dominante e a confirmação formal da não estacionariedade pelo teste ADF (p-valor = 0.9303) estabeleceram a necessidade de diferenciação da série (d=1) para a modelagem ARIMA.
A primeira fase da modelagem, utilizando a série histórica completa, selecionou o modelo ARIMA(0,1,0), conhecido como random walk (passeio aleatório), como o de melhor desempenho. Tal resultado sugere que a série, analisada em sua totalidade, era essencialmente imprevisível, pois os choques aleatórios da pandemia se mostraram permanentes, sem uma memória determinística que pudesse ser modelada (Hyndman e Athanasopoulos, 2018). A robusta quebra estrutural introduziu um ruído que impediu os modelos de capturar padrões consistentes.
Este achado motivou uma segunda fase de modelagem. Considerando que a quebra estrutural violava a premissa de estabilidade da metodologia de Box-Jenkins (Enders, 2015), a análise foi reexecutada utilizando um subconjunto de dados pós-pandemia (a partir de junho de 2023). Esta nova análise, sobre uma série mais curta e homogênea de 20 observações, produziu resultados mais informativos.
Nesta segunda rodada, o modelo de Suavização Exponencial de Holt emergiu como o de melhor desempenho, apresentando o menor RMSE (785,41), superando tanto o melhor modelo ARIMA da fase (1,1,1) quanto o random walk. A superioridade do método de Holt indica que, no período pós-pandemia, a série é fortemente governada por sua tendência linear. A lógica do método, que atribui pesos decrescentes a observações mais antigas, permitiu que o modelo se adaptasse melhor à nova dinâmica da série, ignorando a influência disruptiva dos dados pandêmicos.
Adicionalmente, o fato de o método de Holt com tendência linear ter superado sua variação com tendência amortecida sugere que o crescimento no número de beneficiários, embora mais moderado, ainda é constante e não demonstra sinais de desaceleração iminente. A análise gráfica da validação walk-forward mostrou que os modelos de suavização exponencial se mantiveram consistentemente mais próximos dos valores reais. Todos os modelos testados nesta fase apresentaram um BIAS negativo, indicando uma leve tendência a subestimar o número de beneficiários.
O diagnóstico dos resíduos do modelo de Holt selecionado validou sua adequação. O gráfico de resíduos não apresentou padrões de tendência ou sazonalidade, e o teste de Ljung-Box confirmou a ausência de autocorrelação significativa (p-valor = 0,1318), indicando que os resíduos se comportam como ruído branco. No entanto, o gráfico Q-Q e o histograma revelaram que a distribuição dos resíduos não era perfeitamente normal, com a presença de caudas pesadas, o que sugere a influência de fatores exógenos não incluídos na análise.
A previsão final gerada pelo método de Holt para os seis meses subsequentes a março de 2025 indica uma continuação da tendência de crescimento, com um aumento probabilístico de aproximadamente 2.000 novas unidades consumidoras beneficiárias. Este resultado, embora univariado, fornece uma informação quantitativa valiosa para o poder público. O aumento contínuo de beneficiários tem implicações para o planejamento do fornecimento de energia, alocação de subsídios e monitoramento das condições socioeconômicas, sinalizando que a demanda por assistência social no setor energético permanece em alta.
A principal limitação deste estudo reside na sua natureza univariada, que não incorpora variáveis exógenas que influenciam a adesão à TSEE, como taxas de desemprego, inflação ou mudanças nos critérios do CadÚnico. A inclusão de tais variáveis socioeconômicas poderia resultar em um modelo mais robusto. Pesquisas futuras poderiam explorar modelos mais complexos, como modelos vetoriais autorregressivos (VAR) ou algoritmos de aprendizado de máquina (e. g., XGBoost, LSTM), e expandir o escopo geográfico da análise.
Em suma, este trabalho demonstrou a viabilidade de utilizar modelos de séries temporais para prever a evolução do número de beneficiários da TSEE, destacando a importância de tratar adequadamente as quebras estruturais nos dados para obter previsões acuradas. A análise comparativa revelou que, após o período atípico da pandemia de COVID-19, a série passou a ser dominada por uma tendência de crescimento linear, sendo o método de Suavização Exponencial de Holt o mais adequado para capturar essa dinâmica. A previsão de crescimento contínuo oferece um subsídio relevante para a tomada de decisão no setor público, permitindo um planejamento mais proativo em relação aos impactos orçamentários e operacionais do programa. Conclui-se que o objetivo foi atingido: demonstrou-se que o método de Suavização Exponencial de Holt, aplicado a dados pós-pandêmicos, fornece um modelo preditivo acurado para a tendência de crescimento do número de beneficiários da TSEE no Distrito Federal, servindo como uma ferramenta útil para o planejamento de políticas energéticas e sociais.
Referências:
Agência Nacional de Energia Elétrica [ANEEL]. 2025. SCS – Sistema de Controle de Subvenções e Programas Sociais [Conjunto de dados]. Disponível em: <https://dadosabertos. aneel. gov. br/dataset/scs-sistema-de-controle-de-subvencoes-e-programas-sociais>
Belfiore, P; Fávero, L. P. 2017. Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. 1ed. Rio de Janeiro: Elsevier.
Box, G. E. P.; Jenkins, G. M.; Reinsel, G. C.; Ljung, G. M. 2016. Time Series Analysis: Forecasting and Control. 5. ed. John Wiley & Sons. Hoboken. NJ, EUA.
Brasil. 2002. Lei 10.438, 26 de abril de 2002. Institui a Conta de Desenvolvimento Elétrico [CDE], responsável pela Tarifa Social de Energia Elétrica.
Brasil. 2010. Lei 12.212, 20 de janeiro de 2010. Dispõe sobre a Tarifa Social de Energia Elétrica; altera as Leis nos 9.991, de 24 de julho de 2000, 10.925, de 23 de julho de 2004, e 10.438, de 26 de abril de 2002; e dá outras providências.
Bruce, P.; Bruce, A.; 2019. Estatística Prática para Cientistas de Dados: 50 conceitos essenciais. Alta Books, Rio de Janeiro.
Enders, Walter. 2015. Applied Econometric Time Series. 4ed. Wiley. Hoboken, NJ, EUA.
Hossin, M. A., Du, J., Mu, L., & Asante, I. O. 2023. Big Data-Driven Public Policy Decisions: Transformation Toward Smart Governance. SAGE Open, 13(4). Disponível em: <https://doi. org/10.1177/21582440231215123>
Hyndman, R. J.; Athanasopoulos, G. 2021. Forecasting: Principles and Practice. 3ed. Melbourne: OTexts.
Morettin, P. A.; Toloi, C. M. C. 2006. Análise de Séries Temporais. 2. ed. São Paulo: Blucher.
Nielsen, Aileen. 2019. Practical Time Series Analysis: Prediction with Statistics & Machine Learning. 1 ed. O’Reilly Media. Sebastopol, Califórnia, EUA.
Pal, A.; Prakash, P. K. S. 2017. Practical time series analysis: master time series data processing, visualization, and modeling using Python. Packt Publishing, Birmingham.
Pasten, C.; Santamarina, J. C. 2012. Energy and quality of life. Energy Policy 49: 468–476. <https://doi. org/10.1016/j. enpol.2012.06.051>.
Peixeiro, M. 2022. Time Series Forecasting in Python. 1ed. Manning, New York, EUA.
Thives, L. P.; Ghisi, E.; Thives Júnior, J. J. 2022. Regional inequalities in electricity access versus quality of life in Brazil. Ambiente Construído 22(3): 47–65. <https://doi. org/10.1590/s1678-86212022000300609>.
World Health Organization [WHO]. 2023. Statement on the fifteenth meeting of the IHR Emergency Committee on the COVID-19 pandemic. Genebra, 5 de maio de 2023. Disponível em:<https://www. who. int/news/item/05-05-2023-statement-on-the-fifteenth-meeting-of-the-international-health-regulations-(2005)-emergency-committee-regarding-the-coronavirus-disease-(covid-19)-pandemic.>
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































