
04 de fevereiro de 2026
Clusterização de séries históricas de consumo hídrico nas bacias PCJ e SMT
Carlos Henrique Souza; Adriana Camargo de Brito
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo deste trabalho foi avaliar e identificar padrões nas séries históricas de consumo de água nas bacias dos Rios Piracicaba, Capivari e Jundiaí (PCJ) e Sorocaba e Médio Tietê (SMT) a partir de dados autodeclarados. Para isso, foram aplicados métodos de clusterização para segmentar perfis de usuários e discutir as potencialidades dos resultados para subsidiar políticas públicas, fiscalizações e estratégias de alocação de recursos hídricos. A pesquisa busca preencher uma lacuna na gestão hídrica regional, que opera com visões agregadas do consumo, propondo uma análise granular baseada em aprendizado de máquina para revelar dinâmicas não intuitivas e permitir uma governança mais proativa. A crescente pressão sobre os recursos hídricos, intensificada por mudanças climáticas e expansão urbano-industrial, torna imperativa a adoção de ferramentas analíticas avançadas para monitoramento e previsão da demanda.
O cenário hídrico evidencia a urgência de uma gestão sofisticada. A água, apesar de abundante, é um recurso finito e vulnerável em sua fração disponível para consumo (Mauro, 2014). No Brasil, a Lei nº 9.433/1997 instituiu a Política Nacional de Recursos Hídricos, mas sua implementação eficaz depende de dados robustos e ferramentas analíticas (BRASIL, 1997). A análise de séries temporais de consumo é um instrumento valioso para compreender tendências, sazonalidades e comportamentos atípicos. A integração de técnicas de ciência de dados, como a clusterização, permite ir além de médias e totais, agrupando usuários com comportamentos similares, independentemente de sua finalidade declarada ou localização.
A literatura recente corrobora a eficácia de abordagens baseadas em dados para a gestão hídrica. Smolak et al. (2020) demonstraram que a incorporação de dados de mobilidade urbana em modelos de Random Forest pode aumentar a precisão das previsões de demanda de água para 90,4%. Enbeyle et al. (2022) utilizaram modelos ARIMA para projetar o consumo mensal na Etiópia, identificando padrões sazonais cruciais para o planejamento. Carvalho (2019) explorou a relação entre variáveis socioeconômicas e o consumo em Fortaleza (CE), concluindo que Redes Neurais Artificiais (ANN) e Regressão por Mínimos Quadrados Parciais (PLSR) capturaram melhor a influência de fatores como renda e escolaridade. Contudo, essas abordagens enfrentam o desafio da disponibilidade e qualidade dos dados, uma limitação apontada por Dagher (2024), que observa que a escassez de dados limita a aplicabilidade de modelos mais complexos. Este trabalho se destaca por utilizar uma base de dados autodeclarada, refletindo a realidade operacional de agências reguladoras, e aplicar um pré-processamento rigoroso e técnicas de clusterização robustas, como K-Means com Dynamic Time Warping (DTW), para extrair valor de um conjunto de dados real e complexo.
A escolha das bacias PCJ e SMT é estratégica, pois concentram polos industriais e urbanos e enfrentam históricos de estresse hídrico. A identificação de perfis de consumo distintos nessas bacias pode fornecer subsídios diretos aos comitês de bacia e órgãos gestores, permitindo a criação de estratégias de alocação mais equitativas, o direcionamento de campanhas de conscientização e a otimização da fiscalização, focando em usuários com padrões de consumo desviantes. A análise proposta, portanto, avança no campo acadêmico e oferece uma ferramenta de aplicação prática para a gestão sustentável da água.
A metodologia foi estruturada em aquisição e pré-processamento dos dados, aplicação de algoritmos de clusterização e validação dos agrupamentos. A base de dados, fornecida pelo órgão estadual de gestão, compreende 1.631.482 registros de leituras de hidrômetros autodeclaradas no Sistema de Declaração das Condições de Uso de Captações (SIDECC), de janeiro de 2020 a março de 2024 nas bacias PCJ e SMT. Os registros continham variáveis como identificadores de usuário, tipo de captação, município, finalidade do uso, volume máximo diário outorgado e frequência de declaração (diária, semanal ou mensal).
O pré-processamento foi uma fase crítica. As ações incluíram a limpeza e padronização dos valores de leitura e o cálculo do consumo pela diferença entre a leitura atual e a anterior. Foi aplicado um tratamento específico para casos de medidores zerados. Para consistência temporal, os dados de declaração mensal foram ajustados, pois a inserção ocorre no mês subsequente. Para mitigar a influência de valores extremos, aplicou-se o método de detecção de outliers baseado na Amplitude Interquartil (IQR), excluindo registros fora do intervalo Q1 – 1,5×IQR e Q3 + 1,5×IQR (Hair et al., 2009). Por fim, os dados de consumo foram normalizados pela técnica Min-Max Scaling, que redimensiona os valores para um intervalo entre -1 e 1, preservando a forma da série temporal sem a influência da escala (James et al., 2013).
Para a clusterização, a abordagem central foi a combinação do algoritmo K-Means com a métrica de distância Dynamic Time Warping (DTW). Diferente da distância Euclidiana, o DTW encontra o alinhamento ótimo entre duas séries temporais, mesmo que desalinhadas. Para eficiência computacional, foi utilizada a restrição de janela Sakoe-Chiba, que evita comparações temporalmente implausíveis (Sakoe & Chiba, 1978; Górecki & Luczak, 2013). Foram explorados algoritmos alternativos como o K-Medoid, mais robusto a outliers (Zhang e Li, 2021), e a Clusterização Hierárquica Aglomerativa com o método de Ward, que minimiza a variância intra-cluster (Murtagh & Legendre, 2014).
O número ideal de clusters (k) foi determinado por uma abordagem multi-métricas, empregando o método Elbow, que analisa a soma dos quadrados dentro dos clusters (WCSS) (Kaufman e Rousseeuw, 1990); o método da Silhueta, que mede o quão bem cada ponto se encaixa em seu cluster (Rousseeuw, 1987); e o Índice Calinski-Harabasz, que avalia a razão entre a dispersão inter e intra-clusters (Calinski & Harabasz, 1974). A combinação dessas métricas, junto à análise visual dos dendrogramas, permitiu uma decisão fundamentada, resultando na escolha de k=3 como a configuração mais representativa para todas as frequências de declaração.
A análise exploratória revelou um aumento de usuários com declaração mensal a partir de meados de 2022. Os usuários de frequência diária, correspondentes aos maiores volumes outorgados, apresentaram consumo médio e total significativamente superior, com uma aparente sazonalidade de redução nos meses de verão. Diante da disparidade nas magnitudes de consumo, a clusterização foi realizada de forma independente para cada grupo de frequência (diário, semanal e mensal), evitando que os grandes consumidores mascarassem os padrões dos usuários de menor porte.
A determinação de k apresentou resultados divergentes entre as métricas. Para a frequência diária, Silhueta e Calinski-Harabasz convergiram para k=3. Para as frequências semanal e mensal, Silhueta indicou k=2, enquanto Calinski-Harabasz apontou k=3. O método Elbow foi inconclusivo. A análise dos dendrogramas da clusterização hierárquica foi decisiva, sugerindo uma estrutura natural de três grandes grupos para todas as frequências. Com base nessa evidência, adotou-se k=3 para todas as análises, garantindo uma estrutura de comparação consistente. A visualização dos clusters via t-SNE confirmou uma boa separação entre os grupos.
A análise das séries temporais médias de cada cluster revelou padrões de consumo consistentes entre as três frequências de declaração. Em cada frequência, emergiram três perfis de comportamento distintos. O primeiro, Cluster 1, caracterizou-se por um consumo com pico acentuado nos meses de verão. Este grupo foi composto predominantemente por usuários com finalidade industrial e de irrigação, um padrão esperado, já que a demanda para irrigação aumenta com as temperaturas mais altas e certas atividades industriais se intensificam no verão. Este cluster representa o comportamento sazonal clássico.
O segundo perfil, Cluster 0, apresentou um consumo estável ao longo do ano, com poucas oscilações. A composição deste grupo mostrou forte presença de usos para abastecimento urbano e industrial. A estabilidade é característica de processos industriais contínuos e do consumo urbano, que mantém uma demanda de base constante. Este grupo representa os consumidores de grande porte com operação regular e previsível, sendo um componente fundamental para o balanço hídrico. O monitoramento deste cluster é vital para a segurança hídrica.
O terceiro e mais intrigante perfil, o Cluster 2, exibiu uma redução do consumo durante o verão, contrariando a tendência geral. Sua composição revelou uma concentração majoritária de usos para abastecimento urbano, seguida por usos industriais e de comércio e serviços. Este padrão contraintuitivo levanta hipóteses que merecem investigação, como indústrias que reduzem a produção durante férias coletivas, dinâmicas de abastecimento em municípios turísticos ou erros sistemáticos de declaração. A identificação deste grupo é um resultado relevante, pois aponta para uma dinâmica não trivial que não seria detectada por análises agregadas, permitindo que a fiscalização direcione esforços para entender as razões desse comportamento anômalo.
A análise da distribuição das finalidades de uso dentro de cada cluster consolidou essas observações. Os clusters 0 (estável) e 1 (pico de verão) são formados por uma mistura de usos industriais, urbanos e de irrigação. Em contraste, o Cluster 2, com seu comportamento atípico, é claramente dominado pelo uso urbano, reforçando a hipótese de que o padrão está ligado a dinâmicas específicas do abastecimento público. A análise da distribuição geográfica demonstrou que os padrões de consumo não estão associados a regiões específicas, mas sim dispersos por toda a área de estudo, com concentração natural nas regiões metropolitanas. Isso indica que o comportamento de consumo é uma característica intrínseca do tipo de uso e não um fenômeno regional, permitindo que estratégias de gestão baseadas nesses perfis sejam aplicadas de forma transversal.
O presente estudo demonstrou com sucesso a aplicabilidade de técnicas de clusterização para a análise de séries temporais de consumo de água, fornecendo uma segmentação robusta dos usuários nas bacias PCJ e SMT. A metodologia permitiu a identificação de três perfis de consumo distintos: um com pico de demanda no verão (irrigação e indústria), outro com consumo estável (abastecimento urbano e indústria contínua) e um terceiro com comportamento atípico de redução no verão (predominantemente urbano). Estes achados reforçam a importância de transcender análises agregadas e utilizar a ciência de dados para revelar padrões de comportamento ocultos, essenciais para uma gestão hídrica proativa.
As implicações práticas destes resultados são significativas. A segmentação dos consumidores permite o desenvolvimento de políticas públicas mais direcionadas. Por exemplo, usuários do cluster com pico de verão podem ser alvo de programas de eficiência, enquanto o monitoramento do cluster de consumo estável é crucial para a segurança hídrica de base. O cluster de comportamento atípico representa um ponto de atenção imediato para a fiscalização, que pode investigar as causas da anomalia. Essa abordagem otimiza a alocação de recursos e permite antecipar cenários de risco. Para estudos futuros, sugere-se a incorporação de variáveis exógenas, como dados de precipitação e temperatura, e a aplicação de modelos preditivos para classificar novos usuários nos clusters identificados, fortalecendo o caráter preventivo da gestão. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de métodos de clusterização em séries temporais de consumo de água é uma ferramenta poderosa para identificar padrões de comportamento distintos entre usuários, gerando insights valiosos para a governança hídrica sustentável em regiões sob crescente pressão.
Referências:
BRASIL. (1997). Lei nº 9.433, de 8 de janeiro de 1997. Institui a Política Nacional de Recursos Hídricos, cria o Sistema Nacional de Gerenciamento de Recursos Hídricos.
Calinski, T., & Harabasz, J. (1974). A dendrite method for cluster analysis. Communications in Statistics, 3(1), 1-27.
Carvalho, D. V. (2019). Análise do consumo de água em Fortaleza-CE utilizando técnicas de aprendizado de máquina.
Centro de Estudos e Debates Ecológicos. (2015). INSTRUMENTOS DE GESTÃO DA ÁGUA. Brasília. Distrito Federal, Brasil.
Charrad, M., Ghazzali, N., Boiteau, V., & Niknafs, A. (2014). NbClust: An R Package for Determining the Relevant Number of Clusters in a Data Set. Journal of Statistical Software.
Dagher, D. (2024). Assessment of Using Machine and Deep Learning Applications in Surface Water Quantity and Quality Predictions: A Review. Journal of Water Resources and Geosciences, 3(2), 18–48.
Di Mauro, C. (2014). Conflitos pelo uso da água. Caderno prudentino de geografia, Presidente Prudente, n.36, Volume Especial, p. 81-105.
Enbeyle, W., Hamad, A., Al-Obeidi, A., Abebaw, S., Belay, A., Markos, A., Abate, L., & Derebew, B. (2022). Trend Analysis and Prediction on Water Consumption in Southwestern Ethiopia. Journal of Nanomaterials, 3294954, 7 pages.
Fränti, P., & Sieranoja, S. (2018). K-means properties on six clustering benchmark datasets. Applied Intelligence, 48(12), 4743-4759.
Górecki, T., & Luczak, M. (2013). Using dynamic time warping to find patterns in time series.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. (2009). Multivariate Data Analysis (7th ed.). Prentice Hall.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning. Springer.
James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. Wiley.
Li, Y., & Wu, H. (2012). A Clustering Method Based on K-Means Algorithm. Physics Procedia, Volume 25.
Menardi, G. (2016). A review of cluster analysis in R.
Murtagh, F., & Legendre, P. (2014). Ward’s Hierarchical Agglomerative Clustering Method: Which Algorithms Implement Ward’s Criterion? Journal of Classification.
Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65.
Sakoe, H., & Chiba, S. (1978). Dynamic programming algorithm optimization for spoken word recognition. IEEE Transactions on Acoustics, Speech, and Signal Processing, 26(1), 43-49.
Singh, A., Yadav, A., & Rana, A. (2021). K-means with Three different Distance Metrics.
Smolak, K., Kasieczka, B., Fialkiewicz, W., Rohm, W., Siła-Nowicka, K., & Kopańczyk, K. (2020). Applying human mobility and water consumption data for short-term water demand forecasting using classical and machine learning models. Urban Water Journal, 17(1), 32-42.
Wang, X., Xu, Y., & Zhang, C. (2020). A survey on K-medoids clustering algorithms.
Zhang, Q., & Li, Y. (2021). A review of K-medoids clustering algorithms.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































