
26 de fevereiro de 2026
Análise de Padrões de Saneamento em São Paulo com Aprendizado de Máquina
João Victor da Silva Oliveira; José Guilherme Martins dos Santos
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo identificou padrões de agrupamento entre os municípios do estado de São Paulo a partir de indicadores de saneamento de 2022, para evidenciar disparidades estruturais e subsidiar a formulação de políticas públicas. A pesquisa aplicou aprendizado de máquina não supervisionado para segmentar os municípios em grupos com características operacionais e de cobertura similares, revelando a heterogeneidade no acesso a serviços de água e esgoto. A abordagem quantitativa permitiu uma análise das dinâmicas da prestação de serviços, focando nas realidades locais ocultas em análises generalistas. A premissa da investigação foi que a compreensão desses agrupamentos é fundamental para o planejamento estratégico e a alocação de recursos, visando à universalização do saneamento, um direito social garantido pela Constituição Federal (Brasil, 1988).
A relevância do tema é a persistente desigualdade no acesso ao saneamento básico no Brasil, que afeta a saúde pública, a qualidade de vida e o desenvolvimento socioeconômico. Mesmo em São Paulo, observam-se disparidades regionais, com áreas periféricas e municípios menores enfrentando desafios para garantir a cobertura universal (Instituto Trata Brasil, 2024). A complexidade do setor, que envolve grandes investimentos em infraestrutura, gestão e marcos regulatórios, exige ferramentas analíticas capazes de processar um grande volume de variáveis. Nesse contexto, o aprendizado de máquina é uma alternativa às abordagens estatísticas tradicionais, permitindo a identificação de padrões multidimensionais não perceptíveis por meio de análises descritivas. A análise proposta, portanto, diagnosticou a estrutura subjacente do saneamento, em vez de apenas descrever a situação.
A desigualdade no saneamento é agravada por desafios financeiros e de gestão que afetam a capacidade dos municípios de expandir e manter suas redes. Muitos governos locais dependem de recursos limitados e de arranjos como as Parcerias Público-Privadas, que nem sempre atendem às necessidades das populações mais vulneráveis (Lindoso e Botelho, 2020). A ausência de um planejamento que considere as especificidades de cada município resulta em uma distribuição desigual de investimentos, perpetuando carências. Conforme aponta Silva (2023), a universalização do saneamento depende de políticas públicas estruturais e de investimentos que priorizem as áreas com maiores déficits. Este estudo propõe um método para classificar os municípios com base em suas necessidades e capacidades, oferecendo um diagnóstico que pode orientar a alocação de recursos de forma mais equitativa.
A escolha de focar no estado de São Paulo justifica-se por ser um microcosmo das contradições brasileiras: embora apresente alguns dos melhores indicadores de saneamento do país, também abriga bolsões de precariedade. Analisar essa heterogeneidade interna permite extrair lições aplicáveis em outros contextos nacionais. A pesquisa, ao segmentar os municípios paulistas, analisou como fatores operacionais, como volume de água distribuída, quantidade de economias ativas e população atendida, se combinam para formar perfis de desempenho. Essa segmentação é o primeiro passo para o desenvolvimento de intervenções customizadas, que reconheçam que uma solução única não resolve os problemas de municípios com realidades diversas (Gomes & Ferreira, 2018).
A contribuição deste trabalho reside na aplicação de uma metodologia de ciência de dados para um problema de relevância social. Ao utilizar a Análise de Componentes Principais (ACP) para reduzir a complexidade dos dados e o algoritmo K-Means para identificar os agrupamentos, o estudo demonstrou como a ciência de dados pode ser uma aliada na gestão pública. A análise não apenas confirmou a existência de disparidades, mas também as quantificou e caracterizou, fornecendo um diagnóstico da situação do saneamento no estado. Este diagnóstico serve como ponto de partida para que gestores, reguladores e a sociedade civil possam construir soluções mais eficazes, acelerando o progresso em direção à universalização para que os benefícios do saneamento básico alcancem toda a população.
A metodologia foi quantitativa e exploratória, baseada em aprendizado de máquina não supervisionado em dados secundários. A fonte de dados foi o Sistema Nacional de Informações sobre Saneamento (SNIS) de 2022, consolidado pelo Instituto Trata Brasil (2024). O SNIS é a base de dados mais abrangente sobre o setor no Brasil, garantindo comparabilidade. A área de estudo foi o estado de São Paulo, escolhido por sua relevância demográfica, econômica e pela heterogeneidade em seus indicadores. O conjunto de dados original continha mais de 130 variáveis operacionais e financeiras.
O tratamento dos dados iniciou-se com a filtragem para os municípios paulistas em 2022, selecionando apenas as colunas numéricas. Variáveis com desvio padrão nulo ou inferior a 1 foram removidas por não agregarem variabilidade. A coluna de identificação dos municípios foi excluída da modelagem e linhas com valores ausentes foram eliminadas. A etapa final do pré-processamento foi a padronização das variáveis pela técnica Z-Score. Conforme Favero e Belfiore (2017), essa transformação normaliza os dados (média zero e desvio padrão unitário), evitando que variáveis com escalas distintas influenciem desproporcionalmente os algoritmos.
Para lidar com a alta dimensionalidade, aplicou-se a Análise de Componentes Principais (ACP), técnica que transforma variáveis correlacionadas em um novo conjunto de variáveis não correlacionadas, os componentes principais. O objetivo da ACP (Rossi, 2017) é reduzir o número de variáveis, preservando o máximo da variância original. Essa redução otimiza o desempenho dos algoritmos de clusterização e facilita a interpretação. A análise da variância explicada acumulada foi utilizada para determinar o número ideal de componentes a serem retidos, garantindo uma representação fidedigna da estrutura dos dados com menor complexidade computacional.
O núcleo da análise foi a aplicação do algoritmo de clusterização K-Means, que agrupa observações em um número pré-definido (k) de clusters com base na similaridade (Oliveira, 2022). O algoritmo minimiza a soma das distâncias quadráticas entre cada ponto e o centroide de seu cluster, usando a distância Euclidiana. Para determinar o número ótimo de clusters (k), foi empregado o método da silhueta, que avalia a qualidade do agrupamento medindo a coesão de um objeto em seu cluster em comparação com a separação de outros clusters. O coeficiente de silhueta varia de -1 a 1; valores próximos a 1 indicam clusters bem definidos (Pilatti, 2023). O valor de k foi escolhido com base no número de clusters que maximizou o coeficiente médio de silhueta.
A análise dos resultados iniciou-se com a ACP. Os dez primeiros componentes principais explicaram aproximadamente 85% da variância total do conjunto de dados original, que possuía mais de 130 variáveis. Este resultado validou a redução da dimensionalidade, permitindo trabalhar com um subconjunto de informações mais compacto sem perda estatística. Essa compressão de dados foi fundamental para a etapa de agrupamento, viabilizando a aplicação do K-Means de forma mais eficiente. A capacidade da ACP de capturar a estrutura latente dos dados reforça sua utilidade em análises de sistemas complexos como o saneamento (Almeida, 2021).
Em seguida, determinou-se o número ideal de agrupamentos pelo método da silhueta. A análise com todos os municípios paulistas revelou que o coeficiente de silhueta atingiu seu valor máximo (0, 9447) com dois clusters (k=2). Verificou-se que um cluster era composto apenas pela capital, São Paulo, e o outro continha todos os demais municípios. Este resultado classificou a cidade de São Paulo como um outlier estatístico, cujo comportamento se desviava do padrão geral. A singularidade da capital é atribuída à sua escala demográfica e volume de investimentos, que são ordens de magnitude superiores aos de qualquer outro município, tornando a comparação direta inadequada.
Como a presença de São Paulo mascarava a heterogeneidade entre os outros municípios, o outlier foi removido e a clusterização reexecutada para que o algoritmo identificasse padrões mais significativos no interior, litoral e região metropolitana. Após a remoção de São Paulo, o método da silhueta foi novamente aplicado, indicando que a melhor segmentação continuava sendo a divisão em dois grupos (k=2), que alcançou o maior coeficiente de silhueta (0, 3652). Embora menor que o anterior, este valor ainda representa a estrutura de agrupamento mais coesa e bem separada dentro do universo de municípios analisados.
Com a nova segmentação, a análise caracterizou os perfis de cada grupo. As variáveis com maior desvio padrão foram as mais discriminantes, incluindo o volume de serviço de água (AG024), o volume de esgoto faturado (ES007), a quantidade de economias ativas residenciais e totais nos sistemas de água (AG003) e esgoto (ES003), e a população urbana atendida (AG026 e ES026). A análise comparativa revelou uma clara distinção: o Cluster 0 concentrou os municípios com maior estrutura operacional, apresentando valores mais elevados em todos os indicadores. Este grupo é composto por cidades de médio e grande porte, com redes de saneamento mais maduras e maior capacidade de investimento.
A visualização dos clusters em um gráfico de dispersão, usando os dois primeiros componentes principais como eixos, confirmou a separação estatística entre os grupos. A análise das variáveis que compõem esses componentes revelou que a principal dimensão de variação entre os municípios paulistas está relacionada à escala de suas operações de saneamento. Variáveis como número de ligações, volume faturado e população atendida são os principais vetores que definem a posição de um município.
A discussão desses resultados aponta para a necessidade de políticas públicas diferenciadas. Para os municípios do Cluster 1, com maiores carências, são necessárias estratégias de fomento, assistência técnica e investimentos diretos para expansão da infraestrutura. Programas de apoio à gestão podem ser cruciais para que melhorem seus indicadores. Para os municípios do Cluster 0, embora mais avançados, os desafios podem estar relacionados à eficiência operacional, redução de perdas de água e modernização das redes. A segmentação obtida oferece um roteiro para a ação governamental, permitindo que as intervenções sejam calibradas de acordo com o perfil de cada grupo.
Os resultados demonstram que, mesmo sem a capital, o estado de São Paulo não é homogêneo em saneamento. A análise revelou uma fratura estrutural que separa um grupo de municípios mais bem equipados de outro com deficiências. Essa descoberta, viabilizada pelo aprendizado não supervisionado, fornece uma base empírica para o planejamento de políticas que visem reduzir essas disparidades e avançar de forma equitativa na universalização do saneamento, um objetivo para o desenvolvimento sustentável e a justiça social. A metodologia provou ser uma ferramenta para transformar dados brutos em inteligência para a gestão pública.
A aplicação de Análise de Componentes Principais e clusterização via K-Means foi uma abordagem eficaz para identificar e caracterizar os padrões estruturais de saneamento básico entre os municípios de São Paulo. A metodologia sintetizou um vasto conjunto de variáveis, revelando uma segmentação que reflete as desigualdades regionais. A identificação e remoção da capital como outlier foram passos cruciais para uma análise mais acurada da realidade dos demais municípios, evidenciando dois grupos distintos: um com infraestrutura robusta e outro, majoritariamente de menor porte, com indicadores mais baixos. Esta diferenciação, atribuível a fatores como densidade urbana e capacidade de gestão, fornece um diagnóstico para subsidiar políticas públicas.
Este estudo contribui para a literatura ao demonstrar o potencial da ciência de dados como instrumento de análise no setor público. Agrupar municípios com perfis similares permite que gestores direcionem recursos e estratégias de maneira mais eficiente. Contudo, a análise possui limitações, como o uso de dados de um único ano (2022), o que impede uma análise longitudinal, e a ausência de variáveis qualitativas, como governança local. Futuras pesquisas poderiam superar essas limitações ao incorporar séries temporais e dados qualitativos, além de explorar metodologias híbridas. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de técnicas de clusterização é eficaz em revelar e quantificar as disparidades estruturais no saneamento básico, fornecendo uma base empírica robusta para o planejamento de políticas públicas focadas na universalização do acesso a este serviço essencial.
Referências:
Almeida, C. F. 2021. Aplicações de Machine Learning em Ciências Sociais: Uma Revisão Sistemática. Revista Brasileira de Métodos Quantitativos, 15(2), 45-62.
Botelho, L. F.; Lindoso, D. A. 2020. Parceria público-privada no saneamento básico: estudo de caso sob a perspectiva dos fatores críticos de sucesso. Trabalho de Conclusão de Curso de Bacharel em Engenharia Civil. Universidade Federal do Espírito Santo, Espírito Santo, ES, Brasil.
Brasil. 1988. Constituição da República Federativa do Brasil de 1988. Diário Oficial da União, Brasília, 05 out. 1988. Seção 1, p. 1.
FÁVERO, Luiz Paulo.; BELFIORE, Patrícia. 2017. Manual de Análise de Dados – Estatística e Modelagem Multivariada com Excel®, SPSS® e Stata®. 1ed. GEN LTC, Rio de Janeiro, RJ, Brasil.
Gomes, R. C.; Ferreira, M. A. 2018. Análise de Políticas Públicas no Brasil: Abordagens e Desafios. Editora Pública, Brasília, DF, Brasil.
Instituto Trata Brasil, 2024. Ranking do saneamento do Instituto Trata Brasil de 2024. Disponível em: <https://tratabrasil. org. br/wp-content/uploads/2024/04/Relatorio-Completo-Ranking-do-Saneamento-de-2024-TRATA-BRASIL-GO-ASSOCIADOS. pdf>. Acesso em: 15 de mar. 2025.
OLIVEIRA, José Ulisses Silva Macedo. 2022. Aplicação de algoritmos de clusterização em bases de dados de plataformas de streaming. Monografia de graduação em Engenharia de Software. Universidade Federal do Ceará, Russas, CE, Brasil.
PEIXOTO, André Luís Almeida; SALES, Camila Mendonça Romero; AHMED, Flávio Villela. 2021. Saneamento Básico: direito de todos? Uma breve análise. In: XIX Simpósio Nacional sobre Geografia e Saneamento, 2021, Campos dos Goytacazes, RJ, Brasil. Anais… p. 14–21.
PILATTI, Rodrigo. 2023. Segmentação comportamental de utilizadores de cartão de crédito utilizando o algoritmo de máquina não supervisionado K-Means. Trabalho de Conclusão de Curso (MBA em Inteligência Artificial e Big Data) – Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, SP, Brasil.
ROSSI, R. 2017. Análise de Componentes Principais: Teoria e Aplicação. Editora Acadêmica, São Paulo, SP, Brasil.
Silva, A. B. 2023. O novo cenário institucional do saneamento no Brasil e sua repercussão no estado da Bahia. Dissertação de Mestrado em Economia. Universidade Federal da Bahia, Salvador, BA, Brasil.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































