Imagem Avaliação da Composição da Água Subterrânea com Métodos Não Supervisionados

26 de fevereiro de 2026

Avaliação da Composição da Água Subterrânea com Métodos Não Supervisionados

Jonas Wagner Souza Oliveira; Patrícia Belfiore Fávero

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este estudo aplicou estatística multivariada, com ênfase na análise de agrupamento hierárquico (HCA) e na análise fatorial por componentes principais (PCA), para identificar grupos de amostras de água subterrânea com composições químicas semelhantes e compreender os fatores que condicionam suas variações. Os objetivos específicos foram: avaliar a aplicabilidade de PCA e HCA no monitoramento da qualidade de águas subterrâneas; agrupar amostras com composições químicas similares e analisar sua distribuição espacial; identificar os parâmetros mais influentes na caracterização química; e comparar os padrões observados com processos naturais ou antrópicos. A pesquisa se justifica pela crise hídrica nas metrópoles, que intensifica a busca por fontes de água e aumenta a perfuração de poços de bombeamento, elevando a relevância das águas subterrâneas.

A urgência da análise é evidenciada por dados da Unidade de Gerenciamento de Recursos Hídricos do Alto Tietê (UGRHI-6), que abrange a Região Metropolitana de São Paulo e possui o pior indicador de disponibilidade hídrica per capita do estado. Entre 2019 e 2022, as captações subterrâneas na bacia aumentaram 27%, um crescimento superior aos 18% das captações superficiais (CBH-AT, 2024). Com o uso intensivo das águas do subsolo, emergem preocupações sobre a qualidade do recurso. A Companhia Ambiental do Estado de São Paulo (CETESB), órgão responsável pelo monitoramento, reportou uma deterioração no índice de potabilidade das águas subterrâneas no estado de “Boa” para “Regular” entre 2022 e 2023 (CETESB, 2024), reforçando a necessidade de aprofundar o conhecimento sobre os processos que determinam sua composição.

Para o monitoramento, a CETESB opera uma rede de poços tubulares e nascentes. Este trabalho utilizou dados abertos da companhia, de campanhas realizadas entre 2018 e 2022 (CETESB, 2022). O conjunto de dados, com mais de 300 poços e 170 mil resultados analíticos para aproximadamente 100 parâmetros, viabiliza a identificação de fatores naturais e antrópicos que influenciam a composição química da água. A aplicação de estatística multivariada para essa finalidade é uma abordagem consolidada na literatura. Estudos anteriores demonstram sua eficácia: Cloutier et al. (2008) usaram HCA e PCA para interpretar processos geoquímicos em um aquífero no Canadá; Gomes e Cavalcante (2017) aplicaram as técnicas para identificar componentes de qualidade da água em Fortaleza; e, especificamente para a área de estudo, Kiang et al. (2016) empregaram análises multivariadas para identificar grupos hidroquímicos no Sistema Aquífero Bauru.

Seguindo essa linha, a pesquisa aprofunda a compreensão da hidroquímica de São Paulo, utilizando um conjunto de dados robusto para identificar grupos quimicamente similares e os fatores que governam suas variações. A análise espacial dos grupos, correlacionada com as unidades aquíferas, oferece subsídios para a gestão mais eficiente e sustentável dos recursos hídricos subterrâneos, permitindo o planejamento de ações de monitoramento, proteção e remediação.

O estudo é quantitativo, descritivo e exploratório, utilizando dados secundários da CETESB (2022) para analisar associações em larga escala. A água subterrânea, que satura os poros de solos e formações geológicas (aquíferos), é monitorada por poços (Freeze e Cherry, 2017; Grotzinger e Jordan, 2013). Foram utilizadas duas bases de dados da CETESB. A primeira, com resultados físico-químicos de 2018-2022, foi filtrada para o segundo semestre de 2022 (setembro-novembro) para garantir a representatividade de um único momento. Vinte parâmetros foram selecionados com base na relevância bibliográfica e completude dos dados (Cloutier et al., 2008; Gomes e Cavalcante, 2017). Valores faltantes de pH foram preenchidos e valores abaixo do limite de detecção foram substituídos pelo próprio limite. A base foi pivotada, resultando em um dataframe de 295 pontos de amostragem por 20 parâmetros. A segunda base continha informações descritivas dos pontos, como sistema aquífero e coordenadas geográficas, para análise espacial no software QGIS.

A análise descritiva revelou forte assimetria (≥1,0) para quase todos os parâmetros, exceto Potássio Total. Para mitigar o efeito de outliers, aplicou-se uma transformação logarítmica (log(x+1)) seguida de padronização pelo método z-score, garantindo que cada variável tivesse média zero e desvio padrão unitário. A análise de agrupamento hierárquico (HCA) foi executada para agrupar os 295 pontos em classes quimicamente homogêneas. O método de Ward com distância Euclidiana foi selecionado por gerar os clusters mais compactos e com maior separação, minimizando a variância interna de cada grupo (Oti e Olusola, 2024; Davis, 2002). A Análise Fatorial por Componentes Principais (PCA) foi usada para reduzir a dimensionalidade do conjunto de dados, com sua adequação confirmada pelo teste de esfericidade de Bartlett. A rotação ortogonal Varimax foi aplicada para melhorar a interpretabilidade dos fatores (Davis, 2002). A análise espacial foi conduzida no QGIS com o sistema de referência geodésico SIRGAS 2000 (EPSG:4674).

A aplicação do método de Ward na HCA, com um corte na distância euclidiana de 23,0, resultou na formação de cinco grupos: G1 (37 amostras), G2 (52), G3 (45), G4 (32) e G5 (129). O dendrograma mostrou alta similaridade entre G1 e G2 (bicarbonatados sódicos) e entre G4 e G5 (bicarbonatados cálcicos), com G3 sendo o mais distinto. O teste ANOVA (p-valor < 0,05) indicou que pH, Bário Total, Sódio Total, Dureza Total, Magnésio Total e Cálcio Total foram os parâmetros mais influentes na formação dos grupos, junto com o ânion bicarbonato (Alcalinidade Bicarbonato).

A caracterização química de cada grupo, baseada nas medianas, revelou perfis distintos. O grupo G1 é composto por águas bicarbonatadas sódicas com concentrações elevadas de Ferro e Manganês, além dos maiores teores de sulfato e fluoreto. O grupo G2 também é bicarbonatado sódico, mas se diferencia por valores de pH mais altos e concentrações de alumínio. O grupo G3 é caracterizado por águas bicarbonatadas cálcicas com baixas concentrações de íons principais e o menor valor de pH. O grupo G4, também bicarbonatado cálcico, destaca-se pelas maiores concentrações de cloreto, magnésio, nitrato, potássio e bário, além da maior dureza. O grupo G5, o mais comum, representa o tipo de água bicarbonatada cálcica com concentrações moderadas de íons, sendo o tipo hidroquímico predominante no estado.

A PCA identificou sete componentes principais que explicaram 72,9% da variabilidade total dos dados. O Componente 1 (C1), com 17,7% da variância, apresentou fortes correlações com Cálcio Total, Dureza Total e Magnésio Total, sendo interpretado como o “componente de dureza”. O Componente 2 (C2), explicando 13,2% da variância, associou-se a Sódio Total, pH e Alcalinidade Bicarbonato, sendo definido como o “componente de salinidade”. Juntos, C1 e C2 diferenciam as águas cálcicas (influenciadas por C1) das sódicas (influenciadas por C2). O Componente 4 (C4) mostrou altas cargas para Manganês e Ferro, representando um “componente redox”, crucial para a distinção do grupo G1. O Componente 5 (C5) correlacionou-se fortemente com Nitrato, Bário e Potássio, indicando influência de atividades antrópicas, especialmente na caracterização do grupo G4.

A integração dos resultados de HCA e PCA classificou G1 e G2 como bicarbonatadas sódicas, dominadas pelo componente de salinidade (C2), com G1 exibindo a anomalia redox (C4) de ferro e manganês. Os grupos G3, G4 e G5 foram classificados como bicarbonatados cálcicos, controlados pelo componente de dureza (C1). A análise espacial, validada por um teste qui-quadrado que confirmou uma associação significativa entre os clusters e os aquíferos (p-valor = 0,000), revelou padrões geográficos claros. O grupo G1, com suas anomalias de metais, concentrou-se predominantemente (64,9%) no aquífero Pré-Cambriano/Cristalino. A presença desses metais pode estar ligada à litologia local ou a problemas construtivos dos poços (Ezaki et al., 2014). O grupo G4 mostrou uma correlação espacial extremamente forte, com mais de 90% de suas amostras localizadas no Aquífero Bauru. A alta concentração de nitrato neste grupo (representada pelo C5) sugere contaminação por fontes antrópicas, como atividades agrícolas e saneamento deficiente, um achado preocupante já apontado por Kiang et al. (2016) para porções rasas deste aquífero.

O grupo G3, caracterizado por águas pouco mineralizadas e pH ácido, apresentou uma concentração significativa de amostras no Aquífero Guarani, características consistentes com águas de circulação rasa em áreas de recarga, com baixo tempo de residência e menor interação rocha-água (Bertolo et al., 2007). O grupo G2, bicarbonatado sódico, não se associou a um único aquífero, mas sua distribuição espacial correspondeu a áreas mapeadas de ocorrência desse tipo de água no estado (IPA-SP, 2005). Por fim, o grupo G5, o maior e mais difundido, foi identificado como o tipo hidroquímico mais comum no estado. Sua composição bicarbonatada cálcica, sob forte influência do componente de dureza (C1), representa a assinatura química de base para as águas subterrâneas da região. A dureza, embora não seja um risco à saúde, pode causar problemas de incrustação em tubulações (Ezaki et al., 2014).

A análise dos componentes de menor variância também forneceu insights. O Componente 3 (C3) agrupou Fluoreto, Nitrito e Sulfato, o Componente 6 (C6) destacou o Nitrogênio Amoniacal e o Componente 7 (C7) o Fósforo Total. Esses componentes, embora expliquem uma porção menor da variabilidade, são indicadores de processos químicos mais localizados, muitos de origem antrópica, demonstrando a capacidade da PCA para identificar contaminações pontuais.

Em síntese, a aplicação combinada de HCA e PCA sobre um robusto conjunto de dados permitiu uma caracterização aprofundada da qualidade da água subterrânea no estado de São Paulo, desvendando os principais processos geoquímicos e antrópicos que governam a composição dessas águas. A identificação de componentes de dureza, salinidade, redox e contaminação por nitrato, e sua correlação espacial com sistemas aquíferos específicos, fornece uma ferramenta para a gestão de recursos hídricos. Os resultados podem subsidiar a priorização de áreas críticas para monitoramento intensivo, como o Aquífero Bauru em relação ao nitrato e o Aquífero Cristalino em relação a ferro e manganês, além de orientar políticas de proteção e remediação.

A pesquisa demonstrou que as metodologias de Agrupamento Hierárquico e Análise por Componentes Principais foram aplicadas com sucesso, resultando na identificação de cinco agrupamentos quimicamente distintos: G1 (bicarbonatado sódico com anomalias de ferro e manganês), G2 (bicarbonatado sódico), G3 (bicarbonatado cálcico de caráter ácido e baixa mineralização), G4 (bicarbonatado cálcico com ocorrências de nitrato) e G5 (bicarbonatado cálcico, o tipo mais comum). As correlações espaciais entre esses grupos e as unidades aquíferas do estado foram estatisticamente significativas. A análise fatorial revelou sete componentes principais, com destaque para os componentes de dureza (C1) e salinidade (C2), que explicam a maior parte da variância, e os componentes redox (C4) e de contaminação antrópica (C5), que distinguem grupos com características específicas e de interesse para a gestão ambiental. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de métodos não supervisionados permitiu a identificação de cinco grupos hidroquímicos distintos e dos processos geoquímicos e antrópicos que governam a composição da água subterrânea no estado de São Paulo.

Referências:
Bertolo, R.; Hirata, R.; Fernandes, A. 2007. Hidrogeoquímica das águas minerais envasadas do Brasil. Revista Brasileira de Geociências 37 (3): 515–529.
Campos, H. 1993. Hidroquímica e qualidade das águas subterrâneas do Aquífero Bauru no Estado de São Paulo. Tese de Doutorado, Instituto de Geociências, Universidade de São Paulo, São Paulo.
Cloutier, V.; Lefebvre, R.; Therrien, R.; Savard, M. M. 2008. Multivariate statistical analysis of geochemical data as indicative of the hydrogeochemical evolution of groundwater in a sedimentary rock aquifer system. Journal of Hydrology 353: 294–313.
Comitê da Bacia Hidrográfica do Alto Tietê [CBH-AT]. 2024. Relatório de situação dos recursos hídricos 2024 – Bacia Hidrográfica do Alto Tietê UGRHI-06 – Ano Base 2023. Disponível em: https://comiteat. sp. gov. br/home/relatorio-de-situacao/.
Companhia Ambiental do Estado de São Paulo [CETESB]. 2022. Monitoramento da qualidade das Águas Subterrâneas – Dados de monitoramento da rede básica. Disponível em: https://cetesb. sp. gov. br/catalogo-de-dados-abertos/.
Companhia Ambiental do Estado de São Paulo [CETESB]. 2024. Qualidade das águas subterrâneas no estado de São Paulo – Boletim 2023. Disponível em: https://cetesb. sp. gov. br/aguas-subterraneas/publicacoes-e-relatorios/.
Companhia Ambiental do Estado de São Paulo [CETESB]. SEM DATA. Hidrogeologia – Noções e Definições em Hidrogeologia. Disponível em: https://cetesb. sp. gov. br/aguas-subterraneas/hidrogeologia/.
Davis, J. C. 2002. Statistics and Data Analysis in Geology. 3. ed. John Wiley & Sons Inc., Nova Iorque, Nova Iorque, Estados Unidos.
Ezaki, S.; Oda, G. H.; Iritani, M. A.; Veiga, C.; Stradioto, M. R. 2014. Hidroquímica dos aquíferos Tubarão e Cristalino na região de Indaiatuba-Rafard, Estado de São Paulo. Pesquisas em Geociências 41 (1): 65–79.
Freeze, R. A.; Cherry, J. A. 2017. Águas Subterrâneas. Instituto Água Sustentável, São Paulo, Brasil.
Gomes, M. da C. R.; Cavalcante, I. N. 2017. Aplicação da análise estatística multivariada no estudo da qualidade da água subterrânea. Água Subterrânea 31(1): 134–149.
Grotzinger, J.; Jordan, T. 2013. Para Entender a Terra. 6. ed. Bookman, Porto Alegre, Brasil.
Instituto de Pesquisas Ambientais [IPA-SP]. 2005. Mapa de Águas Subterrâneas do Estado de São Paulo – Escala 1:1.000.000. Disponível em: https://www. infraestruturameioambiente. sp. gov. br/institutogeologico/2012/03/mapa-de-aguas-subterraneas-do-estado-de-sao-paulo-escala-11-000-000/.
Kiang, H. K.; Stradioto, M. R.; Silva, F. P. 2016. Tipos hidroquímicos do Sistema Aquífero Bauru no estado de São Paulo. Águas Subterrâneas 30(2): 224–245.
Manly, B. F. J.; Alberto, J. A. N. 2016. Multivariate statistical methods. 4. ed. Chapman e Hall, Londres, Reino Unido.
Oti, E. U.; Olusola, M. O. 2024. Overview of agglomerative hierarchical clustering methods. British Journal of Computer, Networking and Information Technology 2: 14–23.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade