
26 de fevereiro de 2026
Predição de Estoques de Carbono no Solo com Machine Learning em Diferentes Usos
Juan Andrés de Domini; Gabrielle Maria Romeiro Lombardi
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A crescente preocupação com as mudanças climáticas, impulsionada pelas emissões de gases de efeito estufa (GEE) de origem antrópica (Mahato, 2014), tem intensificado as pesquisas sobre o ciclo global do carbono. A agricultura e o desmatamento, associados à mudança no uso da terra, são vetores significativos dessas emissões, gerando impactos socioeconômicos e ambientais que demandam ações baseadas em evidências científicas para identificar vias de mitigação (Feller e Bernoux, 2008; Lal, 2008). Solos tropicais são particularmente importantes, armazenando aproximadamente 40% do carbono orgânico do solo global (Jobbágy e Jackson, 2000). A dinâmica do uso da terra interfere diretamente no ciclo do carbono, podendo transformar sumidouros em fontes de emissão (Ojima, 2013).
A conversão de ecossistemas nativos para agricultura e pastagem altera a dinâmica da matéria orgânica do solo, impactando os estoques de carbono (Davidson et al., 2004; Don et al., 2011) e a biodiversidade (Strassburg et al., 2010). No Brasil, a expansão da fronteira agrícola nos biomas Amazônia e Cerrado (Leite et al., 2012) é um dos principais fatores de emissão de carbono do país (MCT, 2010). Com vastas áreas de agricultura (688.900 km²) e pastagem (1.132.213 km²) (IBGE, 2020), o Brasil tem grande potencial tanto para emitir quanto para sequestrar carbono. Práticas de manejo sustentáveis e a conservação de áreas naturais são estratégias essenciais para potencializar o sequestro de carbono e mitigar os efeitos dos GEE (Oliveira et al., 2022).
Programas como o Plano ABC+ (MAPA, 2023) incentivam práticas agrícolas sustentáveis, mas persistem incertezas sobre a dinâmica do estoque de carbono sob diferentes manejos, com estudos apresentando resultados conflitantes (Carvalho et al., 2010; Maia et al., 2009). Trabalhos recentes demonstram o potencial de algoritmos como o Random Forest para a predição de carbono orgânico do solo (Mundada et al., 2024). Este estudo aplica e compara modelos de machine learning para gerar conhecimento mais preciso sobre o estoque de carbono em sistemas de uso do solo cruciais para o Brasil, contribuindo para a construção de um sistema de monitoramento mais eficiente e de baixo custo. A metodologia baseou-se na extração e integração de dados de múltiplas fontes geoespaciais. Os dados de estoque de carbono orgânico do solo foram obtidos do MapBiomas Solos, e as informações de uso e ocupação da terra (floresta, pastagem e soja) da coleção MapBiomas Cobertura e Uso.
Dados climáticos (precipitação e temperatura) foram adquiridos da base ERA5-Land, e a textura do solo do OpenLandMap. A extração foi automatizada no Google Earth Engine com Java. Devido à heterogeneidade nas resoluções espaciais, foi implementada uma abordagem amostral, iniciando com a extração de valores de raster de estoque de carbono para 15.000 coordenadas geográficas aleatórias. A seleção dessas variáveis preditoras foi fundamentada em seu reconhecido papel nos processos biogeoquímicos do solo. As variáveis climáticas, como temperatura e precipitação, governam as taxas de decomposição da matéria orgânica e a produtividade primária líquida. A textura do solo, por sua vez, influencia a proteção física do carbono contra a decomposição microbiana, com solos argilosos geralmente apresentando maior capacidade de estabilização.
Para garantir a estabilidade temporal do uso do solo, a coleção MapBiomas foi usada para avaliar a consistência do uso da terra nas 15.000 coordenadas iniciais. Foram selecionadas aleatoriamente 200 áreas para cada tratamento (floresta, pastagem e soja) que mantiveram seu uso estável durante o período analisado.
A análise foi delimitada às regiões Norte e Centro-Oeste do Brasil, por representarem fronteiras de expansão agrícola. O conjunto de dados final totalizou 9.800 pontos amostrais. Os dados foram organizados em formato tabular, com a variável resposta (carbon_stock) e as preditoras (clima, textura, uso do solo, ano, coordenadas). Antes da modelagem, foi realizada uma etapa de pré-processamento dos dados, que incluiu a verificação de valores ausentes e a análise exploratória para identificar outliers ou inconsistências. Nenhuma imputação de dados foi necessária, pois o processo de amostragem garantiu a completude do dataset. As variáveis categóricas, como uso do solo e textura, foram codificadas como fatores para serem corretamente interpretadas pelos algoritmos. Foram empregados os algoritmos de aprendizado de máquina supervisionado Random Forest (RF) e Gradient Boosting Machine (GBM), escolhidos por sua robustez em problemas de regressão com dados ambientais complexos e não lineares (Breiman, 2001; Friedman, 2001).
O RF opera construindo um grande número de árvores de decisão durante o treinamento e produzindo a média das predições de cada árvore, o que o torna resistente a overfitting. Sua capacidade de lidar com um grande número de variáveis preditoras e sua robustez a ruídos nos dados o tornam particularmente adequado para modelagem geoespacial. O GBM, por sua vez, é um algoritmo de boosting que constrói modelos de forma sequencial; cada novo modelo corrige os erros do anterior. Essa abordagem iterativa permite que o GBM alcance alta precisão, embora possa ser mais sensível ao ajuste de hiperparâmetros. O conjunto de dados foi particionado em 70% para treinamento e 30% para teste, utilizando uma amostragem estratificada pelo uso do solo para garantir a representatividade de todas as classes em ambos os subconjuntos.
O modelo RF foi configurado com 500 árvores (ntree = 500) e cálculo da importância das variáveis (importance = TRUE). Os hiperparâmetros do GBM foram otimizados por validação cruzada de 5 folds para minimizar o erro de predição, ajustando parâmetros como o número de árvores, a profundidade de interação e a taxa de aprendizado. O desempenho dos modelos foi avaliado com as métricas Erro Quadrático Médio (RMSE), Erro Absoluto Médio (MAE), Coeficiente de Determinação (R²) e Coeficiente de Correlação de Concordância (CCC). A escolha dessas métricas buscou uma avaliação multidimensional da performance. O RMSE e o MAE quantificam a magnitude média dos erros de predição, com o RMSE penalizando mais fortemente os erros maiores. O R² indica a proporção da variância na variável dependente que é previsível a partir das variáveis independentes, medindo o ajuste do modelo.
O CCC, por sua vez, avalia o grau em que os pares de observações (preditas e reais) se desviam da linha de identidade (1:1), medindo tanto a precisão quanto a acurácia. As análises foram conduzidas no ambiente R (R Core Team, 2023), utilizando os pacotes randomForest (Liaw e Wiener, 2002), gbm (Boehmke e Metcalfe, 2024), caret (Kuhn, 2008) para particionamento e avaliação, e pdp (Greenwell, 2024) para interpretação.
A análise comparativa revelou que o algoritmo Random Forest (RF) apresentou desempenho consistentemente superior ao Gradient Boosting Machine (GBM). A avaliação quantitativa no conjunto de teste confirmou essa superioridade. O modelo RF obteve um Erro Absoluto Médio (MAE) de 4.20 e uma Raiz do Erro Quadrático Médio (RMSE) de 5.80, valores inferiores aos do GBM (MAE de 4.34 e RMSE de 5.97). A diferença mais notável foi no Coeficiente de Determinação (R²), com o RF alcançando 0.36 contra 0.32 do GBM. Um teste t pareado com correção de Bonferroni confirmou que as diferenças em todas as métricas eram estatisticamente significativas (p < 0.01). Embora o RF tenha se mostrado superior, é importante notar que os valores de R² (0.36 e 0.32) são modestos.
Isso indica que, apesar de os modelos capturarem uma parte significativa da variabilidade do COS, uma porção substancial (mais de 60%) permanece não explicada pelas variáveis preditoras utilizadas. O Coeficiente de Correlação de Concordância (CCC) reforçou a vantagem do RF, que alcançou 0.52 contra 0.49 do GBM, indicando maior alinhamento com a linha de predição perfeita.
A análise gráfica dos resíduos de ambos os modelos não revelou padrões sistemáticos, como tendências ou afunilamentos, com os pontos distribuídos de forma relativamente homogênea em torno da linha de resíduo zero. Isso sugere que os modelos são equilibrados e não apresentam viés sistemático de superestimação ou subestimação em faixas específicas de valores de COS. A ausência de heterocedasticidade nos resíduos fortalece a confiança na validade das predições, indicando que a magnitude do erro não depende do valor do estoque de carbono predito.
A análise da importância das variáveis preditoras mostrou que, em ambos os modelos, as variáveis climáticas foram as mais influentes. Temperatura e pluviosidade foram, respectivamente, os preditores de maior importância, destacando o papel do clima na regulação dos processos biogeoquímicos, o que é consistente com a literatura (Yang et al., 2016; Martin et al., 2011). A terceira variável mais importante foi o uso do solo, especificamente a categoria de pastagem, indicando seu impacto significativo nos estoques de COS. A forte influência das variáveis climáticas sugere que as macrotendências de temperatura e precipitação são os principais motores da dinâmica do carbono em escala regional, modulando tanto a entrada de matéria orgânica via fotossíntese quanto sua saída via decomposição. No modelo RF, a textura do solo, com destaque para a classe “argila-arenosa”, também se mostrou influente, sugerindo que o RF capturou de forma mais eficaz o efeito da composição física do solo.
A capacidade de modelos como RF e GBM de lidar com relações não lineares e interações complexas é uma de suas principais vantagens para modelar sistemas ambientais (Breiman, 2001; Friedman e Meulman, 2003). A identificação desses fatores-chave confirma a validade ecológica dos modelos. A maior importância da textura no modelo RF pode indicar que este algoritmo foi mais hábil em desvendar as interações entre a composição mineral do solo e outros fatores, como o clima, para determinar a capacidade de estabilização do carbono. Solos com maior teor de argila, por exemplo, podem proteger a matéria orgânica da decomposição, um efeito que pode ser mais pronunciado sob certas condições de umidade e temperatura.
Uma análise contrafactual para isolar o efeito do uso do solo, avaliada por ANOVA e teste de Tukey, revelou que as áreas de soja apresentaram a maior média de estoque de carbono predito (43.87 t/ha no RF e 44.06 t/ha no GBM), valor estatisticamente superior ao de floresta e pastagem. As áreas de floresta tiveram um estoque intermediário (43.46 t/ha no RF), e as de pastagem os menores valores (40.06 t/ha no RF). A diferença entre floresta e pastagem foi significativa apenas no modelo RF. Este achado sugere que, no período analisado, sistemas de produção de soja, possivelmente sob plantio direto, podem manter ou aumentar os estoques de carbono em comparação com outros usos. No entanto, a análise de tendências temporais até 2050 adicionou complexidade.
O modelo RF projetou dinâmicas distintas: áreas de floresta exibiram leve tendência de aumento, indicando acúmulo estável; áreas de soja mostraram tendência de queda a longo prazo; e pastagens mantiveram-se em patamar inferior. Em contraste, o GBM projetou estabilidade relativa para os três usos. A divergência, especialmente a tendência de declínio para a soja no modelo RF (o mais acurado), questiona a sustentabilidade desse acúmulo a longo prazo em comparação com a estabilidade dos ecossistemas florestais. Esta projeção sugere que o carbono acumulado em sistemas agrícolas pode estar em frações mais lábeis e suscetíveis à decomposição, enquanto o carbono em florestas nativas está estabilizado em frações mais recalcitrantes. Essa dualidade destaca a importância da dimensão temporal.
O estoque de carbono em sistemas agrícolas pode ser influenciado por práticas de manejo recentes, mas a permanência desse carbono pode ser menor do que em ecossistemas nativos; está estabilizado em frações mais recalcitrantes (Post et al., 1982), o que garante sua maior longevidade no ecossistema. A projeção de declínio para a soja pode indicar uma saturação do acúmulo de carbono nas camadas superficiais ou uma eventual perda devido à intensificação do cultivo e às mudanças climáticas futuras. A estabilidade projetada para as florestas reforça seu papel insubstituível como reservatórios de carbono seguros e de longo prazo. Os resultados, portanto, fornecem uma ferramenta preditiva valiosa e destacam a superioridade do Random Forest para modelar a complexa dinâmica do carbono no solo, oferecendo insights cruciais para o planejamento do uso da terra e para políticas de mitigação climática.
Conclui-se que o objetivo foi atingido.
Referências:
Bonini, I. 2019. Collapse of ecosystem carbon stocks due to forest conversion to soybean plantations at the Amazon-Cerrado transition. Science of the Total Environment 689: 921-934.
Breiman, L. 2001. Random forests. Machine Learning 45: 5-32.
Carvalho, J. L. M. 2010. Impact of pasture, agriculture and crop-livestock systems on soil C stocks in Brazil. Soil & Tillage Research 110: 175-186.
Davidson, E. A. 2004. Loss of nutrients from terrestrial ecosystems to streams and the atmosphere following land use change in Amazonia. In: Defries, R. (Ed.). Ecosystem and Land Use Change. Washington: American Geophysical Union. p. 147-158.
Don, A. 2011. Impact of tropical land-use change on soil organic carbon stocks – a meta-analysis. Global Change Biology 17(4): 1658-1670.
Elith, J.; Leathwick, J. R.; Hastie, T. 2008. A working guide to boosted regression trees. Journal of Animal Ecology 77: 802-813.
Feller, C.; Bernoux, M. 2008. Historical advances in the study of global terrestrial soil organic carbon sequestration. Waste Management 28: 734-740.
Friedman, J. H. 2001. Greedy function approximation: a gradient boosting machine. The Annals of Statistics 29: 1189-1232.
Friedman, J. H. 2002. Stochastic gradient boosting. Computational Statistics & Data Analysis 38: 367-378.
Friedman, J. H.; Meulman, J. J. 2003. Multiple additive regression trees with application in epidemiology. Statistics in Medicine 22: 1365-1381.
Grimm, R.; Behrens, T.; Märker, M.; Elsenbeer, H. 2008. Soil organic carbon concentrations and stocks on Barro Colorado Island – digital soil mapping using Random Forests analysis. Geoderma 146: 102-113.
Henderson, B. L.; Bui, E. N.; Moran, C. J.; Simon, D. A. P. 2005. Australia-wide predictions of soil properties using decision trees. Geoderma 124: 383-398.
Instituto Brasileiro de Geografia e Estatística (IBGE). 2020. Monitoramento da cobertura e uso da terra do Brasil. Disponível em: https://www. ibge. gov. br/apps/monitoramentocoberturausodaterra/v1/.
Jobbágy, E. G.; Jackson, R. B. 2000. The vertical distribution of soil organic carbon and its relation to climate and vegetation. Ecological Applications 10: 423-436.
Lal, R. 2008. Carbon sequestration. Philosophical Transactions of the Royal Society 363: 815-830.
Leite, C. C.; Costa, M. H.; Soares-Filho, B. S.; Hissa, L. B. V. 2012. Historical land use change and associated carbon emissions in Brazil from 1940 to 1995. Global Biogeochemical Cycles 26: 1-13.
Mahato, A. 2014. Climate change and its impact on agriculture. International Journal of Scientific Research Publications 4: 1-6.
Maia, S. M. F.; Ogle, S. M.; Cerri, C. E. P.; Cerri, C. C. 2009. Effect of grassland management on soil carbon sequestration in Rondônia and Mato Grosso states, Brazil. Geoderma 149: 84-91.
Ministério da Agricultura, Pecuária e Abastecimento (MAPA). 2024. Plano ABC+ – Metas do ABC. Disponível em: https://www. gov. br/agricultura/pt-br/assuntos/sustentabilidade/planoabc-abcmais/abc/metas-do-abc.
Ministério da Ciência e Tecnologia (MCT). 2010. Inventário Brasileiro de Emissões Antrópicas por Fontes e Remoções por Sumidouros de Gases de Efeito Estufa não Controlados pelo Protocolo de Montreal – Parte 2.
Martin, M. P.; Wattenbach, M.; Smith, P.; Meersmans, J.; Jolivet, C.; Boulonne, L.; Arrouays, D. 2011. Spatial distribution of soil organic carbon stocks in France. Biogeosciences 8: 1053-1065.
Mundada, S.; Jain, P.; Kumar, N. 2024. Prediction of soil organic carbon using machine learning techniques and geospatial data for sustainable agriculture. [Periódico não informado] : 1-14.
Ojima, D. 2013. Ecosystem sustainability through strategies of integrated carbon and land-use management. In: Brown, D. G. (Ed.). Advances in Integrated Science. Cambridge: Cambridge University Press. p. 523-538.
Oliveira, C.; Maia, F.; Pellegrino, R. C. A. 2022. Changes in soil carbon and soil carbon sequestration potential under different types of pasture management in Brazil. Agriculture, Ecosystems & Environment.
Post, W. M.; Emanuel, W. R.; Zinke, P. J.; Stangenberger, A. G. 1982. Soil carbon pools and world life zones. Nature 298: 156-159.
R Core Team. 2025. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria.
RStudio Team. 2025. RStudio: Integrated Development Environment for R. RStudio, PBC, Boston, MA.
Strassburg, B. B. N. 2010. Global congruence of carbon storage and biodiversity in terrestrial ecosystems. Conservation Letters 3: 98-105.
Yang, R. M.; Zhang
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































