Imagem Previsão de safras de cana-de-açúcar com técnicas de aprendizado de máquina

26 de fevereiro de 2026

Previsão de safras de cana-de-açúcar com técnicas de aprendizado de máquina

Gabriel Pereira Lorenzato; Luana Maria Benicio

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo deste trabalho foi desenvolver e avaliar modelos de aprendizado de máquina aplicados a séries temporais para prever a produção anual de cana-de-açúcar em municípios paulistas, integrando dados históricos de produção e variáveis climáticas. A pesquisa buscou oferecer uma ferramenta preditiva robusta para auxiliar no planejamento estratégico do setor sucroenergético brasileiro, que enfrenta desafios associados à variabilidade climática. A abordagem proposta visa superar as limitações de métodos tradicionais, que não capturam a complexidade e a não linearidade das interações entre fatores agronômicos e ambientais, ao integrar a autocorrelação temporal da produção com múltiplos indicadores climáticos por meio de algoritmos avançados.

A cana-de-açúcar é uma cultura estratégica para o Brasil, maior produtor e exportador mundial de açúcar e etanol (CONAB, 2022). O Estado de São Paulo é o principal produtor nacional. O etanol derivado da cana é um componente vital da matriz energética brasileira, contribuindo para a redução da dependência de combustíveis fósseis e a mitigação de emissões de gases de efeito estufa. A cadeia produtiva da cana-de-açúcar também é uma grande fonte de empregos, fomentando o desenvolvimento socioeconômico em diversas regiões produtoras (Marin et al., 2020).

Apesar de sua robustez, o setor sucroenergético enfrenta desafios crescentes devido à instabilidade climática. Eventos extremos como secas, chuvas intensas e ondas de calor impactam o ciclo produtivo da cana-de-açúcar, afetando o desenvolvimento da planta e reduzindo a produtividade agrícola (Oliveira et al., 2022). Essa instabilidade eleva o risco econômico para a cadeia produtiva, sendo um fator determinante para perdas financeiras e para a redução da segurança energética (Adger, 2006). No Brasil, os impactos se manifestam em safras irregulares e oscilações de produção, dificultando o planejamento de produtores e usinas (Agrofy News, 2024).

A relação entre clima e produtividade é complexa. A produtividade da cana-de-açúcar depende crucialmente da distribuição temporal de eventos climáticos, não apenas de volumes anuais. Por exemplo, estiagens em fases críticas do desenvolvimento da cultura podem comprometer os rendimentos, mesmo com precipitação anual adequada (Monteiro e Sentelhas, 2017). Essa dinâmica, com interações não lineares, expõe as limitações de métodos tradicionais de previsão, como modelos estatísticos lineares ou ARIMA, que não capturam adequadamente a natureza do sistema (Friedman, 2009).

Nesse cenário, o aprendizado de máquina (Machine Learning) surge como uma alternativa promissora para identificar padrões complexos em grandes volumes de dados. Algoritmos como Random Forest demonstraram robustez contra sobreajuste (Breiman, 2001), enquanto modelos baseados em gradient boosting, como XGBoost (Chen e Guestrin, 2016) e LightGBM (Ke et al., 2017), alcançaram resultados de ponta com otimizações de treinamento e eficiência computacional. A aplicação desses métodos tem se mostrado eficaz para prever a produtividade de culturas em cenários de mudanças climáticas (Gharakhanlou e Pérez, 2024), com revisões confirmando sua utilidade para a cana-de-açúcar no Brasil (Cardoso et al., 2025). O diferencial deste estudo reside na integração de variáveis históricas de produção e clima em uma abordagem preditiva com o LightGBM, preenchendo uma lacuna ao aplicar técnicas modernas para gerar estimativas confiáveis para os agentes da cadeia produtiva (Fávero e Belfiore, 2023).

A metodologia adotada foi quantitativa, aplicada e descritiva. Os dados primários foram coletados de duas fontes oficiais: as séries históricas mensais de variáveis climáticas (precipitação, pressão atmosférica, temperatura média e vento) do Banco de Dados Meteorológicos para Ensino e Pesquisa (BDMEP) do INMET, e as séries históricas anuais de produção de cana-de-açúcar para os municípios paulistas do Sistema IBGE de Recuperação Automática (SIDRA). O período de análise foi delimitado entre 2013 e 2023 para garantir a consistência temporal entre as fontes.

O pré-processamento dos dados incluiu a padronização dos nomes dos municípios para permitir a integração das bases. As séries mensais de variáveis climáticas foram agregadas em escala anual para cada município, calculando-se medidas como soma, média, desvio-padrão, mínimos e máximos. Foi criada a variável diasprecipitacaosum para contabilizar o número de dias com chuva por ano, refletindo a distribuição temporal da precipitação (Monteiro & Sentelhas, 2017). Crucialmente, foi criada a variável defasada producaolag1, representando a produção do ano anterior, para capturar a autocorrelação temporal (Fávero & Belfiore, 2023). Valores ausentes foram removidos, e outliers foram tratados pelo método do intervalo interquartil (IQR). Por fim, as variáveis numéricas foram escalonadas para o intervalo [0,1] utilizando a técnica MinMaxScaler, procedimento recomendado para algoritmos baseados em gradient boosting (Pedregosa et al., 2011).

Após o pré-processamento, uma análise exploratória de dados (EDA) foi conduzida para compreender o comportamento das variáveis, conforme defendido por Tukey (1977). Foram calculadas estatísticas descritivas e construídos gráficos como histogramas, séries temporais e boxplots para analisar a distribuição e a evolução da produção, além de gráficos de dispersão para investigar as relações entre as variáveis climáticas e a produção. Para a modelagem preditiva, foram selecionados três algoritmos: Random Forest (Breiman, 2001), XGBoost (Chen e Guestrin, 2016) e LightGBM (Ke et al., 2017). Os dados foram divididos em conjuntos de treinamento (2013-2018) e teste (2019-2023), seguindo uma abordagem temporal para evitar o vazamento de informações futuras, simulando um cenário de previsão real (Bergmeir e Benítez, 2012; Hyndman & Athanasopoulos, 2021).

Os hiperparâmetros dos modelos foram ajustados por meio de uma estratégia de regularização manual para controlar o overfitting. Para os algoritmos de gradient boosting, a taxa de aprendizado foi fixada em 0.05, com subamostragem de 0.8 e profundidade máxima das árvores limitada a 5. Para o Random Forest, a profundidade máxima foi limitada a 10. No LightGBM, foi empregada a técnica de parada antecipada (early stopping), que interrompe o treinamento quando o erro de validação para de melhorar por 50 iterações, selecionando o modelo com melhor generalização (Friedman, 2001). O ajuste de modelos é crucial para garantir que os resultados sejam generalizáveis, evitando sobreajuste ou subajuste (Hastie, Tibshirani e Friedman, 2009). A avaliação final foi realizada com base no Coeficiente de Determinação (R²) e na Raiz do Erro Quadrático Médio (RMSE).

A análise exploratória revelou uma acentuada assimetria positiva na distribuição da produção anual, com alta concentração de municípios produzindo até 1.000.000 de toneladas e uma cauda longa indicando poucos municípios com produção excepcionalmente alta. As estatísticas descritivas confirmaram essa heterogeneidade, com produção variando de zero a mais de 6,6 milhões de toneladas e um desvio-padrão de aproximadamente 1,5 milhão de toneladas. A evolução temporal da produção entre 2013 e 2023 mostrou flutuações significativas, com picos em 2016 e quedas em 2018, sugerindo a influência de fatores climáticos e conjunturais.

A análise das relações entre variáveis climáticas e produção mostrou que a temperatura média anual apresentou uma relação positiva moderada com a produção, o que é consistente com o metabolismo C4 da cana-de-açúcar, que se desenvolve em climas quentes (Marin et al., 2020). Por outro lado, a relação entre a precipitação total anual e a produção mostrou um padrão menos definido, sugerindo que a distribuição das chuvas ao longo do ciclo da cultura é mais determinante que o volume total, corroborando estudos anteriores (Monteiro & Sentelhas, 2017).

Na modelagem preditiva, o Random Forest apresentou o desempenho mais modesto no conjunto de teste, com um R² de 0,782. O XGBoost obteve um resultado superior, com um R² de 0,910. O LightGBM superou ambos, alcançando um R² de 0,943 no conjunto de teste, explicando aproximadamente 94% da variabilidade da produção de cana-de-açúcar para dados não vistos.

A superioridade do LightGBM foi confirmada pela análise do erro, apresentando o menor RMSE no conjunto de teste (2138,33). A análise do overfitting também favoreceu o LightGBM, com uma diferença entre o R² de treino e o R² de teste de apenas 0,056, a menor entre os modelos, sinalizando baixo risco de sobreajuste. Essa performance pode ser atribuída às inovações do algoritmo, como o crescimento das árvores por folha (leaf-wise) e técnicas como Gradient-based One-Side Sampling (GOSS) e Exclusive Feature Bundling (EFB), que otimizam o treinamento e a generalização (Ke et al., 2017).

A análise de importância das variáveis do modelo LightGBM revelou que a variável defasada producaolag1 foi a mais importante para a previsão, confirmando a forte autocorrelação temporal em séries agrícolas; a safra anterior influencia o desempenho da safra subsequente (Fávero & Belfiore, 2023). As variáveis climáticas também contribuíram, com a temperatura média se destacando entre elas.

Os achados convergem com pesquisas que apontam a superioridade dos métodos de ensemble baseados em gradient boosting na previsão de safras. Enquanto Breiman (2001) destacou a robustez do Random Forest e Chen e Guestrin (2016) a eficiência do XGBoost, os resultados reforçam a capacidade do LightGBM de entregar alta acurácia com menor risco de overfitting, padrão observado em outros contextos de previsão agrícola (Gharakhanlou e Pérez, 2024). Uma divergência em relação a alguns trabalhos (Oliveira et al., 2022) foi o papel secundário da precipitação acumulada, o que pode ser explicado pelo recorte geográfico do estudo em São Paulo; o manejo agrícola avançado pode mitigar parcialmente os impactos de variações no volume total de chuvas. O modelo final, baseado no LightGBM, apresentou desempenho robusto e validou o potencial dos modelos de aprendizado de máquina para o planejamento estratégico do setor sucroenergético.

A análise confirmou que os modelos de aprendizado de máquina foram eficazes para a previsão da produção de cana-de-açúcar. O algoritmo LightGBM apresentou o melhor desempenho, com R² de aproximadamente 0,94 e o menor erro. A variável defasada da produção (producaolag1) foi o principal preditor, seguida pela temperatura média anual. A precipitação total não apresentou uma relação clara, sugerindo que sua distribuição temporal é mais determinante. Este trabalho demonstrou que técnicas como o LightGBM podem capturar padrões complexos em sistemas agrícolas e fornecer uma ferramenta preditiva robusta para apoiar decisões de planejamento, logística e comercialização.

Apesar dos resultados, o estudo apresentou limitações, como o período temporal analisado (2013–2023), que pode não capturar ciclos climáticos de longo prazo, e a ausência de variáveis de manejo agrícola (tipo de solo, variedade, insumos). Recomenda-se que trabalhos futuros explorem séries históricas mais longas, incluam variáveis de manejo e utilizem métricas mais sofisticadas para a distribuição da precipitação. A aplicação de modelos híbridos e a extensão da metodologia para outras culturas também são linhas promissoras de pesquisa. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de técnicas de aprendizado de máquina, com destaque para o LightGBM, é eficaz para prever a produção anual de cana-de-açúcar em municípios paulistas, integrando dados históricos de produção e variáveis climáticas.

Referências:
ADGER, N. W. Vulnerability. Global Environmental Change, v. 16, n. 3, p. 268-281, 2006.
Agrofy News. (2024, agosto 28). XP projeta cenário trágico no agro brasileiro por mudanças climáticas. Agrofy News. https://news. agrofy. com. br/noticia/205365/xp-projeta-cenario-tragico-no-agro-brasileiro-mudancas-climaticas
BERGMEIR, C.; BENÍTEZ, J. M. On the use of cross-validation for time series predictor evaluation. Information Sciences, v. 191, p. 192-213, 2012.
Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32.
CARDOSO, L. A. S.; MESQUITA, B. D. R.; FARIAS, P. R. S. Use of machine learning algorithms in the context of sugarcane in Brazil: a review. Iran Journal of Computer Science, 2025. DOI: 10.1007/s42044-025-00250-y.
CHAI, T.; DRAXLER, R. R. Root mean square error (RMSE ) or mean absolute error (MAE)? Arguments against avoiding RMSE in the literature. Geoscientific Model Development, v. 7, n. 3, p. 1247-1250, 2014.
Chen, T., & Guestrin, C. (2016). XGBoost: A scalable tree boosting system. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 785–794). ACM.
Companhia Nacional de Abastecimento. (2022). Acompanhamento da safra brasileira: Cana-de-açúcar, primeiro levantamento – Safra 2022/23. CONAB. https://www. conab. gov. br/info-agro/safras/cana
Fávero, L. P., & Belfiore, P. (2023). Manual de análise de dados: Estatística e machine learning com Excel, SPSS, Stata, R e Python (1ª ed.). LTC.
FRIEDMAN, J. H. Greedy function approximation: a gradient boosting machine. Annals of Statistics, v. 29, n. 5, p. 1189-1232, 2001.
GHARAKHANLOU, N. M.; PÉREZ, L. From data to harvest: Leveraging ensemble machine learning for enhanced crop yield predictions across Canada amidst climate change. Science of the Total Environment, v. 951, art. 175764, 2024.
HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2. ed. Berlin: Springer, 2009.
HYNDMAN, R. J.; ATHANASOPOULOS, G. Forecasting: Principles and Practice. 3. ed. Melbourne: OTexts, 2021.
Instituto Nacional de Meteorologia. (n. d.). Banco de dados meteorológicos para ensino e pesquisa. INMET. https://bdmep. inmet. gov. br/
Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., … & Liu, T.-Y. (2017). LightGBM: A highly efficient gradient boosting decision tree. In Advances in Neural Information Processing Systems, 30, 3146–3154.
MAHESH, P.; SOUNDRAPANDIYAN, R. Yield prediction for crops by gradientbased algorithms. PLoS ONE, v. 19, n. 8: e0291928, 2024.
MARIN, F. R. et al. Sugarcane model intercomparison: Structural differences and uncertainties under current and potential climates. Environmental Modelling & Software, v. 122, p. 104553, 2020.
MONTEIRO, L. A.; SENTELHAS, P. C. Potential and actual sugarcane yields in southern Brazil as a function of climate conditions and crop management. Sugar Tech, v. 19, n. 3, p. 264-276, 2017.
OLIVEIRA, S. F.; PRADO, R. B.; MONTEIRO, J. M. G. Impactos das mudanças climáticas na produção agrícola e medidas de adaptação sob a percepção de atores e produtores rurais de Nova Friburgo, RJ. Interações (Campo Grande), v. 23, n. 4, p. 1179-1201, out./dez. 2022.
PEDREGOSA, F. et al. Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, v. 12, p. 2825-2830, 2011.
Sistema IBGE de Recuperação Automática. (n. d.). Produção agrícola paulista – Cana-de-açúcar. SIDRA. https://sidra. ibge. gov. br/pesquisa/pam/tabelas


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade