
20 de fevereiro de 2026
Modelagem preditiva da eficiência da caustificação com machine learning
Thiago Luiz Pasqualinoto; Ana Julia Righetto
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A caustificação é central no ciclo de recuperação química de uma fábrica de celulose, convertendo licor verde em licor branco, insumo para o cozimento da madeira (Adams, 1997). Segundo Marinho (2021), no “slaker” ocorrem aproximadamente 70% das reações. O controle da eficiência da caustificação, que mede a conversão de carbonato de sódio (Na2CO3) em hidróxido de sódio (NaOH), depende de variáveis como temperatura do licor verde, seu álcali total titulável, sulfidez e qualidade da cal (Cornell, 1992). O valor ótimo da eficiência situa-se entre 78% e 84%. Eficiência excessiva causa “overliming” (superdosagem de cal), resultando em baixa sedimentação da lama, suspensão de cal no licor e redução da eficiência térmica e de filtração (Marcelino, 2019). Em contrapartida, eficiência baixa compromete a remoção de sólidos e a lavagem da lama de cal (Marinho, 2021). Campos et al.
(2013) apontam a necessidade de abordagens como o controle preditivo baseado em modelo (MPC) para obter robustez. A prática industrial controla o diferencial de temperatura entre o apagador e o licor verde de entrada, pois a reação é exotérmica. Contudo, o “set-point” ótimo desse diferencial varia com as características do licor, exigindo intervenções manuais e dificultando a estabilidade. Essa dependência da intervenção humana introduz subjetividade e inconsistência, impedindo que o processo opere continuamente em seu ponto de máxima eficiência. Neste cenário complexo, o Machine Learning surge como uma solução viável e poderosa. Diferente da programação convencional; as regras são explicitamente codificadas, os algoritmos de ML inferem as regras de um sistema a partir de dados históricos (Chollet, 2021).
O avanço computacional e a crescente disponibilidade de dados de processo, coletados por sistemas de automação industrial, permitiram sua aplicação na modelagem de sistemas físico-químicos complexos, que são frequentemente difíceis de descrever com modelos de primeiros princípios. Redes neurais multicamadas (“Deep Learning”) têm demonstrado uma capacidade notável de aprender padrões não lineares e interações sutis em grandes conjuntos de dados, encontrando aplicação em diversas áreas da engenharia. Os dados para este estudo foram extraídos do sistema de automação de uma fábrica de celulose de grande porte, utilizando a ferramenta Aveva PI System (PI Data Link), que serve como um historiador de dados de processo. A amostra bruta de dados abrangeu o período de outubro de 2024 a março de 2025, com uma frequência de amostragem de 15 segundos para as variáveis contínuas.
O conjunto de dados inicial incluiu 15 variáveis preditoras, selecionadas com base no conhecimento de processo e na literatura. A variável alvo, ou dependente, foi a eficiência da caustificação medida na saída do primeiro reator apagador (ec_slk1). O tratamento e a sincronização dos dados representaram um desafio metodológico significativo, sendo uma etapa crucial para garantir a qualidade e a validade do modelo.
Para criar um conjunto de dados correlacional e estático no formato “cross-sections” a partir de múltiplas séries temporais (Nielsen, 2019), foi necessário adotar uma estratégia de faseamento e agregação.
Para cada medição da variável alvo (eficiência da caustificação), foram calculadas as médias das variáveis contínuas (operacionais) no período correspondente ao tempo de retenção do reator.
Para as variáveis de entrada de natureza discreta (análises químicas), adotou-se a abordagem de utilizar o resultado mais recente obtido antes da coleta da amostra de saída, assumindo que a composição do licor permanece relativamente estável entre as medições.
Para garantir a causalidade e a relevância temporal dos dados, foi implementado um filtro rigoroso. Observações em que o intervalo de tempo entre a medição química de entrada e a medição de eficiência de saída excedia 50 minutos foram descartadas. Este limiar foi estabelecido para evitar a correlação espúria entre uma entrada e uma saída que não estão relacionadas devido ao longo tempo decorrido. Adicionalmente, foram aplicados filtros para remover observações com alta variabilidade e “outliers”, que poderiam representar instabilidades do processo ou erros de medição. A identificação de “outliers” foi realizada através da padronização dos dados, utilizando a função StandardScaler do pacote sklearn. preprocessing, que transforma cada variável para ter média zero e desvio padrão um. Em seguida, todos os valores que se encontravam fora do intervalo de -3 a 3 desvios padrão foram excluídos, uma prática comum para remover pontos de dados extremos (Géron, 2019).
Este processo de limpeza e sincronização, embora tenha reduzido drasticamente a base de dados de 950.402 registros brutos para um conjunto final de 414 observações de alta qualidade, foi fundamental para assegurar a confiabilidade dos modelos desenvolvidos. Foram desenvolvidos e comparados dois tipos de algoritmos de Machine Learning. O primeiro foi a Regressão Linear Múltipla (OLS – Ordinary Least Squares), implementada com o pacote statsmodels. api, que oferece uma análise estatística detalhada. Foram criados seis modelos lineares distintos para avaliar o impacto da seleção de variáveis e da transformação de dados. Em seguida, foram criados três modelos análogos (OLS 1 BC, OLS 2 BC, OLS 3 BC) aplicando a transformação de normalização de Box-Cox na variável alvo.
O objetivo desta transformação é estabilizar a variância e tornar a distribuição da variável mais próxima da normal, o que pode melhorar o ajuste do modelo e ajudar a satisfazer os pressupostos da regressão linear (Fávero e Belfiore, 2024). O segundo tipo de algoritmo foram as Redes Neurais Artificiais (RNA) do tipo perceptron multicamadas (MLPRegressor do pacote sklearn. neural_network). Três modelos de RNA (FNN 1, FNN 2, FNN 3) foram treinados utilizando os mesmos três conjuntos de variáveis dos modelos OLS, para permitir uma comparação direta. A arquitetura das redes foi otimizada através de uma busca exaustiva, seguindo a recomendação heurística de uma estrutura em cone ou cilindro para as camadas ocultas (Géron, 2019). Hiperparâmetros cruciais, como o número de neurônios por camada, a função de ativação e a taxa de aprendizado, foram otimizados com a ferramenta GridSearchCV, que realiza uma busca em grade com validação cruzada.
Para prevenir o “overfitting”, foi utilizada a técnica de “early stopping”, que monitora o desempenho do modelo em um conjunto de validação e interrompe o treinamento quando o erro para de diminuir (Goodfellow et al., 2016).
Para todos os modelos, os dados foram divididos em 70% para treino e 30% para teste. O desempenho dos modelos foi rigorosamente avaliado utilizando um conjunto de métricas de regressão padrão. O coeficiente de determinação (R²), que indica a proporção da variância na variável dependente que é previsível a partir das variáveis independentes, foi a principal métrica de ajuste.
Para avaliar a precisão das predições, foram calculados o erro absoluto médio (MAE), o erro quadrático médio (MSE), a raiz do erro quadrático médio (RMSE) e o erro absoluto médio percentual (MAPE). O MAPE, em particular, é útil para a interpretação no contexto industrial, pois expressa o erro como uma porcentagem do valor real.
Para os modelos de regressão linear, a análise foi além das métricas de desempenho e incluiu testes estatísticos para validar os pressupostos fundamentais do modelo OLS. O teste de Shapiro-Francia foi utilizado para verificar a normalidade dos resíduos, um pressuposto crucial para a validade das inferências estatísticas (como os testes de significância dos coeficientes). O teste de Breusch-Pagan foi aplicado para verificar a homocedasticidade, ou seja, se a variância dos erros é constante em todos os níveis das variáveis preditoras (Fávero e Belfiore, 2024). A falha em satisfazer esses pressupostos pode indicar que o modelo linear não é a representação mais adequada para os dados. Os modelos de regressão linear sem a transformação de Box-Cox (OLS 1, OLS 2 e OLS 3) apresentaram uma capacidade explicativa limitada da variabilidade do processo.
Os coeficientes de determinação (R²) para esses modelos variaram entre 42,8% e 45,3%, indicando que mais da metade da variabilidade na eficiência da caustificação não foi capturada pelas variáveis preditoras incluídas. Essa violação compromete a validade estatística das inferências, como os p-valores dos coeficientes e os intervalos de confiança. Apesar dessa limitação estatística, as métricas de erro de predição foram notavelmente boas. O erro absoluto médio percentual (MAPE) ficou em torno de 1,27%, um valor que, para fins práticos, é considerado excelente, pois é inferior à incerteza de medição do próprio analisador de processo, estimada em 3%. Isso sugere que, embora o modelo não explique toda a complexidade do fenômeno, sua capacidade de predição pontual é robusta e potencialmente útil para aplicações industriais. A aplicação da transformação de Box-Cox nos modelos OLS 1 BC, OLS 2 BC e OLS 3 BC provou ser uma estratégia metodológica acertada e benéfica.
Embora o aumento no coeficiente de determinação (R²) tenha sido marginal, com os valores variando de 42,9% a 45,4%, o principal ganho foi de natureza estatística. A transformação na variável alvo foi eficaz em normalizar a distribuição dos resíduos do modelo.
Para os três modelos transformados, o teste de Shapiro-Francia resultou em p-valores superiores a 0,05, confirmando que a hipótese de distribuição normal dos resíduos não podia ser rejeitada. Ao mesmo tempo, a condição de homocedasticidade foi mantida. Essa conformidade com os pressupostos clássicos da regressão linear torna os modelos estatisticamente mais robustos e suas inferências mais confiáveis. Além da validação estatística, as métricas de erro também apresentaram melhorias, ainda que modestas. O modelo OLS 1 BC, que utilizou todas as variáveis preditoras, destacou-se como o de melhor desempenho geral, alcançando um R² de 0,454, um MAE de 0,882 e um MAPE de 1,243%. Acredita-se que a considerável parcela de variância não explicada nos modelos de regressão, mesmo nos melhores casos, se deva à ausência de uma variável crítica: a qualidade ou reatividade da cal dosada no apagador.
Esta variável, que impacta diretamente a velocidade e a extensão da reação de caustificação, não é medida de forma contínua pelo sistema de automação da planta e, portanto, não pôde ser incluída como preditora. A reatividade da cal pode variar significativamente dependendo de sua origem e das condições de calcinação no forno de cal. Esta constatação aponta para uma clara oportunidade de melhoria futura: a incorporação de medições, mesmo que offline, da reatividade da cal poderia aumentar substancialmente o poder preditivo do modelo. Os modelos de redes neurais artificiais (FNN 1, FNN 2 e FNN 3), apesar de sua capacidade teórica de capturar relações não lineares complexas, tiveram um desempenho inferior no conjunto de dados de teste.
Durante a fase de treinamento, os modelos de RNA apresentaram coeficientes de determinação superiores aos dos modelos lineares, com o FNN 1 atingindo um R² de 0,492, sugerindo uma boa capacidade de se ajustar aos dados de treino. No entanto, houve uma queda acentuada e preocupante no desempenho quando os modelos foram avaliados com os dados de teste, que eles nunca haviam visto antes. O R² no conjunto de teste caiu para valores entre 0,140 e 0,240. Essa grande discrepância entre o desempenho no treino e no teste é um sintoma clássico de “overfitting”; o modelo aprende o ruído e as particularidades do conjunto de treino em vez das relações subjacentes generalizáveis. Acredita-se que a principal causa seja a dificuldade de generalização a partir de um conjunto de dados relativamente pequeno, com apenas 414 observações, apesar das mitigações implementadas, como o “early stopping”.
As métricas de erro, como o MAE (0,975 no melhor caso de teste) e o MAPE (1,377%), também foram consistentemente piores que as obtidas pelos modelos de regressão linear com a transformação de Box-Cox.
Conclui-se que o objetivo foi atingido. O modelo de regressão linear múltipla OLS 1 BC, que utiliza todas as variáveis de processo disponíveis e aplica a transformação de Box-Cox na variável alvo, foi identificado como o mais preciso e robusto para predizer a eficiência da caustificação. Este modelo oferece uma base sólida para o desenvolvimento de um sistema de suporte à decisão para otimizar o “set-point” do diferencial de temperatura em tempo real, com potencial para melhorar a estabilidade e a eficiência do processo na fábrica de celulose.
Referências:
Adams, T. N. 1997. Kraft Recovery Boilers, 1 ed, Tappi Press, Atlanta, Georgia, USA.
Campos, M. C. M. M; Gomes, M. V. C; Perez, J. M. G. T. 2013. Controle avançado e otimização na indústria do petróleo. 1ed. Interciência, Rio de Janeiro, RJ, Brasil.
Chollet, F. 2021. Deep Learning with python, 2ed, Mannig, Shelter Island, New York, USA.
Cornell, C. F. 1992. Chemical Recovery in the AlkLine, Pulping Processes, 3 ed, Tappi Press, Atlanta, Georgia, USA.
Fávero, L. P. L.; Belfiore, P. 2024. Manual de análise de dados: estatística e machine learning com Excel®, SPSS®, R® e Python®. 2ed. LTC, Rio de Janeiro, RJ, Brasil.
Feltrin, F. 2019. Ciência de dados e aprendizagem de máquinas.
Géron, A. 2019. Mãos à obra: aprendizado de máquina com Scikit-Learn e TensorFlow – Conceitos, Ferramentas e Técnicas para a Construção de Sistemas Inteligentes, Alta Books, Rio de Janeiro, RJ, Brasil.
Goodfellow, I; Bengio, Y; Courville, A. 2016. Deep Learning, 1ed, MIT Press, Cambridge, MA, USA.
Marcelino; T. O. A. C. 2019. Modelagem e simulação da etapa de caustificação do processo kraft de extração de celulose. Dissertação de mestrado em engenharia química. Universidade Federal de Campina Grande. Campina Grande, PB, Brasil.
Nielsen, A. 2019. Practical time series analysis. O’ Reilly Media.
Reis, H. M. D. 2021. Processo de extração de celulose Kraft – Ciclo de recuperação química. 1ed. Fontenele Publicações, São Paulo, SP, Brasil.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































