
03 de fevereiro de 2026
Aplicações de machine learning na análise de dados em sistemas AVAC-R
Christyam Alcantara Paulo da Silva; Luiz Henrique Lino de Oliveira
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Esta pesquisa visa construir um modelo de previsão do consumo energético em sistemas de Aquecimento, Ventilação, Ar-Condicionado e Refrigeração (AVAC-R), verificando a possibilidade de otimização da eficiência energética com a aplicação de técnicas de aprendizado de máquina. A investigação analisa a aplicabilidade de algoritmos preditivos em sistemas AVAC-R com volume de ar variável (VAV) e constante (CAV) em diferentes regimes sazonais. O objetivo é desenvolver um modelo robusto e generalizável para diferentes contextos operacionais, contribuindo para a escalabilidade de soluções de gestão energética, mitigação de impactos ambientais e redução de custos operacionais.
A relevância do estudo reside na crescente demanda por eficiência energética. Os sistemas AVAC-R correspondem a aproximadamente 7% do consumo mundial de eletricidade (IEA, 2022). Essa demanda é crítica, pois a matriz energética global ainda depende de combustíveis fósseis, responsáveis por cerca de dois terços das emissões de gases de efeito estufa (IPCC, 2022). Nesse cenário, otimizar o funcionamento de sistemas AVAC-R gera um impacto agregado substancial na redução da pegada de carbono e no avanço das metas de sustentabilidade globais (ONU, 2024).
Os métodos tradicionais de controle de sistemas AVAC-R, baseados em regras fixas ou ajustes manuais, subutilizam o volume de dados operacionais gerados. Conforme Alam et al. (2025), essa abordagem limita a capacidade de prever o consumo energético e otimizar o desempenho de forma proativa. Em cenários operacionais complexos, com variáveis interdependentes como temperatura externa, umidade e ocupação, os controles convencionais operam em pontos subótimos, resultando em desperdício energético (Sanzana et al., 2023). A parametrização incorreta, como um setpoint de água gelada muito baixo, pode levar ao funcionamento simultâneo de resfriamento e reaquecimento, um exemplo de ineficiência (ASHRAE, 2020).
Diante dessas limitações, as técnicas de machine learning são uma solução promissora. Esses algoritmos processam grandes volumes de dados, identificando padrões complexos e não lineares que escapam à modelagem analítica. A capacidade de aprender com os dados permite a construção de modelos preditivos de alta acurácia, que antecipam a demanda energética e informam decisões operacionais mais eficientes (Yang, Liu & Qian, 2023). A adoção de inteligência artificial na gestão energética de edifícios já supera os métodos tradicionais em precisão, consolidando-se como uma tendência tecnológica para o setor (Zhang et al., 2023).
Este trabalho compara quatro algoritmos de aprendizado supervisionado: Random Forest, Gradient Boosting, Regressão Linear e XGBoost. A escolha baseia-se na eficácia documentada para previsão de consumo energético. Modelos como Random Forest e XGBoost são adequados para dados complexos com variáveis temporais e climáticas (Amasyali & El-Gohary, 2018). A Regressão Linear oferece interpretabilidade e baixo custo computacional (Zhao & Magoulès, 2012), algoritmos de árvore como Random Forest são robustos contra overfitting (Wang & Srinivasan, 2017), e métodos de boosting como Gradient Boosting e XGBoost destacam-se pela precisão ao corrigir erros de forma iterativa (Ahmad et al., 2018; Touzani, Granderson & Fernandes, 2018). A investigação visa prever o consumo e explorar como a manipulação de variáveis controláveis pode otimizar a energia.
A pesquisa é um Estudo de Caso quantitativo, baseado na análise de dados secundários. A metodologia iniciou com uma revisão da literatura para selecionar bases de dados públicas e confiáveis. A fonte principal foi o “Inventory of Data Sets for Automated Fault Detection and Diagnosis Evaluation” do Lawrence Berkeley National Laboratory (LBNL, 2022). Essa escolha garantiu acesso a dados operacionais completos de diferentes instalações e configurações de sistemas AVAC-R, mitigando o risco de viés e fortalecendo a validade externa do estudo.
Os conjuntos de dados selecionados abrangem três instalações nos Estados Unidos. O primeiro provém de medições de um edifício comercial em Ankeny, Iowa, coletadas pela Drexel University (projeto ASHRAE 1312), focando em uma unidade de tratamento de ar (AHU) de quatro zonas. O segundo origina-se de experimentos em sistemas de volume de ar constante (SZCAV) e variável (SZVAV) no FLEXLAB do LBNL, em Berkeley, Califórnia. O terceiro consiste em dados telemétricos de uma unidade de telhado (RTU) gerados pelo National Renewable Energy Laboratory (NREL) e Oak Ridge National Laboratory (ORNL) em um edifício em Oak Ridge, Tennessee. Essa diversidade permitiu a análise de sistemas de múltiplas zonas com vazão variável (MZVAV), zona única com vazão constante (SZCAV), zona única com vazão variável (SZVAV) e unidade rooftop (RTU).
As variáveis (features) analisadas foram selecionadas por sua influência no desempenho energético, incluindo temperatura do ar externo, temperatura do ar de suprimento, sinais de controle de dampers e válvulas de resfriamento (0 a 1), pressão estática no duto (Pa) e consumo energético dos ventiladores (kW) ou seus sinais de controle. A variável alvo (target) foi o consumo energético. Nas bases onde o consumo em kW não estava disponível (MZVAV, SZCAV, SZVAV), utilizou-se um proxy, como o sinal de controle de velocidade do ventilador, que tem relação direta com o consumo. Para a base RTU, o consumo elétrico do ventilador foi o target direto. No pré-processamento, os dados foram normalizados para uma escala de 0 a 1 com a técnica MinMaxScaler, para evitar que variáveis com diferentes magnitudes distorcessem o treinamento.
O processo de modelagem aplicou os quatro algoritmos (Random Forest, Gradient Boosting, Regressão Linear e XGBoost) a cada conjunto de dados, divididos em 80% para treinamento e 20% para validação. Os hiperparâmetros foram configurados com base na literatura para evitar overfitting: para o Random Forest, 200 estimadores e profundidade máxima de 20 (Amasyali & El-Gohary, 2018); para o XGBoost, 200 estimadores e taxa de aprendizado de 0.05 (Chen & Guestrin, 2016). O parâmetro random_state foi fixado em 42 para reprodutibilidade. A performance foi avaliada com as métricas Raiz do Erro Quadrático Médio (RMSE), Coeficiente de Determinação (R²) e Erro Absoluto Médio (MAE). Após selecionar o melhor modelo, uma etapa de otimização foi conduzida com o algoritmo de evolução diferencial para ajustar as features controláveis, visando minimizar o consumo energético previsto, mantendo a temperatura de suprimento entre 21°C e 23°C.
A análise descritiva dos dados revelou que as temperaturas, originalmente em °F, foram convertidas para o Sistema Internacional. A natureza binária (0 ou 1) de muitos sinais de controle indicou um funcionamento on/off. A média desses sinais permitiu inferir o tempo relativo de operação de cada componente. As bases de dados não apresentaram dados faltantes, simplificando o pré-processamento. O volume de dados, entre 15.000 e 270.000 registros, foi considerado gerenciável com o uso de bibliotecas como Scikit-learn e XGBoost (Chen & Guestrin, 2016).
Os resultados dos modelos preditivos demonstraram alta performance para os algoritmos baseados em árvores de decisão. Random Forest e XGBoost superaram consistentemente a Regressão Linear e o Gradient Boosting. O Random Forest obteve os melhores resultados na maioria das bases, com os menores valores de RMSE e MAE, e R² próximos de 1,0. Por exemplo, na base de dados MZVAV-1, o Random Forest alcançou um RMSE de 0,010 e um R² de 0,999. O XGBoost teve desempenho similar, com RMSE de 0,013 e R² de 0,999 na mesma base. Em contraste, a Regressão Linear, embora mais simples, mostrou performance inferior, com RMSE de 0,076 e R² de 0,953, indicando maior dispersão entre valores previstos e reais.
A robustez dos modelos de árvore foi confirmada pela pequena diferença de desempenho entre os conjuntos de treino e teste, sugerindo que as medidas para mitigar overfitting foram eficazes. Gráficos de dispersão comparando valores reais e previstos corroboraram essas observações, mostrando forte concentração dos pontos ao longo da linha de identidade (y=x) para Random Forest e XGBoost, e maior dispersão para a Regressão Linear. Este sucesso reforça conclusões de estudos anteriores que destacam a superioridade de modelos de ensemble para prever o consumo de energia em edifícios (Wang & Srinivasan, 2017; Ahmad et al., 2018).
Uma exceção foi a base de dados SZCAV (Sistema de Zona Única com Vazão Constante); nenhum modelo superou um R² de 0,5. O Random Forest, o melhor modelo neste caso, atingiu R² de apenas 0,498. Este resultado sugere que, para este sistema, outras variáveis não disponíveis no dataset podem ter maior influência no consumo, ou que a dinâmica de um sistema de vazão constante é menos dependente das features monitoradas. Este achado destaca a necessidade de uma seleção de features cuidadosa e da compreensão da física do sistema, pois a qualidade do modelo depende da relevância dos dados de entrada (Zhao & Magoulès, 2012).
A etapa de otimização com evolução diferencial revelou potencial de redução de consumo. Para as bases MZVAV-2-2 e SZVAV, o algoritmo identificou ajustes que resultaram em reduções plausíveis de 70% a 85% em pontos de alta demanda. No entanto, para as outras bases, a otimização sugeriu reduções próximas a 100%. A análise indicou que esses resultados ocorreram porque o algoritmo identificou que, para os pontos de dados selecionados (com temperaturas externas amenas), o sistema poderia ser desligado sem violar a restrição de conforto térmico (temperatura de suprimento entre 21°C e 23°C).
Embora seja uma otimização válida do ponto de vista algorítmico, isso evidencia uma limitação da abordagem: o modelo pode favorecer soluções de desligamento total em vez de ajustes operacionais sutis. Isso ressalta a sensibilidade do algoritmo de otimização aos pontos iniciais e às restrições, um desafio documentado por Hamdy et al. (2016). O alto custo computacional associado a algoritmos de otimização como a evolução diferencial também se mostrou um fator limitante.
A discussão dos resultados deve considerar os desafios da modelagem de sistemas AVAC-R. A natureza dinâmica de variáveis como ocupação e clima introduz aleatoriedade, dificultando a aplicação de modelos lineares (Sun et al., 2021). A dificuldade de generalizar um modelo treinado em uma instalação para outra permanece um obstáculo, como visto no desempenho inferior na base SZCAV. Portanto, a aplicação prática em controle em tempo real exigiria calibração e re-treinamento periódico.
As limitações do estudo incluem o uso de um proxy para o consumo energético, que pode não capturar perfeitamente a relação não linear com o consumo real. Além disso, a otimização sugere que as restrições de conforto poderiam ser mais rigorosas, incluindo variáveis como umidade relativa, para evitar soluções que comprometam o bem-estar dos ocupantes. A abordagem estatística deve ser complementada pela compreensão da engenharia e termodinâmica dos sistemas para garantir soluções práticas e seguras.
Em conclusão, a pesquisa demonstrou o grande potencial da aplicação de modelos de machine learning para a previsão e otimização do consumo de energia em sistemas AVAC-R. Algoritmos baseados em árvores de decisão, especialmente o Random Forest, apresentam desempenho superior para modelar a complexa dinâmica desses sistemas, alcançando alta precisão preditiva. A abordagem estatística se mostrou viável para identificar padrões e projetar cenários de otimização. Os resultados indicam que a implementação de tais modelos em sistemas de controle em tempo real é uma via promissora para a sustentabilidade, transformando a gestão de energia de uma prática reativa para uma abordagem proativa e preditiva.
Apesar dos resultados promissores, o estudo destacou desafios como a dependência da qualidade dos dados, a dificuldade de generalização e a necessidade de refinar os algoritmos de otimização. Para trabalhos futuros, sugere-se o desenvolvimento de uma arquitetura de software para executar os algoritmos em tempo real, integrada a um sistema AVAC-R físico. Isso permitiria validar as previsões e estratégias de otimização em um ambiente real, avaliando o impacto no consumo e no conforto. Conclui-se que o objetivo foi atingido: demonstrou-se a viabilidade de construir um modelo de previsão do consumo energético em sistemas AVAC-R e de verificar a possibilidade de otimização da eficiência energética, abrindo caminho para futuras investigações e aplicações práticas.
Referências:
AHMAD, T. et al. A comprehensive overview on the data-driven and machine learning models for energy consumption forecasting. Energy Reports, v. 4, p. 349-363, 2018.
ALAM, M. M. et al. Thermodynamic optimization of building HVAC systems through dynamic modeling and advanced machine learning. Sustainability, v. 17, n. 5, 1955, 2025.
AMASYALI, K.; EL-GOHARY, N. M. A review of data-driven building energy consumption prediction studies. Renewable and Sustainable Energy Reviews, v. 81, p. 1192-1205, 2018.
ASHRAE – AMERICAN SOCIETY OF HEATING, REFRIGERATING AND AIR-CONDITIONING ENGINEERS. ASHRAE Handbook: Fundamentals. Atlanta, GA: ASHRAE, 2017.
ASHRAE – AMERICAN SOCIETY OF HEATING, REFRIGERATING AND AIR-CONDITIONING ENGINEERS. ASHRAE Guideline 36-2020: High-Performance Sequences of Operation for HVAC Systems. Atlanta, GA: ASHRAE, 2020.
CHEN, T.; GUESTRIN, C. XGBoost: a scalable tree boosting system. In: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, p. 785-794.
FAN, C.; XIAO, F.; ZHAO, Y. A short-term building cooling load prediction method using deep learning algorithms. Applied Energy, v. 195, p. 222-233, 2017.
HAMDY, M.; NGUYEN, A. T.; HENSEN, J. L. M. A performance comparison of multi-objective optimization algorithms for solving nearly-zero-energy-building design problems. Energy and Buildings, v. 121, p. 57-71, 2016.
IEA – INTERNATIONAL ENERGY AGENCY. Cooling. Paris: IEA, 2022.
INTERGOVERNMENTAL PANEL ON CLIMATE CHANGE: IPCC, 2022. Climate Change 2022: Mitigation of Climate Change. Contribution of Working Group III to the Sixth Assessment Report of the Intergovernmental Panel on Climate Change. Cambridge: Cambridge University Press.
LAWRENCE BERKELEY NATIONAL LABORATORY. Inventory of data sets for automated fault detection and diagnosis evaluation. Berkeley, CA: LBNL, 2022.
ONU – ORGANIZAÇÃO DAS NAÇÕES UNIDAS. Global status report for buildings and construction. Nairobi: UN Environment Programme, 2024.
SANZANA, M. R.; MAUL, T.; WONG, J.; CHUAH, M. Application of deep learning in facility management and maintenance for heating, ventilation, and air conditioning. Automation in Construction, v. 141, 104445, 2023.
SUN, Y. et al. A review of data-driven approaches for prediction and classification of building energy consumption. Renewable and Sustainable Energy Reviews, v. 150, 111441, 2021.
TAHERIAN, H.; RAHMAN, M. M. Advances in HVAC system efficiency: a review of modern technologies and control strategies. Energy and Buildings, v. 315, 114231, 2024.
TOUZANI, S.; GRANDERSON, J.; FERNANDES, S. Gradient boosting machine for modeling the energy consumption of commercial buildings. Energy and Buildings, v. 158, p. 1533-1543, 2018.
WANG, Z.; SRINIVASAN, R. S. A review of artificial intelligence-based building energy use prediction: contrasting the capabilities of single and ensemble prediction models. Renewable and Sustainable Energy Reviews, v. 75, p. 796-808, 2017.
YANG, L.; LIU, X.; QIAN, F. Machine learning for energy efficiency in buildings: a review of recent advances. Renewable and Sustainable Energy Reviews, v. 182, 113456, 2023.
ZHANG, F.; SAEED, N.; SADEGHIAN, P. Deep learning in fault detection and diagnosis of building HVAC systems: a systematic review with meta-analysis. Energy and AI, v. 12, 100235, 2023.
ZHAO, H. X.; MAGOULÈS, F. A review on the prediction of building energy consumption. Renewable and Sustainable Energy Reviews, v. 16, n. 6, p. 3586-3592, 2012.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































