Resumo Executivo

13 de abril de 2026

Classificação de falhas industriais com PLN e Machine Learning

Tiago Noboru Ukei; Ana Julia Righetto

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

A manutenção de equipamentos em diversos segmentos industriais configura-se como uma atividade essencial para assegurar a segurança, a continuidade operacional e a eficiência dos processos produtivos (Sexton et al., 2018). Dentro desse panorama, a gestão da manutenção deve passar por uma evolução constante, buscando a melhoria contínua dos processos por meio da análise rigorosa do histórico das ordens de serviço. Esse histórico constitui uma fonte rica de informações que permite não apenas avaliar e aprimorar os planos de manutenção existentes, mas também viabilizar análises preditivas de falhas que evitem paradas não programadas (Brundage et al., 2021). No entanto, a realidade operacional de muitas empresas revela que essas ordens de serviço são registradas por diferentes operadores que, sob a pressão do cotidiano industrial, frequentemente deixam de preencher corretamente os campos estruturados do sistema, como o modo de falha, a criticidade ou a classe do equipamento. O resultado é um acúmulo de dados em campos de texto livre, preenchidos sem padronização, repletos de abreviações, siglas específicas do ambiente de trabalho e eventuais erros ortográficos, o que dificulta significativamente o uso dessas informações em análises estatísticas estruturadas (Akhbardeh et al., 2020).

Para solucionar esses desafios, a aplicação de técnicas avançadas de Processamento de Linguagem Natural e aprendizado de máquina tem se mostrado uma fronteira promissora. Uma abordagem que ganha destaque é o Processamento de Linguagem Técnica, que combina os fundamentos do processamento textual com o conhecimento específico do domínio industrial para elevar a precisão na classificação automática de eventos de falha. Essa especialização é necessária porque algoritmos genéricos de linguagem muitas vezes falham ao interpretar termos técnicos que possuem significados distintos em contextos industriais (Lee et al., 2023). A literatura indica que o uso de técnicas de mineração de texto permite extrair estatísticas relevantes e identificar padrões ocultos em centenas de relatórios de manutenção, transformando dados brutos em conhecimento estratégico para a tomada de decisão (Sala et al., 2022). Além das abordagens tradicionais, o uso de redes neurais profundas baseadas em arquiteturas de transformadores, como os modelos da família BERT, tem demonstrado uma capacidade superior de interpretar dados textuais complexos, exigindo menos pré-processamento manual e alcançando desempenhos elevados na identificação de categorias técnicas (Yu e Li, 2024).

A fundamentação teórica deste estudo baseia-se na necessidade de transformar descrições narrativas em dados categóricos confiáveis. O processo de vetorização, que converte palavras em representações numéricas, é o pilar central dessa transformação. Modelos como o saco de palavras e a frequência do termo inversa à frequência nos documentos são amplamente utilizados para criar espaços vetoriais onde algoritmos de classificação podem operar. Enquanto o primeiro foca na contagem simples de ocorrências, o segundo atribui pesos maiores a termos que são raros no conjunto total de documentos, mas frequentes em uma nota específica, o que teoricamente ajuda a destacar termos técnicos distintivos (Manning et al., 2008). A escolha do algoritmo de classificação também é crítica, variando desde modelos lineares simples, como a regressão logística, até máquinas de vetores de suporte, que buscam encontrar o hiperplano de separação ideal em espaços de alta dimensionalidade (Joachims, 1998). O objetivo central reside em investigar e comparar a eficácia dessas diferentes técnicas para a classificação de notas de manutenção quanto à classe de equipamento e ao modo de falha, visando a aplicação futura desses dados na predição de falhas.

A metodologia adotada consistiu em um estudo de caso aplicado a uma empresa do setor de transporte dutoviário de petróleo e derivados, utilizando dados provenientes do sistema SAP ECC. O conjunto de dados inicial compreendeu 29.311 registros exportados em formato de planilha, abrangendo o período entre 2015 e 2025. Esses registros continham informações sobre a unidade operacional de São Sebastião, em São Paulo, incluindo descrições em texto livre, identificação do equipamento, local de instalação e impactos operacionais. O primeiro passo operacional foi a limpeza da base de dados utilizando a linguagem Python e a biblioteca pandas. Variáveis consideradas irrelevantes para a classificação textual foram removidas e registros que não possuíam descrição da falha ou do equipamento foram sumariamente excluídos para evitar ruído nos modelos. Durante a inspeção inicial, constatou-se que aproximadamente 21% dos registros careciam de qualquer classificação original de equipamento ou modo de falha, evidenciando a lacuna de dados que a automação pretendia preencher.

Para garantir a qualidade do treinamento dos modelos, foi realizada uma etapa exaustiva de reclassificação manual em uma amostra representativa de 10.846 notas de manutenção. Esse processo foi orientado pela norma ISO 14224:2016, que fornece uma base padronizada para a coleta e intercâmbio de dados de confiabilidade e manutenção para equipamentos nas indústrias de petróleo, gás natural e petroquímica. A adaptação das categorias da norma para a realidade da empresa permitiu corrigir inconsistências graves, como notas que possuíam a mesma descrição textual, mas estavam classificadas com códigos distintos no sistema original. Por exemplo, vazamentos em bombas que ora eram classificados como falhas externas, ora como outros, foram uniformizados sob a categoria de vazamento de fluido de processo. Após essa limpeza e padronização manual, restaram 10.809 notas válidas e devidamente rotuladas para servirem de base para a análise supervisionada.

O pré-processamento dos dados textuais foi estruturado em um pipeline rigoroso. Inicialmente, os textos das variáveis de descrição da nota e descrição do equipamento foram normalizados por meio da conversão para letras minúsculas e da remoção de acentuação, números e caracteres especiais utilizando expressões regulares. A correção ortográfica e a expansão de abreviações técnicas foram realizadas para garantir que termos como “bba” fossem interpretados corretamente como “bomba”. Na sequência, utilizou-se o pacote spaCy para a remoção de palavras de parada, que são termos frequentes mas sem valor semântico, e para a lematização. A lematização é o processo de reduzir uma palavra à sua raiz morfológica ou lema, o que é preferível ao truncamento simples em textos técnicos, pois preserva o significado contextual do termo (Finatto et al., 2023). Testes preliminares indicaram que o spaCy apresentou desempenho superior para a língua portuguesa em comparação com outras bibliotecas como a NLTK.

A transformação dos textos em formato numérico para a entrada nos modelos de aprendizado de máquina envolveu a comparação entre os métodos de vetorização saco de palavras e frequência do termo inversa à frequência nos documentos. Foram implementados dois classificadores principais: um dedicado à predição da classe de equipamento e outro ao modo de falha. Para a classe de equipamento, testou-se o uso da descrição do equipamento isoladamente e a concatenação desta com a descrição da nota. Para o modo de falha, utilizou-se a descrição da nota e a mesma concatenação. A base de dados foi dividida em conjuntos de treino e teste na proporção de 80/20, utilizando amostragem estratificada para preservar a distribuição das classes, dado o forte desbalanceamento observado no conjunto de dados industrial.

O treinamento exploratório avaliou sete algoritmos distintos: regressão logística, floresta aleatória, aumento de gradiente, máquinas de vetores de suporte, k-vizinhos mais próximos, Naive Bayes multinomial e o perceptron multicamadas. A combinação entre diferentes corpora, vetorizadores e algoritmos resultou no treinamento inicial de 112 modelos. Após essa triagem, os modelos que apresentaram os melhores resultados foram submetidos a um refinamento de hiperparâmetros via busca em grade com validação cruzada de cinco dobras. Durante esse refinamento, ativou-se o ajuste de pesos para mitigar o impacto do desbalanceamento das classes, uma funcionalidade essencial para algoritmos como máquinas de vetores de suporte e florestas aleatórias em contextos onde certas falhas são muito mais raras que outras. Além dos modelos clássicos, realizou-se o ajuste fino de um modelo de linguagem pré-treinado da família RoBERTa, configurado com uma taxa de aprendizado de 2e-5 e treinado por cinco épocas, buscando capturar relações semânticas mais profundas que os modelos baseados em contagem de palavras poderiam ignorar.

Os resultados da análise descritiva revelaram uma predominância clara de ocorrências em válvulas e bombas, o que é coerente com a natureza operacional de uma unidade de transporte dutoviário. A reclassificação manual mostrou-se um divisor de águas na qualidade dos dados. Observou-se que, antes da intervenção, muitas falhas em tanques eram registradas de forma genérica, mas a aplicação da norma ISO 14224:2016 permitiu redirecionar esses registros para classes mais específicas, como dispositivos de entrada ou sensores, quando a falha residia especificamente nesses componentes. No que tange aos modos de falha, a categoria “outros” apresentava uma frequência artificialmente alta no sistema original, sendo reduzida drasticamente após a análise manual, que identificou vazamentos externos e falhas de leitura de instrumentos ocultas sob rótulos genéricos. A análise estatística dos corpora indicou que as descrições são extremamente curtas, com uma média de apenas 3,61 palavras para equipamentos e 3,74 para as notas, o que impõe um desafio adicional para os algoritmos de processamento de linguagem natural devido à esparsa quantidade de contexto disponível.

Na etapa de análise supervisionada para a predição da classe de equipamento, o modelo de máquinas de vetores de suporte destacou-se com uma acurácia de 95,61% e uma acurácia balanceada de 90,01%. Esse desempenho foi alcançado utilizando o vetorizador saco de palavras e a concatenação das descrições de equipamento e nota. A regressão logística também apresentou resultados sólidos, com 95,33% de acurácia, demonstrando ser uma alternativa robusta e de fácil interpretação. Algoritmos de conjunto, como o aumento de gradiente, embora competitivos com 93,98% de acurácia, demandaram um tempo de treinamento significativamente superior, chegando a 55 segundos contra apenas 0,27 segundos das máquinas de vetores de suporte. O modelo RoBERTa, apesar de sua complexidade arquitetônica, atingiu 93,88% de acurácia, mas falhou em superar os modelos clássicos na acurácia balanceada, registrando apenas 67,44%, o que sugere que modelos de aprendizado profundo podem exigir volumes de dados maiores ou descrições mais longas para expressar todo o seu potencial em domínios técnicos específicos.

Para a classificação dos modos de falha, o desafio mostrou-se superior devido à maior variabilidade textual e ao desbalanceamento mais severo entre as categorias. Antes da reclassificação manual, os modelos apresentavam acurácia na faixa de 50% a 60%. Após a adequação das classes, o desempenho saltou para patamares superiores a 80%. O perceptron multicamadas obteve a maior acurácia global com 84,50%, porém com um custo computacional elevado de 198 segundos e uma acurácia balanceada de 68,56%. Novamente, as máquinas de vetores de suporte ofereceram o melhor equilíbrio prático, alcançando 83,47% de acurácia global e a maior acurácia balanceada entre todos os modelos testados, com 79,54%. Esse resultado é particularmente relevante para o contexto industrial, onde o erro em uma classe minoritária, mas crítica, pode ter consequências operacionais graves. A superioridade das máquinas de vetores de suporte em lidar com dados de alta dimensionalidade e esparsidade, típicos de textos curtos vetorizados, confirmou as expectativas teóricas (Joachims, 1998).

A discussão dos resultados aponta que a escolha do vetorizador não foi o fator determinante para o sucesso dos modelos, embora o saco de palavras tenha apresentado métricas ligeiramente superiores e menor custo computacional em relação ao TF-IDF. O impacto mais evidente da escolha do vetorizador ocorreu no algoritmo Naive Bayes, que teve sua acurácia elevada em mais de seis pontos percentuais ao utilizar o saco de palavras, reforçando sua adequação a dados discretos baseados em distribuições multinomiais. A concatenação das notas às descrições de equipamento trouxe ganhos consistentes na identificação dos ativos, pois a nota frequentemente contém detalhes circunstanciais que ajudam a diferenciar equipamentos similares. No entanto, para a classificação do modo de falha, o acréscimo da descrição do equipamento produziu ganhos modestos, indicando que a essência da falha está contida quase exclusivamente na narrativa da ocorrência.

A análise exploratória por clusterização, realizada para identificar agrupamentos naturais nas descrições, revelou um desempenho distinto entre as tarefas. Para as classes de equipamento, os algoritmos de clusterização hierárquica e k-means apresentaram métricas moderadas, com um valor de V-measure em torno de 0,51, indicando que existe uma estrutura semântica razoavelmente clara que separa os tipos de equipamentos. Já para os modos de falha, os resultados foram substancialmente mais baixos, com V-measure de 0,26. Isso evidencia a dificuldade de capturar padrões semânticos em descrições de falhas sem o auxílio de rótulos prévios, reforçando a necessidade de abordagens supervisionadas e de uma curadoria humana inicial para o treinamento de sistemas automáticos. O algoritmo HDBSCAN, embora reconhecido por lidar bem com ruídos, apresentou métricas inferiores e até silhuetas negativas, refletindo a baixa densidade de termos comuns e a alta dispersão do vocabulário técnico utilizado pelos operadores.

As limitações encontradas residem principalmente na qualidade da entrada de dados na origem. Descrições excessivamente curtas ou vagas limitam o teto de desempenho de qualquer algoritmo de aprendizado de máquina. A presença de categorias como “outros” e “desconhecido” nas matrizes de confusão concentrou a maior incidência de erros, funcionando como classes de “depósito” para termos que não possuem força semântica suficiente para serem alocados em categorias técnicas precisas. Para pesquisas futuras, recomenda-se a exploração de representações semânticas mais ricas, como os mergulhos de palavras (embeddings) do tipo Word2Vec ou FastText, que podem capturar similaridades entre termos técnicos sinônimos que os modelos baseados em contagem ignoram. Além disso, a aplicação de técnicas de sobreamostragem sintética, como o SMOTE, pode ajudar a equilibrar ainda mais o desempenho em classes de falhas raras, mas de alto impacto.

A integração do pipeline desenvolvido aos sistemas corporativos de manutenção da empresa permitiria uma classificação em tempo real no momento da abertura da nota, sugerindo ao operador a categoria correta e reduzindo a incidência de dados inconsistentes. Essa aplicação prática transformaria o processo de registro de manutenção de uma tarefa burocrática em uma etapa ativa de geração de dados de alta qualidade para engenharia de confiabilidade. A robustez demonstrada pelas máquinas de vetores de suporte, aliada ao seu baixo tempo de resposta, torna esse modelo o candidato ideal para implementação em ambiente de produção, garantindo escalabilidade para o processamento de milhares de registros anuais sem a necessidade de infraestrutura computacional de alto custo.

Conclui-se que o objetivo foi atingido, demonstrando que a aplicação de técnicas de processamento de linguagem natural e aprendizado de máquina é viável e altamente eficaz para a classificação de notas de manutenção industrial. O estudo evidenciou que a qualidade do tratamento dos dados e a reclassificação manual baseada em normas internacionais como a ISO 14224:2016 são fatores mais determinantes para o sucesso do que a complexidade do algoritmo utilizado. Entre os modelos avaliados, as máquinas de vetores de suporte apresentaram o melhor desempenho global e balanceado, mostrando-se resilientes ao desbalanceamento de classes e eficientes no processamento de textos técnicos curtos e esparsos. A automação desse processo abre caminho para análises de confiabilidade mais precisas e para a implementação de estratégias de manutenção preditiva baseadas em dados históricos sólidos.

Referências Bibliográficas:

Akhbardeh, F.; Desell, T.; Zampieri, M. 2020. NLP tools for predictive maintenance records in MaintNet. In: International Joint Conference on Natural Language Processing: System Demonstrations, 2020, Suzhou, China. Anais… p. 26–32.

Brundage, M.P.; Sexton, T.; Hodkiewicz, M.; Dima, A.; Lukens, S. 2021. Technical language processing: unlocking maintenance knowledge. Manufacturing Letters 27: 42–46.

Finatto, M.J.B.; Caseli, H.M.; Lopes, L.; Rassi, A. 2023. Sequência de caracteres e palavras. p. 65–95. In: Caseli, H.M.; Nunes, M.G.V. Processamento de Linguagem Natural: Conceitos, técnicas e aplicações em português. 1ed. Brasileiras em Processamento de Linguagem Natural, [s.l.]

International Organization for Standardization [ISO]. 2016. Petroleum, petrochemical and natural gas industries – Collection and exchange of reliability and maintenance data for equipment. 3ed. International Organization for Standardization, Vernier, Geneva, Suíça.

Joachims, T. 1998. Text categorization with support vector machines: Learning with many relevant features. In: European Conference on Machine Learning, 1998, Chemnitz, Alemanha. Anais… p. 137–142.

Lee, S.; Ottermo, M.V.; Hauge, S.; Lundteigen, M.A. 2023. Towards standardized reporting and failure classification of safety equipment: semi-automated classification of failure data for safety equipment in the operating phase. Process Safety and Environmental Protection 177: 1485–1493.

Manning, C.; Raghavan, P.; Schütze, H. 2008. Introduction to Information Retrieval. 1ed. Cambrigde University Press, Cambridge, UK.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Mais recentes

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade