09 de fevereiro de 2026
Aplicação de inteligência artificial na classificação de auditorias ISO 9001:2015
Oziris Teixeira de Menezes; Charles Gomes da Silva
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo deste estudo é avaliar o desempenho da combinação da vetorização Term Frequency-Inverse Document Frequency (TF-IDF) com o classificador Random Forest na classificação automática de respostas textuais de auditorias da norma ISO 9001:2015. A investigação busca determinar a capacidade desta abordagem de aprendizado de máquina em atribuir de forma precisa e consistente as classes “Conforme”, “Não Conforme” e “Inconclusivo” a evidências textuais, verificando sua generalização em dados não vistos e sua viabilidade como ferramenta de apoio. O trabalho propõe uma alternativa automatizada aos processos de análise manuais, que são onerosos, demorados e suscetíveis à subjetividade do auditor. A pesquisa preenche uma lacuna ao adaptar e validar técnicas de Inteligência Artificial (IA) e Processamento de Linguagem Natural (PLN) para o domínio normativo da gestão da qualidade, historicamente dependente do julgamento humano.
A gestão da qualidade, regida pela ISO 9001:2015, enfrenta o desafio do volume crescente de informações textuais geradas em auditorias. Com aproximadamente 1,26 milhão de certificados válidos globalmente, segundo o ISO Survey 2022, milhões de auditorias são conduzidas a cada ciclo trienal. Estes processos, cruciais para a competitividade e acesso a mercados, implicam custos significativos, com certificações iniciais estimadas entre US$ 4.000 e US$ 6.000, especialmente para pequenas e médias empresas. A análise manual das evidências consome tempo, recursos e introduz uma variabilidade interpretativa que pode comprometer a consistência dos resultados. A dependência da experiência e do viés do auditor representa um gargalo para a escalabilidade e padronização do processo de certificação.
Neste contexto, a IA surge como uma solução para otimizar a governança das auditorias. Embora modelos de linguagem profundos como o BERT (Devlin et al., 2019) representem o estado da arte em PLN, sua implementação em ambientes regulados é limitada por altos custos computacionais, necessidade de vastos conjuntos de dados e menor interpretabilidade, fator crítico em domínios onde a rastreabilidade das decisões é mandatória. Em contrapartida, abordagens como a vetorização TF-IDF (Manning, Raghavan e Schütze, 2008) e o classificador Random Forest (Breiman, 2001) oferecem um equilíbrio entre desempenho, robustez e explicabilidade. O TF-IDF proporciona uma representação numérica da relevância dos termos, enquanto o Random Forest lida bem com dados de alta dimensionalidade, resiste ao sobreajuste e permite extrair a importância das variáveis, facilitando a comunicação dos resultados (Bishop, 2006).
A relevância desta investigação reside na verificação empírica de que métodos consolidados e de baixo custo computacional podem oferecer resultados competitivos quando avaliados com rigor estatístico. O estudo aborda uma lacuna na literatura, que carece de um corpo de conhecimento sobre a automação da triagem de conformidade em auditorias ISO 9001:2015. Ao quantificar o desempenho do modelo com métricas padronizadas, validação cruzada e intervalos de confiança, o trabalho demonstra a viabilidade técnica da solução e oferece um protocolo replicável. A principal contribuição prática é a demonstração de uma ferramenta capaz de apoiar organizações com análises mais rápidas, consistentes e menos subjetivas, fortalecendo a confiabilidade do processo de certificação e orientando ações corretivas.
A questão de pesquisa central é se a combinação de TF-IDF e Random Forest pode generalizar adequadamente na classificação de respostas de auditoria, mantendo um equilíbrio entre acurácia, interpretabilidade e viabilidade de implementação. A hipótese subjacente é que, mesmo diante de avanços em redes neurais profundas, esta abordagem se mostra suficiente e eficaz para o problema. A análise rigorosa do sobreajuste, da variabilidade dos resultados e da importância das características textuais visa fornecer uma resposta quantitativa e qualitativa a essa questão, contribuindo para a tomada de decisão baseada em evidências na auditoria da qualidade.
O estudo foi conduzido como uma pesquisa aplicada e quantitativa, com delineamento experimental para avaliar o modelo em cenários de auditoria simulados. A coleta de dados, realizada ao longo de dois meses, iniciou-se com um checklist de 14 questões alinhadas à norma, modelado a partir de um roteiro de um organismo certificador. Este instrumento foi submetido a 12 profissionais qualificados em auditorias ISO 9001:2015, instruídos a gerar respostas textuais para três cenários: “Conforme”, “Não Conforme” e “Inconclusivo”. Após uma rodada inicial de baixa adesão, o checklist foi reformulado, resultando em uma base de dados final consolidada e balanceada de 504 respostas textuais.
A preparação dos dados seguiu um pipeline de pré-processamento de PLN em Python (versão 3.10) com as bibliotecas Pandas, Scikit-learn e NLTK. As etapas incluíram a normalização dos textos (conversão para minúsculas, remoção de pontuação e stopwords), seguida pela tokenização. A representação numérica foi realizada com o modelo TF-IDF, que pondera a importância de um termo em um documento com base em sua frequência local, inversamente proporcional à sua frequência em todo o corpus, destacando termos distintivos de cada classe (Manning, Raghavan e Schütze, 2008).
Para o treinamento e avaliação, foi selecionado o algoritmo Random Forest, um método que constrói múltiplas árvores de decisão e define a classe final por votação majoritária (Breiman, 2001). A escolha se justifica por sua robustez com a alta dimensionalidade de dados textuais, menor propensão ao sobreajuste e capacidade de fornecer uma medida de importância para cada variável, fundamental para a interpretabilidade. Para uma avaliação imparcial da generalização, o conjunto de dados foi dividido de forma estratificada em treino (80%) e teste (20%), preservando a proporção original das classes.
Os resultados quantitativos demonstram um desempenho robusto. A validação cruzada de 5 dobras revelou uma acurácia média de 0,887, com desvio padrão de 0,023 e intervalo de confiança de 95% entre 0,866 e 0,907. A precisão macro alcançou média de 0,891 (IC 95%: 0,870–0,912), e o recall macro obteve média de 0,887 (IC 95%: 0,866–0,907). O F1-score macro, média harmônica entre precisão e recall, registrou valor médio de 0,885 (IC 95%: 0,865–0,906). A baixa variabilidade, indicada pelos desvios padrão reduzidos (cerca de 0,024), e os intervalos de confiança estreitos confirmam a estabilidade do modelo.
A análise de sobreajuste, comparando o desempenho nos conjuntos de treino e teste, revelou uma tendência esperada. O modelo atingiu 100% em todas as métricas no conjunto de treinamento, enquanto no conjunto de teste, o desempenho estabilizou-se em 91,1%. Essa diferença de nove pontos percentuais caracteriza um erro de generalização moderado. As curvas de aprendizado corroboraram este achado: a curva de treino permaneceu em 1,00, enquanto a de validação cruzada convergiu em torno de 0,91. Embora a lacuna indique que o modelo memorizou parte dos dados de treino, o alto desempenho no teste demonstra sua excelente capacidade de generalização para dados não vistos.
A análise da matriz de confusão, gerada no conjunto de teste, reforçou a capacidade do modelo em discriminar as três classes. Os valores na diagonal principal (classificações corretas) foram altos, enquanto os valores fora da diagonal (erros) foram baixos e distribuídos de forma equilibrada, sem um viés sistemático de confusão entre um par de classes específico. As curvas ROC para cada classe também apresentaram comportamento exemplar, com uma área sob a curva (AUC) macro média de aproximadamente 0,91. Este valor indica que, em 91% das vezes, o modelo atribui uma pontuação maior a uma instância positiva aleatória do que a uma negativa, confirmando sua alta capacidade discriminativa.
A interpretabilidade foi investigada pela análise da importância das variáveis (feature importance) do Random Forest. Termos associados à negação e incerteza foram os mais influentes. A palavra ‘não’ foi a variável mais importante, contribuindo com 17,6% para o poder preditivo. Em seguida, apareceram ‘mas’ (14,1%) e a expressão ‘resposta não’ (5,8%). Outros termos relevantes incluíram conjunções como ‘se’ (5,5%), ‘mas não’ (5,2%) e ‘ou’ (4,8%). Este achado é semanticamente coerente com o domínio da auditoria; negações ou ressalvas são fortes indicativos de não conformidade ou inconclusividade.
Para aprofundar a compreensão, foram aplicadas técnicas de interpretabilidade agnósticas como SHAP (SHapley Additive Explanations), Partial Dependence Plots (PDP) e Individual Conditional Expectation (ICE). Os gráficos SHAP confirmaram a importância global de termos como ‘não’ e ‘mas’, mostrando como sua presença consistentemente direcionava a predição para as classes “Não Conforme” ou “Inconclusivo”. Os PDPs ilustraram o efeito marginal médio desses termos, demonstrando que um aumento na frequência de ‘não’ reduz drasticamente a probabilidade de uma classificação “Conforme”. Os gráficos ICE revelaram a heterogeneidade desse efeito em instâncias individuais, mostrando que o contexto pode mitigar ou intensificar o impacto de uma única palavra.
O processo de otimização de hiperparâmetros, via GridSearchCV com validação cruzada de 5 dobras, identificou a configuração ideal para o Random Forest. A combinação com melhor desempenho médio (acurácia de 89,95%) foi: 400 árvores (nestimators=400), profundidade máxima ilimitada (maxdepth=None), mínimo de 5 amostras para divisão de um nó (minsamplessplit=5) e mínimo de 1 amostra por nó folha (minsamplesleaf=1). A análise mostrou que o modelo é robusto a variações nos hiperparâmetros, mas a otimização sistemática garantiu que a configuração final equilibra complexidade e generalização.
Em síntese, os resultados demonstram que a abordagem proposta é eficaz para a classificação de respostas de auditoria. O modelo alcança altos níveis de acurácia, precisão e recall de maneira estável, conforme validado por validação cruzada e intervalos de confiança. A capacidade de generalização, apesar de um sobreajuste moderado, é suficiente para aplicações práticas. A interpretabilidade permite que auditores e gestores compreendam os fatores das classificações automáticas, gerando confiança no sistema e fornecendo insights sobre os padrões linguísticos associados à conformidade, alinhando-se a princípios de IA explicável (Fawcett e Provost, 2013; Géron, 2019).
Este estudo avaliou a aplicação do modelo TF-IDF com Random Forest para a classificação automática de respostas em auditorias ISO 9001:2015. Os resultados foram consistentes, com o modelo apresentando acurácia média de 0,887 e F1-score macro de 0,885, ambos com intervalos de confiança de 95% estreitos, indicando estabilidade. A análise de sobreajuste revelou um erro de generalização moderado de nove pontos percentuais, o que não compromete a capacidade preditiva do modelo em dados não vistos. A interpretabilidade do classificador, evidenciada pela importância de termos como ‘não’ e ‘mas’, reforça a validade do modelo e sua adequação ao contexto da auditoria; a justificativa das decisões é fundamental. O protocolo metodológico garante a reprodutibilidade e a confiabilidade dos achados. Conclui-se que o objetivo foi atingido.
Referências:
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. New York: Springer.
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5–32.
Devlin, J.; Chang, M.-W.; Lee, K.; Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: Proceedings of NAACL-HLT 2019, p. 4171–4186. Minneapolis, MN: ACL.
Fávero, L. P.; Belfiore, P. (2017). Manual de análise de dados: estatística e modelagem multivariada com Excel, SPSS e Stata. 1. ed. Rio de Janeiro: Elsevier.
Fawcett, T.; Provost, F. (2013). Data Science and its Relationship to Big Data and Data-Driven Decision Making. Big Data, 1(1), 51–59.
Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. 2. ed. Sebastopol: O’Reilly Media.
Joachims, T. (1998). Text categorization with Support Vector Machines: Learning with many relevant features. In: ECML-98 — European Conference on Machine Learning, LNCS 1398, p. 137–142. Berlin/Heidelberg: Springer.
Jurafsky, D.; Martin, J. H. (2021). Speech and Language Processing. 3. ed. Draft. Stanford: Prentice Hall.
LawInnovation. (2024). IA e Machine Learning tornam a auditoria interna mais assertiva. Disponível em: https://lawinnovation. com. br. Acesso em: 1 abr. 2025.
Manning, C. D.; Raghavan, P.; Schütze, H. (2008). Introduction to Information Retrieval. Cambridge: Cambridge University Press.
McCallum, A.; Nigam, K. (1998). A comparison of event models for Naive Bayes text classification. In: AAAI-98 Workshop on Learning for Text Categorization, p. 41–48. Madison, WI: AAAI Press.
Mikolov, T.; Chen, K.; Corrado, G.; Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
Müller, A. C.; Guido, S. (2016). Introduction to Machine Learning with Python: A Guide for Data Scientists. Sebastopol: O’Reilly Media.
Recima21. (2023). O impacto da inteligência artificial na automação de auditorias. Disponível em: https://recima21. com. br. Acesso em: 1 abr. 2025.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:




























