Imagem Análise comparativa de algoritmos para classificação de incidentes cibernéticos

19 de fevereiro de 2026

Análise comparativa de algoritmos para classificação de incidentes cibernéticos

Rodrigo Ribeiro Pereira; Joao Vitor Matos Gonçalves

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Esta pesquisa realizou uma análise comparativa de múltiplos algoritmos de aprendizado de máquina para classificar incidentes de segurança cibernética, buscando identificar o modelo mais eficaz para prever a natureza de um alerta — Verdadeiro Positivo (ameaça real), Benigno Positivo (atividade legítima) ou Falso Positivo (erro de detecção). Utilizando um vasto conjunto de dados reais, a investigação determinou a viabilidade de automatizar a triagem de incidentes para otimizar a eficiência operacional das equipes de segurança e reduzir o tempo de resposta a ameaças.

O cenário da segurança cibernética é marcado pelo aumento no volume e sofisticação das ameaças. O custo global de crimes cibernéticos foi estimado em US$ 8,15 trilhões em 2023, com projeção de atingir US$ 13,82 trilhões até 2028. Nesse contexto, prever e prevenir incidentes é estratégico para a resiliência organizacional, especialmente em setores de infraestrutura crítica como financeiro e saúde, alvos frequentes de ataques. A ciência de dados é fundamental para transformar grandes volumes de dados de segurança em inteligência acionável para a tomada de decisão (Sun et al., 2019).

A aplicação de aprendizado de máquina em cibersegurança enfrenta desafios. Abordagens tradicionais focam em problemas como detecção de malware ou phishing, usando métodos não supervisionados (Sarker et al., 2020). Técnicas supervisionadas, embora mais precisas, são limitadas pela dificuldade em obter datasets rotulados, representativos e atualizados. A confidencialidade dos dados, a evolução das táticas de ataque e as mudanças nos sistemas de TI são barreiras adicionais à implementação de modelos preditivos eficazes (Apruzzese et al., 2023).

As equipes dos Centros de Operações de Segurança (SOC) utilizam ferramentas como Security Information and Event Management (SIEM) para correlacionar eventos e gerar alertas. No entanto, sua eficácia é comprometida por um volume excessivo de alertas, muitos sendo falsos positivos, o que causa a “fadiga de alertas” (Ban et al., 2023b). A resposta a incidentes, ainda um processo manual, representa um gargalo. A automação via plataformas de Security Orchestration, Automation and Response (SOAR) é a solução, mas depende da classificação precisa de alertas para distinguir ameaças reais de ruído.

Este estudo preenche essa lacuna ao avaliar sistematicamente o desempenho de algoritmos de classificação em um dataset público e recente, refletindo operações do mundo real. Ao identificar padrões em dados de incidentes triados por humanos, a pesquisa busca um caminho para a automação inteligente; alertas são direcionados de forma eficaz, a carga de trabalho manual é reduzida e o tempo de resposta a incidentes críticos diminui. A análise compara a acurácia dos modelos e suas implicações práticas para otimizar os processos de um SOC.

A metodologia, quantitativa e experimental, utilizou o conjunto de dados público GUIDE (GUIDed Response for Security Operation Centers with Microsoft Copilot for Security), disponibilizado pela Microsoft em 2024 (Freitas et al., 2024). O dataset é valioso por sua escala — mais de 13 milhões de evidências, 1,6 milhão de alertas e 1 milhão de incidentes — e pela qualidade das anotações, que classificam cada incidente como Verdadeiro Positivo (TP), Benigno Positivo (BP) ou Falso Positivo (FP). A base foi disponibilizada dividida de forma estratificada (70% para treino, 30% para teste), garantindo a representatividade das classes e fontes de dados.

A preparação dos dados incluiu uma análise exploratória com ydata-profiling (Clemente et al., 2023) para identificar valores ausentes, alta cardinalidade e multicolinearidade. Colunas com mais de 95% de valores ausentes foram removidas. Para os dados faltantes restantes, aplicou-se imputação pela mediana (variáveis quantitativas) e pela moda (qualitativas). A multicolinearidade, identificada entre variáveis como AccountObjectId e AccountName, foi tratada com Análise de Componentes Principais (PCA), que transforma variáveis correlacionadas em um novo conjunto não correlacionado, preservando a variância e melhorando a estabilidade do modelo (Fávero, 2017).

Dados categóricos foram tratados com One-Hot Encoding, que converte categorias em colunas binárias para compatibilidade com os algoritmos. O desempenho foi avaliado com métricas robustas para classificação multiclasse: Acurácia, Precisão, Recall e, centralmente, o F1 Score. Utilizou-se o F1 Macro, que calcula a média do F1 Score por classe, tratando todas com igual importância, o que é crucial para avaliar o desempenho em classes minoritárias (James et al., 2023).

Foram selecionados oito algoritmos da biblioteca Scikit-learn (Géron, 2018): Random Forest (Breiman, 2001), Gradient Boosting (Friedman, 2001), Regressão Logística (Hosmer, Lemeshow e Sturdivant, 2013), Support Vector Machine (SVM) (Cortes e Vapnik, 1995), K-Nearest Neighbors (KNN) (Cover e Hart, 1967), Naive Bayes (Mitchell, 1997), Árvores de Decisão (Quinlan, 1986) e AdaBoost (Freund e Schapire, 1997). A escolha abrangeu desde modelos lineares simples até métodos de ensemble complexos para uma avaliação abrangente.

A avaliação inicial revelou que Support Vector Machine (SVM) e K-Nearest Neighbors (KNN) eram computacionalmente inviáveis para o dataset de grande volume. Nenhum dos dois algoritmos finalizou o treinamento após mais de 30 horas de execução, enquanto os demais modelos completaram o processo em minutos ou poucas horas. A complexidade do KNN e a implementação não linear do SVM os tornam proibitivos para dados dessa magnitude (Géron, 2018), levando à sua exclusão da análise comparativa.

Para os seis algoritmos restantes, os resultados variaram em tempo de execução e eficácia. O Naive Bayes foi o mais rápido (120 segundos), e o Gradient Boosting o mais lento (12.922 segundos). Em desempenho preditivo, o Random Forest destacou-se como o mais eficaz em todas as métricas, alcançando acurácia de 0.730, precisão de 0.754, recall de 0.731 e F1 Macro de 0.711. Este resultado é promissor para um problema de classificação com três saídas; uma distribuição aleatória teria acurácia de aproximadamente 0.33.

A matriz de confusão do Random Forest mostrou excelente capacidade de classificar corretamente incidentes de Verdadeiro Positivo e Benigno Positivo. Crucialmente, o índice de erro na classificação de ameaças reais como inofensivas foi baixo: apenas 4% dos Verdadeiros Positivos foram erroneamente classificados como Falsos Positivos. Este tipo de erro (falso negativo) é o mais perigoso em cibersegurança, pois leva ao descarte de uma ameaça real. O erro mais comum do modelo foi classificar Falsos Positivos como Benignos ou Verdadeiros Positivos, um cenário menos prejudicial que gera retrabalho, mas não deixa a organização vulnerável.

Um ajuste de hiperparâmetros no Random Forest, aumentando o número de árvores (estimators) de 100 para 400, resultou em uma melhoria marginal, com a acurácia subindo para 0.748 e o F1 Macro para 0.728. Contudo, o tempo de execução quadruplicou para quase 6 horas (20.632 segundos). A análise de custo-benefício sugere que, para o hardware utilizado, o ganho de desempenho pode não justificar o aumento no tempo de processamento.

A análise da curva ROC (Receiver Operating Characteristic), usando a estratégia One-vs-Rest (OvR) para o cenário multiclasse, validou a capacidade de discriminação do modelo. A área sob a curva (AUC) superou 0.88 para todas as três classes, indicando que o modelo possui forte capacidade de distinguir entre as classes TP, BP e FP, reforçando sua robustez.

Os resultados indicam uma aplicação direta nas operações de segurança. O modelo Random Forest permite a criação de fluxos de automação (playbooks) mais inteligentes: alertas classificados como Verdadeiros Positivos podem acionar respostas de contenção, enquanto Falsos Positivos podem ser descartados, liberando analistas para investigações complexas. A associação de alertas com técnicas do framework MITRE ATT&CK, presente no dataset, enriquece essa automação, permitindo a sugestão de remediações alinhadas às melhores práticas.

A análise de dados históricos de incidentes, com algoritmos adequados, pode superar desafios operacionais dos SOCs. A automação guiada por modelos preditivos como o Random Forest pode mitigar a fadiga de alertas, melhorar a eficiência do conjunto SIEM/SOAR e fortalecer a postura de segurança ao acelerar a resposta a ameaças reais. A aplicabilidade é direta para ambientes com fontes de dados semelhantes, como o Microsoft Defender XDR, origem dos dados da base GUIDE. O desempenho superior do Random Forest oferece um caminho claro para a implementação de sistemas de triagem automatizada que podem transformar a eficiência dos Centros de Operações de Segurança.

A análise comparativa demonstrou que a base de dados GUIDE possui a granularidade necessária para prever novos incidentes cibernéticos com precisão. A obtenção de um F1 Score robusto com o Random Forest valida a hipótese de que padrões podem ser aprendidos para classificar futuros alertas, abrindo caminho para estruturas de decisão automatizadas. Isso pode reduzir a triagem manual, permitindo que analistas de SOC se concentrem em ameaças complexas e threat hunting, além de gerenciar Benignos Positivos que consomem tempo da equipe.

Como sugestão para trabalhos futuros, recomenda-se a exploração de algoritmos de deep learning e um ajuste de hiperparâmetros mais exaustivo, utilizando infraestrutura de nuvem para superar as limitações de hardware. A dificuldade em obter datasets reais e rotulados em cibersegurança permanece um desafio, e a disponibilidade de bases como a da Microsoft é fundamental para o avanço do campo. Conclui-se que o objetivo foi atingido: demonstrou-se que é possível prever com alta precisão a classificação de incidentes cibernéticos por meio de uma análise comparativa de algoritmos, com o Random Forest emergindo como a solução mais robusta e aplicável para otimizar as operações de segurança.

Referências:
Apruzzese, G. et al. The role of machine learning in cybersecurity. Digital Threats: Research and Practice, v. 4, n. 1, p. 1–38, 2023.
Ban, T. et al. Breaking alert fatigue: AI-assisted SIEM framework for effective incident response. Applied Sciences, v. 13, n. 11, p. 6610, 2023b.
Breiman, L. Random forests. Machine Learning, v. 45, n. 1, p. 5–32, 2001.
Clemente, F. et al. ydata-profiling: Accelerating data-centric AI with high-quality data. Neurocomputing, v. 554, p. 126585, 2023.
Cortes, C.; Vapnik, V. Support-vector networks. Machine Learning, v. 20, p. 273–297, 1995.
Cover, T.; Hart, P. Nearest neighbor pattern classification. IEEE Transactions on Information Theory, v. 13, n. 1, p. 21–27, 1967.
Fávero, L. Manual de análise de dados: estatística e modelagem multivariada com Excel, SPSS e Stata. São Paulo: Elsevier, 2017.
Freitas, S. et al. AI-driven guided response for security operation centers with Microsoft Copilot for Security. arXiv, 2024. Disponível em: http://arxiv. org/abs/2407.09017. Acesso em: 01 ago. 2025.
Freund, Y.; Schapire, R. E. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, v. 55, n. 1, p. 119–139, 1997.
Friedman, J. H. Greedy function approximation: a gradient boosting machine. Annals of Statistics, v. 29, n. 5, p. 1189–1232, 2001.
Géron, A. Hands-on machine learning with Scikit-Learn and TensorFlow: concepts, tools, and techniques to build intelligent systems. 1. ed., 5. imp. Beijing; Boston; Farnham; Sebastopol; Tokyo: O’Reilly, 2018.
Hosmer, D. W.; Lemeshow, S.; Sturdivant, R. X. Applied Logistic Regression. 3. ed. Hoboken: Wiley, 2013.
James, G. et al. An introduction to statistical learning. In: James, G. et al. (eds.). An introduction to statistical learning. Springer Texts in Statistics. Cham: Springer International Publishing, 2023. p. 1–13.
Microsoft. Microsoft Security Incident Prediction. 2025. Disponível em: https://www. kaggle. com/datasets/Microsoft/microsoft-security-incident-prediction. Acesso em: 15 set. 2025.
Mitchell, T. M. Machine Learning. New York: McGraw-Hill, 1997.
Musa, A. B. Comparative study on classification performance between support vector machine and logistic regression. International Journal of Machine Learning and Cybernetics, v. 4, n. 1, p. 13–24, 2013.
Quinlan, J. R. Induction of decision trees. Machine Learning, v. 1, n. 1, p. 81–106, 1986.
Sarker, I. H. Machine learning for intelligent data analysis and automation in cybersecurity: current and future prospects. Annals of Data Science, v. 10, n. 6, p. 1473–1498, 2023.
Sarker, I. H.; Furhad, M. H.; Nowrin, F. Cybersecurity data science: an overview from machine learning perspective. Journal of Big Data, v. 7, n. 1, p. 41, 2020.
Statista. Global cybercrime estimated cost 2029. 2025. Disponível em: https://www. statista. com/forecasts/1280009/cost-cybercrime-worldwide. Acesso em: 01 ago. 2025.
Sun, N. et al. Data-driven cybersecurity incident prediction: a survey. IEEE Communications Surveys & Tutorials, v. 21, n. 2, p. 1744–1772, 2019.
Van der Heide, E. M. M. et al. Comparing regression, naive Bayes, and random forest methods in the prediction of individual survival to second lactation in Holstein cattle. Journal of Dairy Science, v. 102, n. 10, p. 9409–9421, 2019.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade