
11 de fevereiro de 2026
Detecção de malware em IoT com machine learning usando o dataset IoT-23
Vanderson Soares Darriba; Anna Carolina Martins
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Esta pesquisa investiga e compara a eficácia dos algoritmos de machine learning Random Forest, XGBoost e LightGBM na detecção de malware em dispositivos de Internet das Coisas (IoT), utilizando o dataset IoT-23. A crescente integração de dispositivos IoT em ambientes domésticos e industriais aumentou a conectividade e a automação, mas também expandiu a superfície de ataque cibernético, trazendo desafios de segurança. Dispositivos como relógios inteligentes, câmeras de segurança e sensores industriais frequentemente possuem recursos computacionais limitados e segurança inadequada, tornando-os alvos para agentes maliciosos (Greengard, 2015). A vulnerabilidade desses dispositivos não se limita ao ambiente digital; falhas de segurança podem comprometer a privacidade, a segurança pessoal e desencadear ações físicas danosas, especialmente em infraestruturas críticas (Ferrag & Maglaras, 2020).
A proliferação de malwares direcionados a IoT, como botnets para ataques distribuídos de negação de serviço (DDoS) ou ransomwares, representa uma ameaça sofisticada e em evolução (Souza et al., 2024). Nesse contexto, a detecção precoce e precisa de atividades maliciosas é fundamental para mitigar riscos e garantir a integridade dos ecossistemas IoT. Técnicas de aprendizado de máquina são uma abordagem promissora para analisar grandes volumes de tráfego de rede e identificar padrões anômalos indicativos de infecção. A capacidade desses algoritmos de aprender com dados históricos e generalizar para novas ameaças é crucial para combater ataques complexos, incluindo os de dia zero (Abdalgawad et al., 2021).
Este estudo se insere no campo de pesquisa que explora o uso de Machine Learning para segurança em IoT. Diversos trabalhos já utilizaram o dataset IoT-23 como benchmark para sistemas de detecção de intrusão (Jahangir et al., 2023; Kim et al., 2022). Pesquisas anteriores focaram em desafios como o desequilíbrio de classes (Alfares & Banimelhem, 2024) e a detecção de botnets específicos (Jeelani et al., 2022). O presente trabalho se diferencia ao realizar uma análise comparativa focada em três algoritmos de ensemble de alto desempenho: Random Forest, XGBoost e LightGBM. A escolha desses modelos se justifica por suas características distintas: a robustez do Random Forest contra overfitting, a precisão do XGBoost e a eficiência computacional do LightGBM.
A contribuição desta pesquisa inclui a comparação de métricas de desempenho como acurácia, precisão e recall, e a análise de aspectos práticos como o tempo de treinamento e a capacidade de generalização dos modelos. Ao avaliar o trade-off entre precisão e robustez, o estudo oferece insights para a implementação de sistemas de detecção em cenários reais; eficiência e confiabilidade são essenciais. Além disso, a análise da importância das características (features) identifica os principais indicadores de tráfego malicioso, fornecendo um guia para analistas de segurança sobre quais parâmetros de rede priorizar no monitoramento de ambientes IoT. A detecção eficaz de malware é um passo crucial para fortalecer a segurança desses ecossistemas e garantir que os benefícios da IoT possam ser aproveitados sem comprometer a segurança e a privacidade dos usuários (Garcia et al., 2023).
A metodologia adotada é exploratória e quantitativa, baseada na implementação, treinamento e avaliação de modelos de machine learning sobre o dataset IoT-23. O dataset IoT-23, criado pelo laboratório Avast AIC, é reconhecido por sua relevância, contendo tráfego de rede capturado de dispositivos IoT reais infectados com malware e de dispositivos em operação normal (benigna). O dataset compreende 23 cenários, sendo 20 maliciosos, envolvendo famílias de malware como Mirai, Torii e Gagfyt, e três cenários benignos, gerados por dispositivos como a lâmpada Philips HUE e o Amazon Echo (Stratosphere IPS, 2020).
O pré-processamento dos dados foi uma etapa fundamental. A partir dos arquivos conn. log. labeled, gerados pelo analisador de rede Zeek, foram selecionadas 12 variáveis relevantes. Variáveis categóricas como proto, service e connstate foram convertidas em formato numérico através da codificação de variáveis dummy, que cria novas colunas binárias para cada categoria. Para as variáveis numéricas, como duration, origbytes e resp_bytes, foi aplicado um processo de padronização utilizando o StandardScaler da biblioteca scikit-learn. Essa técnica normaliza as características para que tenham média zero e desvio padrão um, garantindo que features com escalas diferentes contribuam de forma equilibrada para o treinamento, o que é importante para algoritmos de gradient boosting (Ryan et al., 2023). A variável alvo, label, foi transformada em formato binário (‘1’ para malicioso, ‘0’ para benigno), adequando os dados para um problema de classificação binária.
Após o pré-processamento, o dataset foi dividido em conjuntos de treino (70%) e teste (30%). Foram implementados três algoritmos de ensemble: Random Forest, XGBoost e LightGBM. O Random Forest constrói múltiplas árvores de decisão e combina suas previsões, sendo conhecido por sua robustez e resistência ao overfitting (Breiman, 2001). O XGBoost (Extreme Gradient Boosting) é uma implementação otimizada do gradient boosting, que constrói árvores sequencialmente; cada nova árvore corrige os erros da anterior, e incorpora regularização para melhorar a generalização (Chen & Guestrin, 2016). O LightGBM (Light Gradient Boosting Machine) é outro framework de gradient boosting que se destaca pela alta eficiência, utilizando crescimento de árvores “leaf-wise” e um algoritmo baseado em histogramas para acelerar o treinamento, ideal para grandes datasets (Ke et al., 2017).
A avaliação do desempenho dos modelos foi realizada utilizando métricas padrão para classificação binária, calculadas a partir da matriz de confusão, que sumariza os verdadeiros positivos (VP), verdadeiros negativos (VN), falsos positivos (FP) e falsos negativos (FN). A Acurácia mede a proporção geral de previsões corretas, mas pode ser enganosa em datasets desbalanceados (Al-Garadi et al., 2020). A Precisão avalia a proporção de previsões positivas corretas (VP / (VP + FP)), crucial para minimizar falsos alarmes. O Recall (Sensibilidade) mede a capacidade do modelo de identificar todas as instâncias positivas reais (VP / (VP + FN)), vital para não perder ameaças. O F1-Score, a média harmônica entre precisão e recall, foi utilizado para fornecer uma medida única que equilibra ambos os aspectos (Hastie et al., 2009). As análises foram conduzidas em Python, com as bibliotecas scikit-learn, xgboost e lightgbm.
Os resultados da avaliação dos modelos demonstraram um desempenho geral alto e competitivo. A análise quantitativa revelou que os modelos baseados em Gradient Boosting, XGBoost e LightGBM, obtiveram uma ligeira vantagem. O XGBoost alcançou a maior acurácia, com 88,7%, seguido pelo LightGBM com 88,5% e pelo Random Forest com 88,2%. Essa tendência se manteve nas métricas para a classe “Malicioso”; o XGBoost também liderou com uma precisão de 88,3%, recall de 87,9% e um F1-Score de 88,1%. Esses valores indicam que o modelo foi eficaz tanto em evitar falsos alarmes quanto em detectar a maioria das ameaças no conjunto de teste.
A análise das matrizes de confusão forneceu uma visão granular do comportamento de cada modelo. O XGBoost se destacou por apresentar o menor número combinado de falsos positivos e falsos negativos, corroborando sua superioridade métrica. Em um cenário prático, o XGBoost equilibra melhor a detecção de ameaças (minimizando falsos negativos) com a prevenção de interrupções por alertas incorretos (minimizando falsos positivos). O LightGBM apresentou um desempenho muito próximo, confirmando a eficácia do gradient boosting. O Random Forest, embora ligeiramente atrás, demonstrou uma performance robusta.
A eficiência computacional foi um diferenciador crucial. O LightGBM se mostrou superior, registrando o menor tempo de treinamento, resultado de suas otimizações de design, como o crescimento “leaf-wise” e algoritmos baseados em histogramas (Jin, 2021). A eficiência do LightGBM o torna uma escolha atraente para sistemas que necessitam de retreinamento frequente ou para aplicações em tempo real. O XGBoost foi o segundo mais rápido, enquanto o Random Forest exigiu o maior tempo de treinamento.
A análise da capacidade de generalização revelou um trade-off. Enquanto XGBoost e LightGBM alcançaram acurácias de treino mais altas, eles exibiram uma queda maior de desempenho no conjunto de teste, sugerindo um leve overfitting. Em contraste, o Random Forest apresentou a menor variação entre o desempenho de treino e teste, indicando maior robustez e melhor capacidade de generalização para dados não vistos, um atributo valioso em segurança cibernética.
A análise de importância das características revelou consistência entre os três modelos. As características origbytes (volume de dados enviados pela origem), respbytes (volume de dados recebidos pela origem) e duration (duração da conexão) foram consistentemente classificadas como as mais relevantes para a distinção entre tráfego benigno e malicioso. Este achado conecta os resultados do modelo a comportamentos de malware conhecidos. Um alto volume em origbytes pode indicar exfiltração de dados para um servidor de comando e controle (C&C). Um aumento em respbytes pode sinalizar o download de payloads maliciosos. Alterações drásticas na duration, juntamente com o volume de pacotes, podem ser um sinal de ataques de negação de serviço (DDoS).
Essa convergência na identificação das características mais importantes valida a lógica interna dos modelos e fornece insights acionáveis para analistas de segurança. Sugere que a monitorização focada nessas três variáveis de tráfego pode ser uma estratégia eficaz para a detecção precoce de ameaças em ambientes IoT. As equipes de segurança podem priorizar alertas com base em anomalias no volume de dados e na duração das conexões, otimizando recursos e melhorando o tempo de resposta. A capacidade dos algoritmos de identificar esses padrões de forma autônoma reforça o valor do machine learning para a segurança cibernética. Os modelos não apenas classificaram o tráfego com alta precisão, mas também “aprenderam” quais indicadores são mais preditivos de comportamento malicioso, alinhando-se com o conhecimento de especialistas.
Em suma, os resultados demonstram que, embora o XGBoost ofereça a maior precisão, o LightGBM se destaca pela eficiência e o Random Forest pela robustez. A escolha entre eles dependeria das prioridades da aplicação: precisão máxima, velocidade em tempo real ou confiabilidade em ambientes dinâmicos.
Este estudo demonstrou a alta eficácia dos algoritmos de machine learning de ensemble, Random Forest, XGBoost e LightGBM, para a detecção de malware em ambientes IoT utilizando o dataset IoT-23. Os resultados indicam que os modelos baseados em Gradient Boosting (XGBoost e LightGBM) apresentaram um desempenho ligeiramente superior em acurácia e precisão. O XGBoost se destacou como o modelo mais preciso, alcançando o melhor equilíbrio entre a detecção de ameaças e a minimização de falsos alarmes. No entanto, o Random Forest, apesar de uma acurácia marginalmente inferior, exibiu maior capacidade de generalização, com menor variação de desempenho entre os conjuntos de treinamento e teste, uma característica crucial para evitar overfitting e garantir confiabilidade. A eficiência computacional emergiu como um diferenciador importante, com o LightGBM se mostrando significativamente mais rápido no treinamento, posicionando-o como uma opção viável para aplicações em tempo real ou com recursos limitados. A análise da importância das características revelou consistentemente que o volume de dados transferidos (origbytes e respbytes) e a duração da conexão (duration) são os indicadores mais preditivos de atividade maliciosa, um achado que se alinha com o conhecimento de domínio em segurança. Investigações futuras devem focar na otimização de hiperparâmetros, na engenharia de características e na avaliação dos modelos contra novas famílias de malware e técnicas de evasão, para desenvolver um framework de detecção mais robusto. Conclui-se que o objetivo foi atingido: demonstrou-se que os algoritmos de machine learning Random Forest, XGBoost e LightGBM são altamente eficazes para a detecção de malware em ambientes IoT, com o XGBoost apresentando a maior precisão métrica e o Random Forest a melhor capacidade de generalização.
Referências:
Abdalgawad, N., Sajun, A., Kaddoura, Y., & Al-Ali, A. R. (2021). Generative deep learning to detect cyberattacks for the IoT-23 dataset. IEEE International Conference on Communications Workshops (ICC Workshops).
Al-Garadi, M. A., Mohamed, A., Al-Ali, A. K., & Imran, M. (2020). A Survey on Promising Datasets and Recent Machine Learning Techniques for IoT Security. Disponível em: https://scispace. com/pdf/a-survey-on-promising-datasets-and-recent-machine-learning-wc5leiizry. pdf.
Alfares, H., & Banimelhem, O. (2024). Comparative Analysis of Machine Learning Techniques for Handling Imbalance in IoT-23 Dataset for Intrusion Detection Systems. 2024 11th International Conference on Information and Communication Technology (ICICT).
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32.
Chen, T., & Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 785-794). ACM.
Ferrag, M. A., & Maglaras, L. (2020). Cybersecurity for critical infrastructure internet of things: Challenges and countermeasures. IEEE Internet of Things Journal, 7(10), 9806-9819.
Garcia, S., Parmisano, A., & Erquiaga, M. J. (2023). A Comprehensive Analysis of Machine Learning based Intrusion Detection System for IoT-23 Dataset. Par NSF.
Gil, A. C. (2007). Métodos e Técnicas de Pesquisa Social. 6. ed. São Paulo: Atlas.
Greengard, S. (2015). The Internet of Things. São Paulo: Editora Atlas.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media.
Jahangir, M. T., Wakeel, M., Asif, H., & Hussain, M. (2023). Systematic approach to analyze the avast IOT-23 challenge dataset for malware detection using machine learning. 2023 18th International Conference on Emerging Technologies (ICET).
Jeelani, F., Rai, D. S., Maithani, A., & Sharma, P. (2022). The detection of IoT botnet using machine learning on IoT-23 dataset. 2022 2nd International Conference on Advance Computing and Innovative Technologies in Engineering (ICACITE).
Jin, M. (2021). Machine Learning with LightGBM and Python: A practitioner’s guide to developing production-ready machine learning systems. Packt Publishing.
Ke, G., Meng, Q., Wu, T., Wang, Y., & Chen, W. (2017). LightGBM: A Highly Efficient Gradient Boosting Decision Tree. In Advances in Neural Information Processing Systems (p. 3146-3154).
Kim, Y. G., Ahmed, K. J., Lee, M. J., & Tsukamoto, K. (2022). A Comprehensive Analysis of Machine Learning-Based Intrusion Detection System for IoT-23 Dataset. In International Conference on Information Science and Applications (ICISA) (pp. 569-579). Springer.
Kshetri, N., & Voas, J. (2017). Security, privacy, and reliability in computer communications and networks: Principles and practices. John Wiley & Sons.
Ryan, M., & Massaron, L. (2023). Machine Learning for Tabular Data: XGBoost, Deep Learning, and AI. Manning Publications.
Souza, C. H. M., & Arima, C. H. (2024). Avaliação de algoritmos de machine learning para detecção de malware IoT no dataset IoT-23. Anais do SBSeg 2024: Artigos Curtos.
Stratosphere IPS. (2020). IoT-23 Dataset. Disponível em: https://www. stratosphereips. org/datasets-iot23.
Waher, P. (2017). Learning Internet of Things. São Paulo: Editora Novatec.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































