Imagem Análise comparativa de modelos de NLP para classificação de comentários do YouTube

04 de fevereiro de 2026

Análise comparativa de modelos de NLP para classificação de comentários do YouTube

Cristiano Araújo Abreu Diniz; Ricardo Janes

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

A análise de feedback em plataformas como o YouTube é crucial para a gestão de marca, mas o volume massivo de comentários torna a análise manual impraticável. Esses textos não estruturados contêm nuances estratégicas, como críticas construtivas, sugestões e manifestações de apoio, que impactam diretamente a produção de conteúdo e as decisões de marketing (Cambria et al., 2018).

Para criadores e empresas, compreender essas nuances é fundamental para guiar ajustes, fortalecer a fidelização e avaliar a recepção de campanhas de forma ágil. A automação desse processo não é apenas uma questão de eficiência, mas uma necessidade estratégica para se manter competitivo em um ambiente digital dinâmico; a opinião do público pode viralizar e redefinir a percepção de uma marca em questão de horas. O desafio é amplificado pela natureza linguística dos comentários online. Este ambiente é caracterizado por uma linguagem informal, repleta de gírias, abreviações, erros ortográficos intencionais, uso massivo de emojis e uma forte presença de ironia e sarcasmo. Tais características representam um obstáculo significativo para modelos de NLP tradicionais, que são frequentemente treinados em textos formais e bem estruturados.

A capacidade de um modelo de discernir entre um elogio genuíno e um comentário sarcástico, ou de identificar uma sugestão útil em meio a uma crítica ácida, é o que define sua real utilidade prática. Portanto, qualquer solução robusta deve ser capaz de navegar por essa complexidade semântica e pragmática. A construção de modelos de classificação supervisionada é dificultada pela escassez de dados rotulados de alta qualidade, pois a anotação manual é cara, demorada e suscetível à subjetividade. Nesse contexto, técnicas de Weak Supervision surgem como uma alternativa, permitindo a geração programática de grandes conjuntos de dados de treinamento por meio de regras heurísticas e conhecimento de domínio (Ratner et al., 2017). Essa abordagem reduz a dependência da rotulação humana e, combinada com estratégias de balanceamento de dados como subamostragem e aumento de dados, permite a criação de datasets robustos para treinar modelos mais generalistas.

A principal vantagem reside na escalabilidade e na capacidade de incorporar o conhecimento de especialistas de forma programática, transformando regras intuitivas em sinais de treinamento para modelos complexos.

Paralelamente, o avanço dos modelos de linguagem de larga escala (LLMs) viabilizou a criação de conjuntos de avaliação confiáveis, conhecidos como “gabaritos de ouro”. Estratégias como o Few-Shot Prompting, popularizadas por modelos como o GPT-3, permitem que um LLM realize tarefas de classificação com alta precisão a partir de poucos exemplos, funcionando como um oráculo para a avaliação de outros modelos (Brown et al., 2020). Isso possibilita uma comparação rigorosa entre diferentes arquiteturas, desde abordagens clássicas de aprendizado de máquina baseadas em representações como TF-IDF até as modernas arquiteturas Transformer, que capturam relações semânticas complexas com mecanismos de atenção (Vaswani, 2017). Este estudo desenvolve um pipeline completo, desde a coleta de dados e a rotulagem fraca até o treinamento e a avaliação comparativa de múltiplos modelos.

A análise explora como diferentes modelos se comportam em contextos variados — educacional, conversacional e pessoal/emocional — revelando as forças e fraquezas de cada abordagem. A metodologia foi implementada em Python 3.12, utilizando o ambiente Google Colaboratory Pro+ para acesso a GPUs de alta performance. O código foi versionado com Git e hospedado em um repositório no GitHub. A coleta de dados, realizada por meio da API do YouTube, extraiu comentários e metadados de 38 vídeos de língua portuguesa, selecionados para abranger diversidade de tópicos como podcasts, conteúdo educacional, publicidade e entretenimento, buscando um equilíbrio entre recepção positiva e negativa. A seleção dos vídeos foi criteriosa, visando garantir uma amostra representativa da heterogeneidade discursiva presente na plataforma, o que é fundamental para testar a capacidade de generalização dos modelos.

O pré-processamento textual foi minimalista, focando na remoção de ruídos como URLs e menções, mas preservando elementos semanticamente importantes como pontuação e capitalização, especialmente para os modelos baseados em Transformer, que se beneficiam desses sinais contextuais. A rotulagem foi conduzida com a metodologia de Weak Supervision, utilizando a biblioteca Snorkel (Ratner et al., 2017). Foram desenvolvidas Funções de Rotulagem (LFs) hierárquicas, baseadas em heurísticas e conhecimento de domínio, para as classes HATE, SUGESTÃO, ELOGIO e INTERAÇÃO. O LabelModel do Snorkel foi treinado para ponderar os votos das LFs e gerar rótulos probabilísticos, dos quais foram mantidos apenas aqueles com confiança superior a 65%, criando um conjunto de dados ruidoso, mas em grande escala. A criação das Funções de Rotulagem foi uma etapa crítica que combinou diferentes estratégias.

Para a classe ELOGIO, foram utilizadas listas de palavras-chave com termos positivos (“excelente”, “parabéns”, “adorei”) e padrões que indicavam admiração.

Para a classe HATE, foram empregadas listas de termos ofensivos e expressões de ódio conhecidas. A classe SUGESTÃO foi identificada por meio de expressões regulares que capturavam padrões como “você poderia”, “sugiro que”, “tenta fazer”, e o uso de verbos no imperativo ou futuro do pretérito. A classe INTERAÇÃO, por ser mais ampla, foi rotulada principalmente por LFs que identificavam perguntas, menções diretas a outros usuários ou comentários que não se encaixavam nas outras categorias, funcionando como uma classe “catch-all”. Essa abordagem multifacetada permitiu capturar uma variedade de sinais, aumentando a cobertura e a precisão do processo de rotulagem fraca.

A análise da distribuição dos rótulos revelou um severo desbalanceamento.

Para mitigá-lo, implementou-se uma estratégia híbrida de reamostragem: a classe INTERAÇÃO foi reduzida para 15.000 amostras por undersampling, enquanto as classes minoritárias HATE e SUGESTÃO foram expandidas para 5.000 amostras cada por oversampling com data augmentation.

Para esta tarefa, utilizou-se o FastText (Bojanowski et al., 2017) para substituir palavras por sinônimos semanticamente próximos. A escolha do FastText foi motivada por sua capacidade de gerar embeddings para palavras fora do vocabulário, o que é comum em textos de internet, garantindo que a substituição de sinônimos mantivesse a coerência semântica da sentença original. O resultado foi um conjunto de dados de treinamento balanceado.

Para a avaliação final, um “gabarito de ouro” foi criado utilizando um Agente de IA com o modelo GPT-3.5 Turbo, calibrado via Few-Shot Prompting (Brown et al., 2020) com exemplos do dataset gerado pelo Snorkel. A implementação dos modelos seguiu três paradigmas. O modelo clássico utilizou um pipeline do scikit-learn com vetorização TF-IDF (unigramas e bigramas) e um classificador SVM linear. A representação TF-IDF pondera a importância dos termos com base em sua frequência e raridade (Salton e Buckley, 1988). O pré-processamento para este modelo foi mais agressivo, incluindo remoção de stopwords, conversão para minúsculas e stemming (Orengo e Huyck, 2001), práticas que melhoram a separabilidade linear (Manning e C. D, 2008). O modelo Transformer fine-tuned foi o BERTimbau (Souza et al., 2020), uma versão do BERT (Devlin et al., 2019) pré-treinada para o português brasileiro.

O ajuste fino foi realizado com a API Trainer da Hugging Face, otimizador AdamW (Loshchilov e Hutter, 2019), taxa de aprendizado de 2e-5, por 3 épocas, e a entrada consistia em pares de sentenças (título do vídeo e comentário) para fornecer contexto adicional ao modelo. O modelo zero-shot utilizou o mDeBERTa-v3 (He et al., 2021), pré-treinado em tarefas de Inferência de Linguagem Natural (NLI). A classificação foi reformulada como um problema de NLI; cada comentário era avaliado em relação a uma hipótese textual para cada classe (e. g., “Este comentário é um elogio.”), e a classe com a maior probabilidade de “entailment” era selecionada (Yin et al., 2019).

A análise dos resultados revelou que, durante o treinamento, tanto o SVM quanto o BERTimbau alcançaram métricas de F1-Macro extremamente altas (0.9630 e 0.9993, respectivamente) no conjunto de validação. Esses valores levantaram a suspeita de sobreajuste, considerando a natureza parcialmente sintética do dataset gerado por Weak Supervision e data augmentation. As regras heurísticas e os padrões de sinônimos podem ter criado artefatos que os modelos aprenderam a explorar, inflando as métricas de validação. A capacidade de generalização dos modelos foi, portanto, avaliada contra o “gabarito de ouro” gerado pelo Agente de IA, utilizando comentários de três vídeos inéditos de domínios discursivos distintos, o que representa um teste muito mais rigoroso e realista de seu desempenho. No primeiro cenário, um vídeo de conteúdo educacional (“7 lições curtas para sair da classe média!”), os modelos Clássico (SVM) e Fine-Tuned (BERT) apresentaram performances similares e superiores ao Zero-Shot.

O SVM alcançou uma acurácia de 65,3% e um F1-Macro de 0.3746, enquanto o BERT obteve 66,0% de acurácia e um F1-Macro de 0.3709. O modelo Zero-Shot atingiu apenas 31,3% de acurácia. Este resultado indica que, em um contexto com vocabulário formal e sentenças bem estruturadas, a abordagem baseada em frequência de termos (TF-IDF) foi tão eficaz quanto a compreensão contextual do BERT. As matrizes de confusão revelaram que ambos os modelos tiveram dificuldade em diferenciar a classe SUGESTÃO da classe INTERAÇÃO, sugerindo que as sugestões neste contexto eram sutis e frequentemente embutidas em comentários mais longos e interativos. Na avaliação do segundo vídeo, um podcast de formato conversacional (“bate-papo com cellbit ep. 54”), o modelo Clássico (SVM) obteve a maior acurácia (57,0%) e o maior F1-Macro (0.3293).

O modelo Fine-Tuned (BERT) teve um desempenho inferior, com 52,3% de acurácia e F1-Macro de 0.2972, enquanto o Zero-Shot permaneceu como o de menor performance. Contudo, o modelo Zero-Shot identificou corretamente mais sugestões do que o modelo Fine-Tuned, possivelmente porque suas hipóteses textuais estavam bem alinhadas com o vocabulário explícito usado em comentários de podcasts (“faz um vídeo sobre X”). A confusão entre ELOGIO e INTERAÇÃO permaneceu alta em todos os modelos, refletindo o discurso informal e a sobreposição de intenções comunicativas; um elogio frequentemente serve como início de uma interação. Uma análise qualitativa dos erros revelou padrões interessantes. Comentários híbridos, que continham elementos de múltiplas classes, foram uma fonte constante de confusão para todos os modelos. Por exemplo, um comentário como “Amei o vídeo, parabéns! Mas acho que o áudio poderia estar um pouco mais alto” contém um ELOGIO e uma SUGESTÃO.

Modelos de classificação de rótulo único são forçados a escolher uma categoria, resultando em uma perda de informação. O SVM, baseado em palavras-chave, tendia a classificar tal comentário como ELOGIO devido à presença de “amei” e “parabéns”, enquanto o BERT, com sua compreensão contextual, por vezes capturava a SUGESTÃO, mas ainda assim demonstrava inconsistência. O modelo Zero-Shot frequentemente falhava em capturar qualquer uma das nuances, classificando-o como INTERAÇÃO genérica. A síntese dos resultados evidencia que a escolha do modelo ideal depende do contexto de aplicação e dos recursos disponíveis. O modelo Clássico (SVM com TF-IDF) provou ser um baseline forte e competitivo, especialmente em contextos com vocabulário formal ou quando a velocidade de inferência e o baixo custo computacional são prioritários. Sua simplicidade, interpretabilidade e rapidez de treinamento o tornam uma excelente opção para sistemas que precisam processar grandes volumes de dados em tempo real com recursos limitados.

O modelo Zero-Shot, embora conceitualmente atraente por não exigir dados de treinamento específicos da tarefa, mostrou-se inviável para esta tarefa de classificação granular, com desempenho consistentemente inferior. Sua dificuldade em generalizar para as nuances das classes sugere que sua aplicação é mais adequada para tarefas de classificação genéricas ou como ferramenta exploratória inicial (Yin et al., 2019). Um desafio comum a todos os modelos foi a dificuldade em separar classes semanticamente próximas, como SUGESTÃO, ELOGIO e INTERAÇÃO. Este estudo forneceu um framework comparativo detalhado para a classificação de comentários do YouTube, validando a eficácia da Weak Supervision para a criação de datasets em larga escala e demonstrando o trade-off entre modelos clássicos e Transformers.

A análise em múltiplos domínios discursivos ofereceu insights práticos sobre a aplicabilidade de cada abordagem.

Conclui-se que o objetivo foi atingido, pois o trabalho não apenas implementou e avaliou diferentes arquiteturas de NLP, mas também produziu um guia de decisão que considera as dimensões de desempenho, custo e complexidade.

Referências:
BIRD, Steven; KLEIN, Ewan; LOPER, Edward. Natural language processing with Python: analyzing text with the natural language toolkit. ” O’Reilly Media, Inc.”, 2009.
BOJANOWSKI, Piotr et al. Enriching word vectors with subword information. Transactions of the association for computational linguistics, v. 5, p. 135-146, 2017.
BROWN, Tom et al. Language models are few-shot learners. Advances in neural information processing systems, v. 33, p. 1877-1901, 2020.
CAMBRIA, Erik et al. Sentiment analysis is a big suitcase. IEEE Intelligent Systems, v. 32, n. 6, p. 74-80, 2018.
CONNEAU, A. et al. XNLI: Evaluating Cross-lingual Sentence Representations. In: Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018.
CORTES, Corinna; VAPNIK, Vladimir. Support-vector networks. Machine learning, v. 20, n. 3, p. 273-297, 1995.
DEVLIN, Jacob et al. Bert: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers). 2019. p. 4171-4186.
HE, P. et al. Deberta: Decodingenhanced bertwith disentangled attention. In: The International Conference onLearning Representations (ICLR). 2021.
JOACHIMS, Thorsten. Text categorization with support vector machines: Learning with many relevant features. In: European conference on machine learning. Berlin, Heidelberg: Springer Berlin Heidelberg, 1998. p. 137-142.
LOSHCHILOV, Ilya; HUTTER, Frank. Decoupled weight decay regularization. In: International Conference on Learning Representations. 2019.
MANNING, Christopher D. Introduction to information retrieval. Syngress Publishing, 2008.
MCCALLUM, Andrew et al. A comparison of event models for naive bayes text classification. In: AAAI-98 workshop on learning for text categorization. 1998. p. 41-48.
MEDHAT, Walaa; HASSAN, Ahmed; KORASHY, Hoda. Sentiment analysis algorithms and applications: A survey. Ain Shams engineering journal, v. 5, n. 4, p. 1093-1113, 2014.
ORENGO, Viviane Moreira; HUYCK, Christian R. A Stemming Algorithmm for the Portuguese Language. In: spire. 2001. p. 186-193.
RATNER, Alexander et al. Snorkel: Rapid training data creation with weak supervision. In: Proceedings of the VLDB endowment. International conference on very large data bases. 2017. p. 269.
RENNIE, J. D. et al. Tackling the poor assumptions of naive bayes text classifiers. In: Proceedings of the 20th international conference on machine learning (ICML-03). 2003.
SALTON, G.; BUCKLEY, C. Term-weighting approaches in automatic text retrieval. Information Processing & Management, v. 24, n. 5, p. 513-523, 1988.
SANTOS, Frances A. et al. Processamento de linguagem natural em textos de mídias sociais: Fundamentos, ferramentas e aplicações. Sociedade Brasileira de Computação, 2022.
SOUZA, Fábio; NOGUEIRA, Rodrigo; LOTUFO, Roberto. BERTimbau: pretrained BERT models for Brazilian Portuguese. In: Brazilian conference on intelligent systems. Cham: Springer International Publishing, 2020. p. 403-417.
VASWANI, Ashish. Attention is all you need. Advances in neural information processing systems, v. 30, 2017.
WILLIAMS, Adina; NANGIA, Nikita; BOWMAN, Samuel R. A broad-coverage challenge corpus for sentence understanding through inference, 2017.
WOLF, Thomas et al. Transformers: State-of-the-art natural language processing. In: Proceedings of the 2020 conference on empirical methods in natural language processing: system demonstrations. 2020. p. 38-45.
YIN, Wenpeng; HAY, Jamaal; ROTH, Dan. Benchmarking zero-shot text classification: Datasets, evaluation and entailment approach, 2019.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade