Imagem Comparativo de desempenho entre Machine Learning e IA Generativa na detecção de emoções

Tecnologia

10 de dezembro de 2025

Comparativo de desempenho entre Machine Learning e IA Generativa na detecção de emoções

Autor: Carlos Eduardo Frantz Manchini — Orientador: Thiago Gentil Ramires

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este trabalho comparou modelos tradicionais de machine learning com a solução de Inteligência Artificial Generativa Hume AI na tarefa de inferir emoções da base de áudios RAVDESS. A investigação buscou determinar qual abordagem oferece maior precisão e equilíbrio na classificação de um espectro diversificado de estados emocionais, contrastando a metodologia clássica, baseada em engenharia de atributos acústicos, com a abordagem de ponta a ponta de modelos generativos pré-treinados. A análise visa fornecer subsídios para a seleção de tecnologias em aplicações práticas, como saúde mental e interação humano-computador, onde a acurácia na detecção de nuances emocionais é fundamental.

Os avanços em Data Science e Inteligência Artificial (IA) permitem processar e interpretar dados não estruturados, como textos, imagens e áudio. Segundo o Gartner (2020), aproximadamente 80% dos novos dados corporativos são dessa natureza, tornando a extração de insights um diferencial competitivo. Esse processamento em larga escala foi viabilizado por técnicas de Machine Learning e Deep Learning, que identificam padrões complexos inacessíveis a métodos convencionais (Goodfellow et al., 2016). A ascensão da Inteligência Artificial Generativa (GenAI), com seus modelos de linguagem de grande escala (LLMs), acelerou essa transformação.

As inovações impulsionadas pela GenAI geram impactos em diversas áreas. Na saúde, modelos generativos auxiliam no diagnóstico de doenças como o câncer, com acurácias superiores a 99%, em contraste com os 80% de métodos tradicionais (Sheakh et al., 2024), e aceleram o desenvolvimento de novos tratamentos (Topol, 2019). Na segurança, a IA aprimora o reconhecimento facial, a detecção de fraudes e o monitoramento inteligente, prevenindo crimes e protegendo ativos (Li et al., 2020). Na educação, a GenAI permite a criação de assistentes virtuais e plataformas de ensino adaptativo que personalizam o conteúdo ao ritmo de cada aluno (Luckin et al., 2016).

No processamento de áudio, a IA é a base de assistentes de voz e sistemas de tradução automática (Tan et al., 2021). Nesse contexto, o reconhecimento automático de emoções em áudio (Speech Emotion Recognition – SER) é uma área de pesquisa complexa. O desafio está na natureza sutil das emoções, manifestadas em padrões acústicos. Segundo Akçay e Oğuz (2020), o SER modela variações em entonação (pitch), ritmo, intensidade e timbre, que carregam informações sobre o estado afetivo do falante. Modelos de GenAI baseados em redes neurais profundas estão sendo explorados para processar sinais de áudio de forma mais holística (Purwins et al., 2019).

A motivação deste estudo é a necessidade de avaliar criticamente o desempenho de modelos generativos em comparação com métodos consolidados. Embora modelos de aprendizado profundo, que fundamentam a GenAI, frequentemente superem técnicas convencionais em reconhecimento de padrões (Khare et al., 2024), a interpretabilidade e a dependência de grandes volumes de dados são desafios (Latif et al., 2020). Este estudo investiga as vantagens de cada abordagem, considerando precisão, robustez, eficiência computacional e generalização, para orientar futuras implementações. As aplicações do SER são vastas, desde interfaces conversacionais até ferramentas de saúde mental, onde alterações na prosódia vocal podem ser biomarcadores para a detecção de estresse, ansiedade e depressão (Cummins et al., 2015).

A pesquisa é um estudo experimental de natureza aplicada, com avaliação quantitativa e comparativa de duas abordagens para reconhecimento de emoções em áudio. A primeira, tradicional, utiliza engenharia de atributos e algoritmos de Machine Learning supervisionado. A segunda emprega uma solução de IA Generativa que processa os dados de ponta a ponta. A metodologia foi desenhada para uma comparação rigorosa, com variáveis controladas e métricas padronizadas. Os experimentos foram implementados em Python, com bibliotecas especializadas para manipulação de dados, extração de características, modelagem e avaliação.

O conjunto de dados utilizado foi o Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS), uma base reconhecida na comunidade de SER (Livingstone e Russo, 2018). O corpus contém 1440 arquivos de áudio de 24 atores profissionais (12 homens, 12 mulheres) expressando oito emoções: raiva, calma, nojo, medo, felicidade, neutro, tristeza e surpresa. O RAVDESS foi escolhido por sua estrutura balanceada, alta qualidade e rotulação clara. O uso do corpus CORAA (Alvim et al., 2022), em português brasileiro, foi considerado, mas a ausência de rótulos emocionais detalhados inviabilizou seu uso. Foi realizado um pré-processamento nos áudios, incluindo redução de ruído e normalização de volume, para uniformizar os sinais e melhorar a detecção de padrões, conforme recomendado por Cowie et al. (2001).

Na abordagem tradicional, seguiu-se um pipeline de extração de atributos acústicos, conforme descrito por Akçay e Oğuz (2020). Foram extraídas características como Coeficientes Cepstrais de Frequência Mel (MFCCs), Chroma Features, Zero-Crossing Rate (ZCR), energia RMS e características da frequência fundamental (pitch). Com este conjunto de 81 características, foram treinados três algoritmos de aprendizado supervisionado: Random Forest, Support Vector Machines (SVM) e XGBoost, seguindo as práticas de Schuller et al. (2011). A avaliação utilizou validação cruzada estratificada e métricas como acurácia, precisão, F1-score e matriz de confusão.

Para a abordagem generativa, a estratégia de transcrever o áudio com Whisper (OpenAI, 2022) e analisar o texto com um LLM foi descartada, pois negligenciaria as nuances prosódicas. Em vez disso, adotou-se a API Expression Measurement – Prosody da Hume AI (2025), uma solução que utiliza modelos de deep learning para inferir emoções diretamente do áudio, eliminando a extração manual de características. A implementação consistiu no envio dos 1440 áudios do RAVDESS para a API via chamadas HTTP, com o posterior processamento dos scores retornados para determinar a emoção predominante. As bibliotecas Librosa e pydub foram usadas para manipulação de áudio, Scikit-learn para cálculo de métricas e Matplotlib e Seaborn para visualizações.

A análise exploratória dos dados buscou compreender o comportamento das características acústicas. A visualização dos espectrogramas Log-Mel revelou padrões distintos entre emoções de alta e baixa valência. Áudios de “raiva” exibiram energia concentrada em frequências mais altas, enquanto áudios de “tristeza” apresentaram um contorno de pitch mais plano e menor intensidade. Essas observações validaram que as características prosódicas continham informações relevantes para a classificação, justificando a engenharia de atributos. A análise quantitativa das 81 features extraídas formou a base para a seleção de variáveis.

A seleção de features foi um passo crucial para construir um modelo mais parcimonioso e menos propenso a overfitting. A análise de correlação de Pearson revelou alta multicolinearidade. As 12 features Chroma foram substituídas por três componentes principais (PCA) que preservaram 88% da variabilidade. Para mitigar a redundância, empregou-se um método de seleção baseado na importância das features calculada pelo XGBoost. A comparação entre o modelo completo (81 features) e um reduzido (23 features) mostrou a eficácia da abordagem: o modelo completo alcançou um F1-Macro de 0.648, enquanto o reduzido obteve 0.635, uma queda de performance de apenas 2% com uma redução de 71.6% no número de variáveis. O modelo compacto foi adotado para as etapas seguintes.

A modelagem com os classificadores supervisionados foi realizada em uma divisão estratificada dos dados (70% para treino, 30% para teste). O modelo Support Vector Machines (SVM) apresentou o melhor desempenho geral, com uma acurácia de 61,8% e um F1-Macro de 0.58 na base de teste. Os modelos baseados em árvores, Random Forest e XGBoost, mostraram sinais de overfitting, com queda de performance nos dados de teste. A superioridade do SVM foi atribuída à sua maior estabilidade e capacidade de generalização em um espaço de características de alta dimensionalidade. A métrica F1-Macro foi importante por ser robusta para problemas multiclasse com desbalanceamento.

A análise da matriz de confusão do SVM revelou seus padrões de acerto e erro. O modelo foi eficaz em reconhecer emoções com características acústicas distintas, como “calma” e “surpresa”. No entanto, ocorreram confusões sistemáticas entre emoções com propriedades sonoras semelhantes. As classes “neutro”, “calmo” e “triste”, caracterizadas por baixa intensidade e variações de pitch menos pronunciadas, apresentaram sobreposição significativa. Da mesma forma, emoções de alta intensidade como “medo” e “nojo” também foram ocasionalmente confundidas, indicando que a distinção de nuances sutis permanece um desafio.

Na pipeline generativa, a avaliação da API Hume AI revelou um desafio de incompatibilidade de taxonomias emocionais. Enquanto o RAVDESS usa oito categorias discretas, a Hume AI retorna scores para um conjunto diferente de rótulos, como “boredom” e “amusement”. Para permitir uma comparação direta, foi necessário um mapeamento ontológico, aproximando semanticamente os rótulos da Hume às classes do RAVDESS (ex: “boredom” mapeado para “neutro”, “amusement” para “felicidade”). Essa harmonização foi crucial para uma avaliação quantitativa justa.

Mesmo após o mapeamento, o desempenho da Hume AI foi significativamente inferior ao dos modelos supervisionados, com acurácia global de apenas 29% e F1-Macro de 0.26. A matriz de confusão da Hume AI mostrou um padrão específico: o modelo identificou bem a emoção “raiva”, com F1-score de 0.65 para esta classe. Contudo, para emoções mais sutis, o desempenho foi extremamente baixo, com F1-scores próximos de zero para “medo” e “nojo”. O modelo tendeu a confundir a maioria das emoções com categorias neutras ou calmas, indicando uma limitação em capturar a diversidade do espectro emocional.

A comparação direta dos resultados consolida a superioridade da abordagem tradicional. Os modelos supervisionados, liderados pelo SVM, alcançaram em média 55% de acurácia e 0.53 de F1-Macro, com um reconhecimento mais equilibrado entre as oito classes. Em contraste, a API Hume, com 29% de acurácia e 0.26 de F1-Macro, mostrou-se inadequada para uma classificação detalhada. Enquanto os modelos tradicionais acertaram entre metade e dois terços das previsões, a solução generativa classificou corretamente pouco mais de uma em cada cinco amostras. Isso reforça que, apesar do maior esforço em pré-processamento e ajuste, os classificadores supervisionados oferecem uma consistência que soluções “prontas para uso” ainda não igualam.

Considerando os aspectos práticos, a pipeline tradicional, embora mais complexa de implementar, oferece controle total, interpretabilidade e não incorre em custos operacionais por predição. A API Hume oferece simplicidade, mas sua natureza de “caixa-preta” limita a interpretabilidade e introduz um custo financeiro. O processamento dos 1440 áudios neste estudo teve um custo de aproximadamente US$ 3,60, um fator a ser considerado em larga escala. O trade-off é que a conveniência da GenAI vem ao custo de uma performance reduzida e de um custo operacional contínuo, enquanto a abordagem clássica exige maior investimento inicial em desenvolvimento para alcançar resultados mais robustos.

Este trabalho confirmou a superioridade dos modelos supervisionados para o reconhecimento de emoções em áudio. O classificador Support Vector Machine (SVM) destacou-se com uma acurácia de 61,8% na base de teste, demonstrando generalização robusta e equilíbrio na classificação. Em contrapartida, a solução generativa da Hume AI, embora simples de operar, teve uma performance inferior, com 29% de acurácia. A API mostrou aptidão para identificar emoções de alta intensidade como a raiva, mas falhou em distinguir nuances entre categorias mais sutis como medo e nojo, confundindo-as com estados neutros. As conclusões apontam para um trade-off entre conveniência e precisão. Soluções generativas “prontas para uso” podem servir para prototipagem ou em aplicações focadas em emoções intensas. No entanto, para cenários que exigem alta precisão e um espectro emocional detalhado, os modelos supervisionados, ajustados para a tarefa, permanecem mais adequados. Como perspectivas futuras, sugere-se a exploração de abordagens híbridas, o fine-tuning de modelos generativos e a aplicação em bases de dados mais heterogêneas, incluindo áudios em português brasileiro. Conclui-se que o objetivo foi atingido: demonstrou-se que modelos supervisionados, como o SVM, permanecem mais precisos e robustos para a classificação de um espectro emocional amplo em áudio em comparação com a solução de IA Generativa avaliada.

Referências:
Akçay, M. B.; Oğuz, K. 2020. Speech emotion recognition: emotional models, databases, features, preprocessing methods, supporting modalities, and classifiers. Speech Communication 116: 56-76.
Alvim, G.; Magalhães, L. L. C.; Bigal, R. L. M.; Medeiros, H. F. G.; Souza, S. R. M.; Silva, C. F. M.; Oliveira, E. P. L.; Pardo, S. R. C. 2022. CORAA: a large corpus of spontaneous and prepared speech manually validated for speech recognition in Brazilian Portuguese. In: International Conference on Language Resources and Evaluation, 2022, Marseille, França. Anais… p. 5908-5915.
Cowie, R.; Douglas-Cowie, E.; Tsapatsoulis, N.; Votsis, G.; Kollias, S.; Fellenz, W.; Taylor, J. G. 2001. Emotion recognition in human-computer interaction. IEEE Signal Processing Magazine 18(1): 32-80.
Cummins, N.; Scherer, S.; Krajewski, J.; Schnieder, S.; Epps, J.; Quatieri, T. F. 2015. A review of depression and suicide risk assessment using speech analysis. Speech Communication 71: 10-49.
Gartner [GARTNER]. 2020. Market guide for text analytics. Disponível em: <https://www. gartner. com/en/documents/3989657>. Acesso em: 24 mar. 2025.
Goodfellow, I.; Bengio, Y.; Courville, A. 2016. Deep Learning. The MIT Press, Cambridge, MA, EUA.
Hume AI. 2025. Expression Measurement – Prosody. Disponível em: <https://dev. hume. ai/docs/expression-measurement>. Acesso em: 25 set. 2025.
Khare, S. K.; Blanes-Vidal, V.; Nadimi, E. S.; Acharya, U. R. 2024. Emotion recognition and artificial intelligence: a systematic review (2014–2023) and research recommendations. Information Fusion 102: 102019.
Latif, S.; Rana, R.; Qadir, J.; Epps, J.; Schuller, B. W. 2020. Deep representation learning in speech processing: challenges, recent advances, and future trends. Computer Speech & Language 68: 101-178.
Li, Y.; Schuckert, M.; Law, R.; Wang, J. 2020. The impact of artificial intelligence on security and privacy in smart cities. Journal of Urban Technology 27(2): 65-85.
Livingstone, S. R.; Russo, F. A. 2018. The ryerson audio-visual database of emotional speech and song (RAVDESS). PLoS ONE 13(5): e0196391.
Luckin, R.; Holmes, W. 2016. Intelligence Unleashed: An Argument for AI in Education. Pearson, London, UK.
OpenAI. 2022. Whisper: robust speech recognition via large-scale audio training. Disponível em: <https://github. com/openai/whisper>. Acesso em: 29 mar. 2025.
Poria, S.; Majumder, N.; Mihalcea, R.; Hovy, E. 2019. Emotion recognition in conversation: research challenges, datasets, and recent advances. IEEE Access 7: 100943-100953.
Purwins, H.; Li, B.; Virtanen, T.; Schlüter, J.; Chang, S. Y.; Sainath, T. 2019. Deep learning for audio signal processing. IEEE Journal of Selected Topics in Signal Processing 13(2): 206-219.
Schuller, B.; Batliner, A.; Steidl, S.; Seppi, D. 2011. Recognizing realistic emotions and affect in speech: state of the art and lessons learnt from the first challenge. Speech Communication 53(9-10): 1062-1087.
Sheakh, M. A.; Azam, S.; Tahosin, M. S.; Karim, A.; Montaha, S.; Fahim, K. U.; De Boer, F. 2024. ECgMLP: a novel gated MLP model for enhanced endometrial cancer diagnosis. Computer Methods and Programs in Biomedicine Update 5: 100181.
Tan, X.; Qin, T.; Soong, F.; Liu, T.-Y. 2021. A survey on neural speech synthesis. Disponível em: <https://arxiv. org/abs/2106.15561>. Acesso em: 27 set. 2025.
Topol, E. 2019. Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again. Basic Books, New York, NY, EUA.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade