Artigo

Imagem Detecção de emoções em áudio: Machine learning vs GenAl

22 de junho de 2026

Detecção de emoções em áudio: Machine learning vs GenAl

Carlos Eduardo Frantz Manchini; Thiago Gentil Ramires

DOI: 10.22167/2675-6528-2026M15

Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação

Resumo

O reconhecimento automático de emoções na voz mostrou-se essencial para aplicações na área da saúde, permitindo a identificação de estados emocionais sem supervisão humana contínua. Este trabalho teve como objetivo comparar modelos tradicionais de machine learning com uma solução de Inteligência Artificial Generativa, a Hume AI, na tarefa de inferir emoções advindas da base de áudios RAVDESS. Para a abordagem convencional, foram extraídas características acústicas de 1440 áudios para treinar classificadores como SVM e XGBoost. Na abordagem generativa, os mesmos áudios foram processados pela API Expression Measurement-Prosody da Hume AI. Como principais resultados, observou-se que a solução generativa identificou com facilidade emoções de alta intensidade, como raiva, porém confundiu categorias mais sutis. Em contrapartida, os modelos tradicionais, ainda que demandassem maior pré-processamento, alcançaram desempenho superior e mais equilibrado entre todas as classes avaliadas, com o classificador Support Vector Machine atingindo 61,8% de acurácia na base de teste, enquanto a API Hume obteve 29% de acurácia global e 0,26 de F1-Macro. Concluiu-se que modelos supervisionados permanecem mais precisos e robustos para capturar o espectro emocional e classificar emoções em áudio, evidenciando um trade-off entre a simplicidade das soluções “prontas para uso” e a precisão necessária para uma análise emocional detalhada.

Palavras-chave: Aprendizado supervisionado; Classificação de áudio; Prosódia; Reconhecimento de emoções.

1. Introdução

Os avanços recentes em Data Science e Inteligência Artificial (IA) têm transformado a abordagem de problemas complexos, especialmente na análise e interpretação de dados não estruturados. Estes dados, que abrangem textos, imagens e áudios, constituem a maior parte da informação gerada atualmente, com oitenta por cento dos novos dados empresariais sendo não-estruturados (Gartner, 2020). A extração de insights desse volume é fundamental para a competitividade, viabilizada por aprendizado de máquina e profundo (Goodfellow et al., 2016).

A aplicação dessas inovações, notadamente da Inteligência Artificial Generativa (GenAI) e dos modelos de linguagem de grande escala (LLMs), tem gerado benefícios em diversas áreas. Na saúde, modelos generativos auxiliam no diagnóstico e tratamento (Topol, 2019), com acurácia superior a noventa e nove por cento em câncer (Sheakh et al., 2024). Na segurança, a IA aprimora o reconhecimento facial e a detecção de fraudes (Li et al., 2020). Na educação, a GenAI cria assistentes virtuais e materiais adaptativos (Luckin et al., 2016).

No processamento de áudio, a IA tem sido empregada em assistentes de voz e tradução automática, permitindo interações mais naturais entre humanos e máquinas (Tan et al., 2021). Neste contexto, o reconhecimento automático de emoções em áudio (SER – Speech Emotion Recognition) é uma área crucial, embora desafiadora devido à complexidade dos dados e das emoções humanas. Akçay e Oğuz (2020) indicam que o SER se baseia em padrões acústicos distintos, como variações na entonação, ritmo, intensidade e qualidade vocal, modelados por aprendizado de máquina. Com o avanço de modelos de GenAI baseados em redes neurais profundas, soluções mais sofisticadas para processar e interpretar sinais de áudio estão sendo exploradas (Purwins et al., 2019).

Este estudo foca na comparação entre métodos tradicionais de Machine Learning e modelos generativos de IA para a identificação de emoções em áudio. Inicialmente, considerou-se o uso do conjunto de dados CORAA – Corpus of Annotated Audios (Alvim et al., 2022), com gravações em português. Contudo, o CORAA apresentou limitações significativas, como a ausência de rótulos detalhados e a falta de diversidade de amostras emocionais.

Devido a essas limitações, optou-se pelo conjunto de dados RAVDESS – Ryerson Audio-Visual Database of Emotional Speech and Song (Livingstone e Russo, 2018), amplamente utilizado em pesquisas de detecção de emoções. Esta escolha permitiu uma análise comparativa detalhada entre abordagens tradicionais (extração de características acústicas) e modelos generativos (processamento direto das gravações). Embora modelos de aprendizado profundo (fundamento da GenAI) superem técnicas convencionais em SER (Khare et al., 2024), desafios como a interpretabilidade e a necessidade de grandes volumes de dados persistem (Latif et al., 2020). Este cenário justifica a investigação das vantagens e desvantagens dos modelos generativos, considerando precisão, robustez, eficiência computacional e generalização.

A motivação para esta pesquisa advém do crescente emprego de modelos generativos em processamento de linguagem natural e reconhecimento automático de fala, pela sua capacidade de identificar emoções via áudio. Esses avanços oferecem oportunidades práticas, como aprimoramento de interfaces conversacionais, criação de ferramentas de suporte emocional e diagnóstico clínico precoce, particularmente na saúde mental. Alterações sutis no tom de voz podem indicar precocemente sintomas como estresse ou ansiedade, possibilitando intervenções preventivas (Cummins et al., 2015). Em serviços de atendimento ao consumidor, a detecção emocional em tempo real otimiza interações (Poria et al., 2019).

Este estudo busca contribuir para a literatura acadêmica ao fornecer uma análise comparativa rigorosa entre métodos tradicionais e modelos generativos na detecção de emoções em áudio. Os resultados podem servir como referência prática para pesquisadores e profissionais, impulsionando o reconhecimento emocional por IA. Assim, o objetivo deste trabalho é comparar modelos tradicionais de aprendizado de máquina com uma solução de Inteligência Artificial Generativa, a Hume AI, na tarefa de inferir emoções a partir da base de áudios RAVDESS.

2. Material e Métodos

Este estudo caracterizou-se como uma pesquisa experimental aplicada, com abordagem quantitativa, que avaliou comparativamente o desempenho de duas abordagens distintas no reconhecimento de emoções em áudio. A primeira abordagem empregou técnicas tradicionais de Machine Learning, baseadas em engenharia de atributos. A segunda, mais recente, utilizou uma solução de Inteligência Artificial Generativa, fundamentada em modelos de processamento de linguagem natural.

Para a condução da pesquisa, inicialmente considerou-se o uso do conjunto de dados CORAA – Corpus of Annotated Audios (Alvim et al., 2022), que contém gravações em português brasileiro. Contudo, devido a limitações como a ausência de rótulos detalhados e a falta de diversidade de amostras emocionais, optou-se pelo conjunto de dados RAVDESS – Ryerson Audio-Visual Database of Emotional Speech and Song (Livingstone e Russo, 2018). Este corpus, amplamente adotado em pesquisas de detecção de emoções, possui 1440 áudios de 24 pessoas, com 60 variações de fala e canto, categorizados em oito emoções: raiva, calma, nojo, medo, felicidade, neutro, tristeza e surpresa.

Realizou-se um pré-processamento em todos os áudios para garantir a consistência da análise comparativa e a qualidade dos dados. As etapas incluíram redução de ruídos, padronização dos sinais sonoros e ajuste nas variações de volume, visando a uniformização dos dados. Conforme Cowie et al. (2001), a fala humana contém informações prosódicas, como tom, intensidade e ritmo, que são essenciais para inferir emoções, justificando a limpeza dos áudios para otimizar a detecção de padrões relevantes.

Na abordagem tradicional, a extração de atributos para treinar os algoritmos de Machine Learning e classificação seguiu as práticas descritas por Akçay e Oğuz (2020). As principais características acústicas extraídas incluíram Coeficientes Cepstrais de Frequência Mel (MFCCs), que representam a estrutura espectral; Chroma Features, para entonação e ressonância da voz; Zero-Crossing Rate (ZCR), que captura mudanças de sinal; e padrões de intensidade, como energia RMS e frequências fundamentais (pitch F0). Adicionalmente, incorporaram-se medidas como Spectral Contrast, descritores espectrais (Centroide, Largura de Banda e Roll-off) e variações temporais dos coeficientes MFCC (delta MFCCs).

Com as características extraídas, diferentes algoritmos de aprendizado supervisionado foram testados para a classificação das emoções, incluindo Random Forest, Support Vector Machines (SVM) e Redes Neurais Artificiais (Multi-Layer Perceptron – MLP), seguindo a metodologia de Schuller et al. (2011). A seleção do melhor modelo fundamentou-se em métricas de desempenho e empregou-se a validação cruzada estratificada k-fold para assegurar a robustez dos resultados. A base de dados RAVDESS foi dividida estratificadamente em conjuntos de treino (70%) e teste (30%).

Para a seleção de atributos, buscou-se manter as características mais relevantes e evitar problemas de multicolinearidade. Uma análise de correlação de Pearson indicou forte correlação entre as variáveis Chroma, que foram substituídas por três componentes principais via PCA, preservando 88% da variabilidade explicada. Identificou-se redundância entre outras características, e a seleção final baseou-se na importância explicativa pelo XGBoost, visando um modelo parcimonioso.

Na abordagem generativa, inicialmente considerou-se o sistema de reconhecimento automático de fala Whisper (OpenAI, 2022). Contudo, essa ferramenta foi descartada por se limitar à transcrição textual, não contemplando intensidades e detalhes acústicos cruciais para a análise emocional. Adotou-se, então, o modelo da Hume AI (2025), que processou e inferiu emoções diretamente a partir das gravações. Esta solução utiliza modelos proprietários de deep learning, treinados em grandes volumes de dados multimodais, sem a necessidade de extração manual de características.

Para o processamento dos 1440 áudios pela API Hume Expression Measurement – Prosody, os arquivos foram divididos em 15 lotes, respeitando as limitações de envio do serviço em nuvem. A API retornou scores associados a diferentes categorias emocionais, permitindo avaliar a probabilidade relativa de cada estado afetivo. Para viabilizar a comparação com o RAVDESS, que possui oito categorias emocionais, realizou-se um mapeamento ontológico dos rótulos da Hume AI para as classes do RAVDESS, definindo as correspondências: boredom para neutro, amusement para felicidade e excitement para surpresa.

A implementação dos experimentos realizou-se utilizando a linguagem Python, com o auxílio de bibliotecas especializadas. A biblioteca Librosa foi empregada para a extração de características acústicas, pydub para manipulação e conversão de arquivos de áudio, e Scikit-learn para os algoritmos de classificação, avaliação e cálculo das métricas. Para a avaliação da abordagem generativa, utilizou-se a API Hume Expression Measurement, acessada via chamadas HTTP integradas ao Python. As métricas de desempenho, como acurácia, precisão, revocação e F1-score, calcularam-se com suporte da biblioteca scikit-learn. Visualizações, como matrizes de confusão, geraram-se com Matplotlib e Seaborn. Para embasamento estatístico, aplicaram-se testes de significância entre modelos, como Wilcoxon/Mann-Whitney ou Friedman.

3. Resultados e Discussão

A etapa inicial do estudo concentrou-se na definição e seleção da base de dados mais adequada para a análise comparativa de reconhecimento de emoções em áudio. Inicialmente, considerou-se o uso do corpus CORAA, que contém gravações em português brasileiro. Contudo, o CORAA apresentou limitações significativas, como a ausência de rótulos detalhados para as emoções, uma variedade restrita de categorias emocionais (neutros, não-neutro masculino e não-neutro feminino) e a falta de um gabarito concreto para a mensuração quantitativa da assertividade das classificações. Essas deficiências inviabilizaram uma análise comparativa robusta e refinada entre as diferentes emoções, o que levou à escolha da base de dados RAVDESS.

O conjunto de dados RAVDESS – Ryerson Audio-Visual Database of Emotional Speech and Song (Livingstone e Russo, 2018) foi selecionado por oferecer um corpus mais rico e balanceado, com oito emoções categorizadas e um gabarito perito. As emoções incluídas são raiva (angry), calma (calm), nojo (disgust), medo (fearful), felicidade (happy), neutro (neutral), tristeza (sad) e surpresa (surprised). A base é composta por 1440 áudios, gravados por 24 indivíduos, com 60 variações que abrangem narrativa, intensidade, emoção e repetição. Essa escolha permitiu uma avaliação mais precisa e consistente das abordagens tradicionais de machine learning e da solução de Inteligência Artificial Generativa.

A análise exploratória dos dados foi fundamental para compreender o comportamento das características acústicas e identificar aquelas com maior capacidade discriminativa entre as emoções. As primeiras visualizações gráficas, utilizando coeficientes Cepstrais de Frequência Mel (MFCC) e espectrogramas Log-Mel, revelaram diferenças significativas, especialmente entre as emoções mais extremas, como tristeza e raiva. Observou-se que, para a emoção de raiva, as frequências eram mais acentuadas e dispersas em comparação com a tristeza, indicando padrões acústicos distintos que poderiam ser explorados pelos modelos de classificação.

Para enriquecer o conjunto de características (features) candidatas e captar informações acústicas adicionais, foram incluídas diversas medidas. Dentre elas, destacam-se a energia RMS (Root Mean Square Energy), que quantifica a intensidade do som em decibéis, e o Spectral Contrast, que mede a diferença de energia entre frequências. Também foram incorporados o Zero Crossing Rate (ZCR), que indica a taxa de mudança de sinal, e descritores espectrais como Centroide, Largura de Banda e Roll-off. Características relacionadas ao pitch fundamental (F0), como sua média e variância, foram calculadas para capturar a entonação e melodia da fala. Por fim, variações temporais dos coeficientes MFCC, os delta MFCC, foram adicionadas para registrar mudanças na intensidade e timbre da voz ao longo do tempo, conforme as práticas descritas por Akçay e Oğuz (2020).

A etapa de seleção de features foi crucial para manter apenas as variáveis mais relevantes para a classificação das emoções e mitigar problemas de multicolinearidade. A análise de correlação de Pearson revelou que as variáveis Chroma apresentavam forte correlação entre si, o que era esperado devido ao caráter cíclico das notas musicais. Para resolver essa redundância, as 12 features Chroma originais foram substituídas por três componentes principais (PCA), preservando 88% da variabilidade explicada. Além disso, identificou-se forte redundância entre outros pares de features, com correlação absoluta superior a 0,8 e correlação positiva acima de 0,9 para dois pares específicos. Nesses casos, optou-se por manter duas das quatro variáveis mais importantes, baseando-se na relevância explicativa pelo XGBoost, a fim de obter um modelo mais parcimonioso.

A comparação entre o modelo completo e o modelo reduzido de features, utilizando o algoritmo XGBoost, demonstrou a eficácia da seleção. O modelo completo, com 81 features, alcançou uma acurácia de 0,660 e um F1-Macro de 0,648. Em contraste, o modelo reduzido, com apenas 23 features (uma redução de 71,6%), obteve uma acurácia de 0,657 e um F1-Macro de 0,635. A diferença de apenas 0,013 no F1-Macro, equivalente a aproximadamente 2%, indica que a abordagem de seleção de features baseada na importância do XGBoost permitiu construir um modelo mais parcimonioso e computacionalmente eficiente, sem comprometer significativamente a capacidade de reconhecimento emocional. Essa evidência sustentou a decisão de prosseguir com a abordagem compacta para a modelagem dos dados.

A modelagem estatística foi realizada com três algoritmos de aprendizado supervisionado clássicos: Support Vector Machines (SVM), XGBoost e Random Forest. A base de dados RAVDESS foi dividida de forma estratificada em conjuntos de treino e teste, utilizando 70% e 30% dos dados, respectivamente. As métricas de desempenho avaliadas foram acurácia e F1-Macro, sendo esta última escolhida por sua robustez em problemas multiclasse e potencialmente desbalanceados, garantindo uma avaliação mais equilibrada entre as categorias emocionais. Os resultados apontaram uma performance moderada geral dos modelos, com destaque para o SVM.

Os resultados detalhados dos modelos de Machine Learning revelaram que o SVM obteve uma acurácia de treino de 0,852 e uma acurácia de teste de 0,618, com F1-Macro de treino de 0,848 e F1-Macro de teste de 0,607. O XGBoost apresentou acurácia de treino de 0,910 e acurácia de teste de 0,567, com F1-Macro de treino de 0,911 e F1-Macro de teste de 0,545. Já o Random Forest teve acurácia de treino de 0,851 e acurácia de teste de 0,458, com F1-Macro de treino de 0,851 e F1-Macro de teste de 0,443. Foi observado um maior overfitting nos modelos Random Forest e XGBoost, o que indica a necessidade de ajustes adicionais nos hiperparâmetros para melhorar a performance. A superioridade do SVM foi evidente, principalmente pela sua estabilidade e capacidade de generalização preditiva na base de teste.

A análise da matriz de confusão para o modelo SVM revelou a assertividade da classificação predita das emoções em relação às emoções reais. A maior parte dos valores concentrou-se na diagonal principal, indicando um bom número de verdadeiros-positivos para cada classe. Contudo, o modelo demonstrou dificuldade em distinguir emoções que compartilham características sonoras semelhantes. Emoções de alta intensidade, como calma e surpresa, foram reconhecidas com maior facilidade. Por outro lado, sentimentos com intensidades mais próximas, como neutro, calmo e tristeza, apresentaram sobreposição e geraram trocas frequentes nas classificações, evidenciando a complexidade da diferenciação de nuances emocionais sutis por meio de descritores acústicos.

No escopo da pipeline generativa, a API Hume Expression Measurement foi incorporada para processar os 1440 áudios. Para viabilizar o envio e processamento no serviço em nuvem, os áudios foram divididos em 15 lotes, respeitando as limitações de envio impostas pela API. Inicialmente, considerou-se o uso do sistema Whisper (OpenAI, 2022) para reconhecimento automático de fala, mas foi descartado por se limitar à transcrição textual e não considerar intensidades e detalhes acústicos essenciais para a análise emocional. A estratégia de transcrever o áudio e processar o texto com um Large Language Model (LLM) foi considerada inadequada, pois poderia sacrificar nuances prosódicas e afetivas, que são cruciais para a detecção de emoções. Dessa forma, a solução da Hume AI (2025) foi adotada, a qual utiliza modelos proprietários de deep learning treinados em grandes volumes de dados multimodais para detectar estados emocionais diretamente das gravações, sem a necessidade de extração manual de características. A API retorna scores associados a diferentes categorias emocionais, permitindo avaliar a probabilidade relativa de cada estado afetivo.

Um aspecto crucial para a comparação entre as abordagens foi a diferença nas taxonomias emocionais utilizadas. Enquanto o corpus RAVDESS categoriza as emoções em oito rótulos bem definidos, a API da Hume retorna previsões em um conjunto distinto de rótulos, incluindo termos como *boredom*, *amusement* e *excitement*. Para permitir uma avaliação quantitativa justa, foi necessário construir um mapeamento ontológico, aproximando semanticamente os rótulos da Hume às classes do RAVDESS. As correspondências estabelecidas foram: *boredom* para neutro, *amusement* para felicidade e *excitement* para surpresa. Essa harmonização foi essencial para viabilizar a comparação direta do desempenho da Hume com o conjunto de referência.

Após a aplicação do mapeamento das categorias, observou-se uma melhora parcial nos resultados da Hume AI. Emoções de maior intensidade, como a raiva, apresentaram um desempenho expressivo, com um F1-score de 0,65. Contudo, classes mais sutis, como medo e nojo, obtiveram valores de F1 próximos de zero. Isso indica que parte da baixa acurácia inicial da Hume decorreu do desalinhamento entre categorias, mas também que, mesmo após a harmonização, o modelo generativo ainda possui limitações para captar nuances emocionais mais discretas. A matriz de confusão da Hume AI evidenciou uma tendência a concentrar predições em classes mais neutras e uma maior dificuldade em identificar corretamente emoções menos intensas, como medo e nojo, que foram amplamente confundidas com outras categorias, incluindo estados mais próximos como calmo e neutro.

Comparativamente, os modelos supervisionados (SVM, XGBoost e Random Forest), conforme os resultados apresentados, alcançaram uma acurácia média de 55% e um F1-Macro de 0,53 na base de teste. Esses valores indicam uma capacidade razoável no reconhecimento das emoções em áudio. Em contrapartida, os experimentos com a API Hume resultaram em uma acurácia global de apenas 29% e um F1-Macro de 0,26, mesmo após o mapeamento ontológico das categorias. Esses dados confirmam a inferioridade da solução generativa quando aplicada diretamente ao corpus de referência, evidenciando que a API Hume classificou corretamente pouco mais de uma em cada cinco amostras, enquanto as abordagens tradicionais baseadas em descritores acústicos atingiram entre metade e dois terços de previsões corretas.

Ainda que os classificadores supervisionados demandassem maior esforço na preparação dos dados, seleção de features e ajuste de hiperparâmetros, eles obtiveram métricas superiores para capturar a diversidade de emoções. Esses resultados reforçam que soluções “prontas para uso”, como a Hume AI, podem ser uma alternativa rápida quando o interesse se restringe a emoções intensas, mas não substituem a consistência e a precisão de modelos ajustados para capturar um espectro emocional mais detalhado. Adicionalmente, o uso da API Hume implicou um custo financeiro de aproximadamente US$ 3,60 para o processamento completo dos 1440 áudios, um fator relevante a ser considerado na escalabilidade da solução.

Em síntese, a pesquisa demonstrou que, embora as soluções de Inteligência Artificial Generativa como a Hume AI ofereçam simplicidade e rapidez no processamento, os modelos tradicionais de machine learning, especialmente o SVM, apresentaram desempenho superior e mais equilibrado na classificação de um espectro mais amplo de emoções em áudio. A capacidade de generalização e a precisão dos modelos supervisionados, mesmo com a necessidade de pré-processamento e engenharia de características, os tornam mais robustos para aplicações que demandam uma análise emocional detalhada e confiável, enquanto a Hume AI se mostrou mais eficaz para emoções de alta intensidade, mas limitada para nuances sutis.

4. Conclusão

Este estudo teve como objetivo comparar modelos tradicionais de aprendizado de máquina com uma solução de Inteligência Artificial Generativa, a Hume AI, na tarefa de inferir emoções a partir da base de áudios RAVDESS. Verificou-se que os modelos supervisionados, como o Support Vector Machine (SVM), apresentaram desempenho superior e mais equilibrado na classificação de um espectro amplo de emoções, alcançando 61,8% de acurácia na base de teste. Embora demandassem maior esforço em pré-processamento e engenharia de características, esses modelos demonstraram maior robustez e capacidade de generalização. Em contrapartida, a solução generativa da Hume AI, apesar de oferecer simplicidade e rapidez, obteve uma acurácia global de apenas 29% e um F1-Macro de 0,26, evidenciando sua limitação em capturar nuances emocionais sutis, mesmo após o mapeamento ontológico das categorias. A principal contribuição deste trabalho reside na análise comparativa rigorosa, que fornece uma referência prática para pesquisadores e profissionais na escolha de abordagens mais eficazes para o reconhecimento emocional em áudio, impulsionando avanços em aplicações como o diagnóstico clínico precoce em saúde mental.

A pesquisa revelou um trade-off significativo entre a simplicidade das soluções “prontas para uso” e a precisão necessária para uma análise emocional detalhada. Observou-se que a Hume AI se mostrou mais eficaz para emoções de alta intensidade, como a raiva, mas falhou em distinguir categorias mais discretas, como medo e nojo. Os modelos tradicionais, por sua vez, apresentaram maior estabilidade e capacidade preditiva. Como limitações, identificou-se a necessidade de ajustes adicionais nos hiperparâmetros dos modelos Random Forest e XGBoost para mitigar o overfitting. Para estudos futuros, sugere-se a investigação de abordagens híbridas que combinem a agilidade dos modelos generativos com a robustez dos classificadores supervisionados, explorando o uso de embeddings fornecidos por IA para treinar modelos ajustados localmente. Adicionalmente, recomenda-se o fine-tuning de soluções generativas e a exploração de bases de dados de áudios brasileiros mais heterogêneas para avaliar a capacidade de generalização em cenários reais.

Referências Bibliográficas

Akçay, M.B.; Oğuz, K. 2020. Speech emotion recognition: emotional models, databases, features, preprocessing methods, supporting modalities, and classifiers. Speech Communication 116: 56-76.

Alvim, G.; Magalhães, L.L.C.; Bigal, R.L.M.; Medeiros, H.F.G.; Souza, S.R.M.; Silva, C.F.M.; Oliveira, E.P.L.; Pardo, S.R.C. 2022. CORAA: a large corpus of spontaneous and prepared speech manually validated for speech recognition in Brazilian Portuguese. In: International Conference on Language Resources and Evaluation, 2022, Marseille, França. Anais… p. 5908-5915.

Cowie, R.; Douglas-Cowie, E.; Tsapatsoulis, N.; Votsis, G.; Kollias, S.; Fellenz, W.; Taylor, J.G. 2001. Emotion recognition in human-computer interaction. IEEE Signal Processing Magazine 18(1): 32-80.

Cummins, N.; Scherer, S.; Krajewski, J.; Schnieder, S.; Epps, J.; Quatieri, T.F. 2015. A review of depression and suicide risk assessment using speech analysis. Speech Communication 71: 10-49.

Gartner [GARTNER]. 2020. Market guide for text analytics. Disponível em: . Acesso em: 24 mar. 2025.

Goodfellow, I.; Bengio, Y.; Courville, A. 2016. Deep Learning. The MIT Press, Cambridge, MA, EUA.

Hume Al. 2025. Expression Measurement Prosody. Disponível em: . Acesso em: 25 set. 2025.

Khare, S.K.; Blanes-Vidal, V.; Nadimi, E.S.; Acharya, U.R. 2024. Emotion recognition and artificial intelligence: a systematic review (2014–2023) and research recommendations. Information Fusion 102: 102019.

Latif, S.; Rana, R.; Qadir, J.; Epps, J.; Schuller, B.W. 2020. Deep representation learning in speech processing: challenges, recent advances, and future trends. Computer Speech & Language 68: 101-178.

Li, Y.; Schuckert, M.; Law, R.; Wang, J. 2020. The impact of artificial intelligence on security and privacy in smart cities. Journal of Urban Technology 27(2): 65-85.

Livingstone, S.R.; Russo, F.A. 2018. The ryerson audio-visual database of emotional speech and song (RAVDESS). PLoS ONE 13(5): e0196391.

Luckin, R.; Holmes, W. 2016. Intelligence Unleashed: An Argument for Al in Education. Pearson, London, UK.

OpenAl. 2022. Whisper: robust speech recognition via large-scale audio training. Disponível em: . Acesso em: 29 mar. 2025.

Poria, S.; Majumder, N.; Mihalcea, R.; Hovy, E. 2019. Emotion recognition in conversation: research challenges, datasets, and recent advances. IEEE Access 7: 100943-100953.

Purwins, H.; Li, B.; Virtanen, T.; Schlüter, J.; Chang, S.Y.; Sainath, T. 2019. Deep learning for audio signal processing. IEEE Journal of Selected Topics in Signal Processing 13(2): 206-219.

Schuller, B.; Batliner, A.; Steidl, S.; Seppi, D. 2011. Recognizing realistic emotions and affect in speech: state of the art and lessons learnt from the first challenge. Speech Communication 53(9-10): 1062-1087.

Sheakh, M.A.; Azam, S.; Tahosin, M.S.; Karim, A.; Montaha, S.; Fahim, K.U.; De Boer, F. 2024. ECgMLP: a novel gated MLP model for enhanced endometrial cancer diagnosis. Computer Methods and Programs in Biomedicine Update 5: 100181.

Tan, X.; Qin, T.; Soong, F.; Liu, T.-Y. 2021. A survey on neural speech synthesis. Disponível em: . Acesso em: 27 set. 2025.

Topol, E. 2019. Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again. Basic Books, New York, NY, EUA.

Artigo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade