Artigo

22 de junho de 2026

Detecção de emoções em áudio: Machine learning vs GenAl

Carlos Eduardo Frantz Manchini; Thiago Gentil Ramires

DOI: 10.22167/2675-6528-2026M15

Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação

Resumo

O reconhecimento automático de emoções na voz mostrou-se essencial para aplicações na área da saúde, permitindo a identificação de estados emocionais sem supervisão humana contínua. Este trabalho teve como objetivo comparar modelos tradicionais de machine learning com uma solução de Inteligência Artificial Generativa, a Hume AI, na tarefa de inferir emoções advindas da base de áudios RAVDESS. Para a abordagem convencional, foram extraídas características acústicas de 1440 áudios para treinar classificadores como SVM e XGBoost. Na abordagem generativa, os mesmos áudios foram processados pela API Expression Measurement-Prosody da Hume AI. Como principais resultados, observou-se que a solução generativa identificou com facilidade emoções de alta intensidade, como raiva, porém confundiu categorias mais sutis. Em contrapartida, os modelos tradicionais, ainda que demandassem maior pré-processamento, alcançaram desempenho superior e mais equilibrado entre todas as classes avaliadas, com o classificador Support Vector Machine atingindo 61,8% de acurácia na base de teste, enquanto a API Hume obteve 29% de acurácia global e 0,26 de F1-Macro. Concluiu-se que modelos supervisionados permanecem mais precisos e robustos para capturar o espectro emocional e classificar emoções em áudio, evidenciando um trade-off entre a simplicidade das soluções “prontas para uso” e a precisão necessária para uma análise emocional detalhada.

Palavras-chave: Aprendizado supervisionado; Classificação de áudio; Prosódia; Reconhecimento de emoções.

1. Introdução

Os avanços recentes em Data Science e Inteligência Artificial (IA) têm transformado a abordagem de problemas complexos, especialmente na análise e interpretação de dados não estruturados. Estes dados, que abrangem textos, imagens e áudios, constituem a maior parte da informação gerada atualmente, com oitenta por cento dos novos dados empresariais sendo não-estruturados (Gartner, 2020). A extração de insights desse volume é fundamental para a competitividade, viabilizada por aprendizado de máquina e profundo (Goodfellow et al., 2016).

A aplicação dessas inovações, notadamente da Inteligência Artificial Generativa (GenAI) e dos modelos de linguagem de grande escala (LLMs), tem gerado benefícios em diversas áreas. Na saúde, modelos generativos auxiliam no diagnóstico e tratamento (Topol, 2019), com acurácia superior a noventa e nove por cento em câncer (Sheakh et al., 2024). Na segurança, a IA aprimora o reconhecimento facial e a detecção de fraudes (Li et al., 2020). Na educação, a GenAI cria assistentes virtuais e materiais adaptativos (Luckin et al., 2016).

No processamento de áudio, a IA tem sido empregada em assistentes de voz e tradução automática, permitindo interações mais naturais entre humanos e máquinas (Tan et al., 2021). Neste contexto, o reconhecimento automático de emoções em áudio (SER – Speech Emotion Recognition) é uma área crucial, embora desafiadora devido à complexidade dos dados e das emoções humanas. Akçay e Oğuz (2020) indicam que o SER se baseia em padrões acústicos distintos, como variações na entonação, ritmo, intensidade e qualidade vocal, modelados por aprendizado de máquina. Com o avanço de modelos de GenAI baseados em redes neurais profundas, soluções mais sofisticadas para processar e interpretar sinais de áudio estão sendo exploradas (Purwins et al., 2019).

Este estudo foca na comparação entre métodos tradicionais de Machine Learning e modelos generativos de IA para a identificação de emoções em áudio. Inicialmente, considerou-se o uso do conjunto de dados CORAA – Corpus of Annotated Audios (Alvim et al., 2022), com gravações em português. Contudo, o CORAA apresentou limitações significativas, como a ausência de rótulos detalhados e a falta de diversidade de amostras emocionais.

Devido a essas limitações, optou-se pelo conjunto de dados RAVDESS – Ryerson Audio-Visual Database of Emotional Speech and Song (Livingstone e Russo, 2018), amplamente utilizado em pesquisas de detecção de emoções. Esta escolha permitiu uma análise comparativa detalhada entre abordagens tradicionais (extração de características acústicas) e modelos generativos (processamento direto das gravações). Embora modelos de aprendizado profundo (fundamento da GenAI) superem técnicas convencionais em SER (Khare et al., 2024), desafios como a interpretabilidade e a necessidade de grandes volumes de dados persistem (Latif et al., 2020). Este cenário justifica a investigação das vantagens e desvantagens dos modelos generativos, considerando precisão, robustez, eficiência computacional e generalização.

A motivação para esta pesquisa advém do crescente emprego de modelos generativos em processamento de linguagem natural e reconhecimento automático de fala, pela sua capacidade de identificar emoções via áudio. Esses avanços oferecem oportunidades práticas, como aprimoramento de interfaces conversacionais, criação de ferramentas de suporte emocional e diagnóstico clínico precoce, particularmente na saúde mental. Alterações sutis no tom de voz podem indicar precocemente sintomas como estresse ou ansiedade, possibilitando intervenções preventivas (Cummins et al., 2015). Em serviços de atendimento ao consumidor, a detecção emocional em tempo real otimiza interações (Poria et al., 2019).

Este estudo busca contribuir para a literatura acadêmica ao fornecer uma análise comparativa rigorosa entre métodos tradicionais e modelos generativos na detecção de emoções em áudio. Os resultados podem servir como referência prática para pesquisadores e profissionais, impulsionando o reconhecimento emocional por IA. Assim, o objetivo deste trabalho é comparar modelos tradicionais de aprendizado de máquina com uma solução de Inteligência Artificial Generativa, a Hume AI, na tarefa de inferir emoções a partir da base de áudios RAVDESS.

2. Material e Métodos

Este estudo caracterizou-se como uma pesquisa experimental aplicada, com abordagem quantitativa, que avaliou comparativamente o desempenho de duas abordagens distintas no reconhecimento de emoções em áudio. A primeira abordagem empregou técnicas tradicionais de Machine Learning, baseadas em engenharia de atributos. A segunda, mais recente, utilizou uma solução de Inteligência Artificial Generativa, fundamentada em modelos de processamento de linguagem natural.

Para a condução da pesquisa, inicialmente considerou-se o uso do conjunto de dados CORAA – Corpus of Annotated Audios (Alvim et al., 2022), que contém gravações em português brasileiro. Contudo, devido a limitações como a ausência de rótulos detalhados e a falta de diversidade de amostras emocionais, optou-se pelo conjunto de dados RAVDESS – Ryerson Audio-Visual Database of Emotional Speech and Song (Livingstone e Russo, 2018). Este corpus, amplamente adotado em pesquisas de detecção de emoções, possui 1440 áudios de 24 pessoas, com 60 variações de fala e canto, categorizados em oito emoções: raiva, calma, nojo, medo, felicidade, neutro, tristeza e surpresa.

Realizou-se um pré-processamento em todos os áudios para garantir a consistência da análise comparativa e a qualidade dos dados. As etapas incluíram redução de ruídos, padronização dos sinais sonoros e ajuste nas variações de volume, visando a uniformização dos dados. Conforme Cowie et al. (2001), a fala humana contém informações prosódicas, como tom, intensidade e ritmo, que são essenciais para inferir emoções, justificando a limpeza dos áudios para otimizar a detecção de padrões relevantes.

Na abordagem tradicional, a extração de atributos para treinar os algoritmos de Machine Learning e classificação seguiu as práticas descritas por Akçay e Oğuz (2020). As principais características acústicas extraídas incluíram Coeficientes Cepstrais de Frequência Mel (MFCCs), que representam a estrutura espectral; Chroma Features, para entonação e ressonância da voz; Zero-Crossing Rate (ZCR), que captura mudanças de sinal; e padrões de intensidade, como energia RMS e frequências fundamentais (pitch F0). Adicionalmente, incorporaram-se medidas como Spectral Contrast, descritores espectrais (Centroide, Largura de Banda e Roll-off) e variações temporais dos coeficientes MFCC (delta MFCCs).

Com as características extraídas, diferentes algoritmos de aprendizado supervisionado foram testados para a classificação das emoções, incluindo Random Forest, Support Vector Machines (SVM) e Redes Neurais Artificiais (Multi-Layer Perceptron – MLP), seguindo a metodologia de Schuller et al. (2011). A seleção do melhor modelo fundamentou-se em métricas de desempenho e empregou-se a validação cruzada estratificada k-fold para assegurar a robustez dos resultados. A base de dados RAVDESS foi dividida estratificadamente em conjuntos de treino (70%) e teste (30%).

Para a seleção de atributos, buscou-se manter as características mais relevantes e evitar problemas de multicolinearidade. Uma análise de correlação de Pearson indicou forte correlação entre as variáveis Chroma, que foram substituídas por três componentes principais via PCA, preservando 88% da variabilidade explicada. Identificou-se redundância entre outras características, e a seleção final baseou-se na importância explicativa pelo XGBoost, visando um modelo parcimonioso.

Na abordagem generativa, inicialmente considerou-se o sistema de reconhecimento automático de fala Whisper (OpenAI, 2022). Contudo, essa ferramenta foi descartada por se limitar à transcrição textual, não contemplando intensidades e detalhes acústicos cruciais para a análise emocional. Adotou-se, então, o modelo da Hume AI (2025), que processou e inferiu emoções diretamente a partir das gravações. Esta solução utiliza modelos proprietários de deep learning, treinados em grandes volumes de dados multimodais, sem a necessidade de extração manual de características.

Para o processamento dos 1440 áudios pela API Hume Expression Measurement – Prosody, os arquivos foram divididos em 15 lotes, respeitando as limitações de envio do serviço em nuvem. A API retornou scores associados a diferentes categorias emocionais, permitindo avaliar a probabilidade relativa de cada estado afetivo. Para viabilizar a comparação com o RAVDESS, que possui oito categorias emocionais, realizou-se um mapeamento ontológico dos rótulos da Hume AI para as classes do RAVDESS, definindo as correspondências: boredom para neutro, amusement para felicidade e excitement para surpresa.

A implementação dos experimentos realizou-se utilizando a linguagem Python, com o auxílio de bibliotecas especializadas. A biblioteca Librosa foi empregada para a extração de características acústicas, pydub para manipulação e conversão de arquivos de áudio, e Scikit-learn para os algoritmos de classificação, avaliação e cálculo das métricas. Para a avaliação da abordagem generativa, utilizou-se a API Hume Expression Measurement, acessada via chamadas HTTP integradas ao Python. As métricas de desempenho, como acurácia, precisão, revocação e F1-score, calcularam-se com suporte da biblioteca scikit-learn. Visualizações, como matrizes de confusão, geraram-se com Matplotlib e Seaborn. Para embasamento estatístico, aplicaram-se testes de significância entre modelos, como Wilcoxon/Mann-Whitney ou Friedman.

3. Resultados e Discussão

A etapa inicial do estudo concentrou-se na definição e seleção da base de dados mais adequada para a análise comparativa de reconhecimento de emoções em áudio. Inicialmente, considerou-se o uso do corpus CORAA, que contém gravações em português brasileiro. Contudo, o CORAA apresentou limitações significativas, como a ausência de rótulos detalhados para as emoções, uma variedade restrita de categorias emocionais (neutros, não-neutro masculino e não-neutro feminino) e a falta de um gabarito concreto para a mensuração quantitativa da assertividade das classificações. Essas deficiências inviabilizaram uma análise comparativa robusta e refinada entre as diferentes emoções, o que levou à escolha da base de dados RAVDESS.

O conjunto de dados RAVDESS – Ryerson Audio-Visual Database of Emotional Speech and Song (Livingstone e Russo, 2018) foi selecionado por oferecer um corpus mais rico e balanceado, com oito emoções categorizadas e um gabarito perito. As emoções incluídas são raiva (angry), calma (calm), nojo (disgust), medo (fearful), felicidade (happy), neutro (neutral), tristeza (sad) e surpresa (surprised). A base é composta por 1440 áudios, gravados por 24 indivíduos, com 60 variações que abrangem narrativa, intensidade, emoção e repetição. Essa escolha permitiu uma avaliação mais precisa e consistente das abordagens tradicionais de machine learning e da solução de Inteligência Artificial Generativa.

A análise exploratória dos dados foi fundamental para compreender o comportamento das características acústicas e identificar aquelas com maior capacidade discriminativa entre as emoções. As primeiras visualizações gráficas, utilizando coeficientes Cepstrais de Frequência Mel (MFCC) e espectrogramas Log-Mel, revelaram diferenças significativas, especialmente entre as emoções mais extremas, como tristeza e raiva. Observou-se que, para a emoção de raiva, as frequências eram mais acentuadas e dispersas em comparação com a tristeza, indicando padrões acústicos distintos que poderiam ser explorados pelos modelos de classificação.

Para enriquecer o conjunto de características (features) candidatas e captar informações acústicas adicionais, foram incluídas diversas medidas. Dentre elas, destacam-se a energia RMS (Root Mean Square Energy), que quantifica a intensidade do som em decibéis, e o Spectral Contrast, que mede a diferença de energia entre frequências. Também foram incorporados o Zero Crossing Rate (ZCR), que indica a taxa de mudança de sinal, e descritores espectrais como Centroide, Largura de Banda e Roll-off. Características relacionadas ao pitch fundamental (F0), como sua média e variância, foram calculadas para capturar a entonação e melodia da fala. Por fim, variações temporais dos coeficientes MFCC, os delta MFCC, foram adicionadas para registrar mudanças na intensidade e timbre da voz ao longo do tempo, conforme as práticas descritas por Akçay e Oğuz (2020).

A etapa de seleção de features foi crucial para manter apenas as variáveis mais relevantes para a classificação das emoções e mitigar problemas de multicolinearidade. A análise de correlação de Pearson revelou que as variáveis Chroma apresentavam forte correlação entre si, o que era esperado devido ao caráter cíclico das notas musicais. Para resolver essa redundância, as 12 features Chroma originais foram substituídas por três componentes principais (PCA), preservando 88% da variabilidade explicada. Além disso, identificou-se forte redundância entre outros pares de features, com correlação absoluta superior a 0,8 e correlação positiva acima de 0,9 para dois pares específicos. Nesses casos, optou-se por manter duas das quatro variáveis mais importantes, baseando-se na relevância explicativa pelo XGBoost, a fim de obter um modelo mais parcimonioso.

A comparação entre o modelo completo e o modelo reduzido de features, utilizando o algoritmo XGBoost, demonstrou a eficácia da seleção. O modelo completo, com 81 features, alcançou uma acurácia de 0,660 e um F1-Macro de 0,648. Em contraste, o modelo reduzido, com apenas 23 features (uma redução de 71,6%), obteve uma acurácia de 0,657 e um F1-Macro de 0,635. A diferença de apenas 0,013 no F1-Macro, equivalente a aproximadamente 2%, indica que a abordagem de seleção de features baseada na importância do XGBoost permitiu construir um modelo mais parcimonioso e computacionalmente eficiente, sem comprometer significativamente a capacidade de reconhecimento emocional. Essa evidência sustentou a decisão de prosseguir com a abordagem compacta para a modelagem dos dados.

A modelagem estatística foi realizada com três algoritmos de aprendizado supervisionado clássicos: Support Vector Machines (SVM), XGBoost e Random Forest. A base de dados RAVDESS foi dividida de forma estratificada em conjuntos de treino e teste, utilizando 70% e 30% dos dados, respectivamente. As métricas de desempenho avaliadas foram acurácia e F1-Macro, sendo esta última escolhida por sua robustez em problemas multiclasse e potencialmente desbalanceados, garantindo uma avaliação mais equilibrada entre as categorias emocionais. Os resultados apontaram uma performance moderada geral dos modelos, com destaque para o SVM.

Os resultados detalhados dos modelos de Machine Learning revelaram que o SVM obteve uma acurácia de treino de 0,852 e uma acurácia de teste de 0,618, com F1-Macro de treino de 0,848 e F1-Macro de teste de 0,607. O XGBoost apresentou acurácia de treino de 0,910 e acurácia de teste de 0,567, com F1-Macro de treino de 0,911 e F1-Macro de teste de 0,545. Já o Random Forest teve acurácia de treino de 0,851 e acurácia de teste de 0,458, com F1-Macro de treino de 0,851 e F1-Macro de teste de 0,443. Foi observado um maior overfitting nos modelos Random Forest e XGBoost, o que indica a necessidade de ajustes adicionais nos hiperparâmetros para melhorar a performance. A superioridade do SVM foi evidente, principalmente pela sua estabilidade e capacidade de generalização preditiva na base de teste.

A análise da matriz de confusão para o modelo SVM revelou a assertividade da classificação predita das emoções em relação às emoções reais. A maior parte dos valores concentrou-se na diagonal principal, indicando um bom número de verdadeiros-positivos para cada classe. Contudo, o modelo demonstrou dificuldade em distinguir emoções que compartilham características sonoras semelhantes. Emoções de alta intensidade, como calma e surpresa, foram reconhecidas com maior facilidade. Por outro lado, sentimentos com intensidades mais próximas, como neutro, calmo e tristeza, apresentaram sobreposição e geraram trocas frequentes nas classificações, evidenciando a complexidade da diferenciação de nuances emocionais sutis por meio de descritores acústicos.

No escopo da pipeline generativa, a API Hume Expression Measurement foi incorporada para processar os 1440 áudios. Para viabilizar o envio e processamento no serviço em nuvem, os áudios foram divididos em 15 lotes, respeitando as limitações de envio impostas pela API. Inicialmente, considerou-se o uso do sistema Whisper (OpenAI, 2022) para reconhecimento automático de fala, mas foi descartado por se limitar à transcrição textual e não considerar intensidades e detalhes acústicos essenciais para a análise emocional. A estratégia de transcrever o áudio e processar o texto com um Large Language Model (LLM) foi considerada inadequada, pois poderia sacrificar nuances prosódicas e afetivas, que são cruciais para a detecção de emoções. Dessa forma, a solução da Hume AI (2025) foi adotada, a qual utiliza modelos proprietários de deep learning treinados em grandes volumes de dados multimodais para detectar estados emocionais diretamente das gravações, sem a necessidade de extração manual de características. A API retorna scores associados a diferentes categorias emocionais, permitindo avaliar a probabilidade relativa de cada estado afetivo.

Um aspecto crucial para a comparação entre as abordagens foi a diferença nas taxonomias emocionais utilizadas. Enquanto o corpus RAVDESS categoriza as emoções em oito rótulos bem definidos, a API da Hume retorna previsões em um conjunto distinto de rótulos, incluindo termos como *boredom*, *amusement* e *excitement*. Para permitir uma avaliação quantitativa justa, foi necessário construir um mapeamento ontológico, aproximando semanticamente os rótulos da Hume às classes do RAVDESS. As correspondências estabelecidas foram: *boredom* para neutro, *amusement* para felicidade e *excitement* para surpresa. Essa harmonização foi essencial para viabilizar a comparação direta do desempenho da Hume com o conjunto de referência.

Após a aplicação do mapeamento das categorias, observou-se uma melhora parcial nos resultados da Hume AI. Emoções de maior intensidade, como a raiva, apresentaram um desempenho expressivo, com um F1-score de 0,65. Contudo, classes mais sutis, como medo e nojo, obtiveram valores de F1 próximos de zero. Isso indica que parte da baixa acurácia inicial da Hume decorreu do desalinhamento entre categorias, mas também que, mesmo após a harmonização, o modelo generativo ainda possui limitações para captar nuances emocionais mais discretas. A matriz de confusão da Hume AI evidenciou uma tendência a concentrar predições em classes mais neutras e uma maior dificuldade em identificar corretamente emoções menos intensas, como medo e nojo, que foram amplamente confundidas com outras categorias, incluindo estados mais próximos como calmo e neutro.

Comparativamente, os modelos supervisionados (SVM, XGBoost e Random Forest), conforme os resultados apresentados, alcançaram uma acurácia média de 55% e um F1-Macro de 0,53 na base de teste. Esses valores indicam uma capacidade razoável no reconhecimento das emoções em áudio. Em contrapartida, os experimentos com a API Hume resultaram em uma acurácia global de apenas 29% e um F1-Macro de 0,26, mesmo após o mapeamento ontológico das categorias. Esses dados confirmam a inferioridade da solução generativa quando aplicada diretamente ao corpus de referência, evidenciando que a API Hume classificou corretamente pouco mais de uma em cada cinco amostras, enquanto as abordagens tradicionais baseadas em descritores acústicos atingiram entre metade e dois terços de previsões corretas.

Ainda que os classificadores supervisionados demandassem maior esforço na preparação dos dados, seleção de features e ajuste de hiperparâmetros, eles obtiveram métricas superiores para capturar a diversidade de emoções. Esses resultados reforçam que soluções “prontas para uso”, como a Hume AI, podem ser uma alternativa rápida quando o interesse se restringe a emoções intensas, mas não substituem a consistência e a precisão de modelos ajustados para capturar um espectro emocional mais detalhado. Adicionalmente, o uso da API Hume implicou um custo financeiro de aproximadamente US$ 3,60 para o processamento completo dos 1440 áudios, um fator relevante a ser considerado na escalabilidade da solução.

Em síntese, a pesquisa demonstrou que, embora as soluções de Inteligência Artificial Generativa como a Hume AI ofereçam simplicidade e rapidez no processamento, os modelos tradicionais de machine learning, especialmente o SVM, apresentaram desempenho superior e mais equilibrado na classificação de um espectro mais amplo de emoções em áudio. A capacidade de generalização e a precisão dos modelos supervisionados, mesmo com a necessidade de pré-processamento e engenharia de características, os tornam mais robustos para aplicações que demandam uma análise emocional detalhada e confiável, enquanto a Hume AI se mostrou mais eficaz para emoções de alta intensidade, mas limitada para nuances sutis.

4. Conclusão

Este estudo teve como objetivo comparar modelos tradicionais de aprendizado de máquina com uma solução de Inteligência Artificial Generativa, a Hume AI, na tarefa de inferir emoções a partir da base de áudios RAVDESS. Verificou-se que os modelos supervisionados, como o Support Vector Machine (SVM), apresentaram desempenho superior e mais equilibrado na classificação de um espectro amplo de emoções, alcançando 61,8% de acurácia na base de teste. Embora demandassem maior esforço em pré-processamento e engenharia de características, esses modelos demonstraram maior robustez e capacidade de generalização. Em contrapartida, a solução generativa da Hume AI, apesar de oferecer simplicidade e rapidez, obteve uma acurácia global de apenas 29% e um F1-Macro de 0,26, evidenciando sua limitação em capturar nuances emocionais sutis, mesmo após o mapeamento ontológico das categorias. A principal contribuição deste trabalho reside na análise comparativa rigorosa, que fornece uma referência prática para pesquisadores e profissionais na escolha de abordagens mais eficazes para o reconhecimento emocional em áudio, impulsionando avanços em aplicações como o diagnóstico clínico precoce em saúde mental.

A pesquisa revelou um trade-off significativo entre a simplicidade das soluções “prontas para uso” e a precisão necessária para uma análise emocional detalhada. Observou-se que a Hume AI se mostrou mais eficaz para emoções de alta intensidade, como a raiva, mas falhou em distinguir categorias mais discretas, como medo e nojo. Os modelos tradicionais, por sua vez, apresentaram maior estabilidade e capacidade preditiva. Como limitações, identificou-se a necessidade de ajustes adicionais nos hiperparâmetros dos modelos Random Forest e XGBoost para mitigar o overfitting. Para estudos futuros, sugere-se a investigação de abordagens híbridas que combinem a agilidade dos modelos generativos com a robustez dos classificadores supervisionados, explorando o uso de embeddings fornecidos por IA para treinar modelos ajustados localmente. Adicionalmente, recomenda-se o fine-tuning de soluções generativas e a exploração de bases de dados de áudios brasileiros mais heterogêneas para avaliar a capacidade de generalização em cenários reais.

Referências Bibliográficas

Akçay, M.B.; Oğuz, K. 2020. Speech emotion recognition: emotional models, databases, features, preprocessing methods, supporting modalities, and classifiers. Speech Communication 116: 56-76.

Alvim, G.; Magalhães, L.L.C.; Bigal, R.L.M.; Medeiros, H.F.G.; Souza, S.R.M.; Silva, C.F.M.; Oliveira, E.P.L.; Pardo, S.R.C. 2022. CORAA: a large corpus of spontaneous and prepared speech manually validated for speech recognition in Brazilian Portuguese. In: International Conference on Language Resources and Evaluation, 2022, Marseille, França. Anais… p. 5908-5915.

Cowie, R.; Douglas-Cowie, E.; Tsapatsoulis, N.; Votsis, G.; Kollias, S.; Fellenz, W.; Taylor, J.G. 2001. Emotion recognition in human-computer interaction. IEEE Signal Processing Magazine 18(1): 32-80.

Cummins, N.; Scherer, S.; Krajewski, J.; Schnieder, S.; Epps, J.; Quatieri, T.F. 2015. A review of depression and suicide risk assessment using speech analysis. Speech Communication 71: 10-49.

Gartner [GARTNER]. 2020. Market guide for text analytics. Disponível em: . Acesso em: 24 mar. 2025.

Goodfellow, I.; Bengio, Y.; Courville, A. 2016. Deep Learning. The MIT Press, Cambridge, MA, EUA.

Hume Al. 2025. Expression Measurement Prosody. Disponível em: . Acesso em: 25 set. 2025.

Khare, S.K.; Blanes-Vidal, V.; Nadimi, E.S.; Acharya, U.R. 2024. Emotion recognition and artificial intelligence: a systematic review (2014–2023) and research recommendations. Information Fusion 102: 102019.

Latif, S.; Rana, R.; Qadir, J.; Epps, J.; Schuller, B.W. 2020. Deep representation learning in speech processing: challenges, recent advances, and future trends. Computer Speech & Language 68: 101-178.

Li, Y.; Schuckert, M.; Law, R.; Wang, J. 2020. The impact of artificial intelligence on security and privacy in smart cities. Journal of Urban Technology 27(2): 65-85.

Livingstone, S.R.; Russo, F.A. 2018. The ryerson audio-visual database of emotional speech and song (RAVDESS). PLoS ONE 13(5): e0196391.

Luckin, R.; Holmes, W. 2016. Intelligence Unleashed: An Argument for Al in Education. Pearson, London, UK.

OpenAl. 2022. Whisper: robust speech recognition via large-scale audio training. Disponível em: . Acesso em: 29 mar. 2025.

Poria, S.; Majumder, N.; Mihalcea, R.; Hovy, E. 2019. Emotion recognition in conversation: research challenges, datasets, and recent advances. IEEE Access 7: 100943-100953.

Purwins, H.; Li, B.; Virtanen, T.; Schlüter, J.; Chang, S.Y.; Sainath, T. 2019. Deep learning for audio signal processing. IEEE Journal of Selected Topics in Signal Processing 13(2): 206-219.

Schuller, B.; Batliner, A.; Steidl, S.; Seppi, D. 2011. Recognizing realistic emotions and affect in speech: state of the art and lessons learnt from the first challenge. Speech Communication 53(9-10): 1062-1087.

Sheakh, M.A.; Azam, S.; Tahosin, M.S.; Karim, A.; Montaha, S.; Fahim, K.U.; De Boer, F. 2024. ECgMLP: a novel gated MLP model for enhanced endometrial cancer diagnosis. Computer Methods and Programs in Biomedicine Update 5: 100181.

Tan, X.; Qin, T.; Soong, F.; Liu, T.-Y. 2021. A survey on neural speech synthesis. Disponível em: . Acesso em: 27 set. 2025.

Topol, E. 2019. Deep Medicine: How Artificial Intelligence Can Make Healthcare Human Again. Basic Books, New York, NY, EUA.

Artigo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

_{Saiba mais sobre o curso; clique aqui:}

Quem editou este artigo

Mais recentes

22 de junho de 2026

O papel da liderança no processo de motivação no trabalho híbrido

22 de junho de 2026

Previsão de desligamento voluntário e involuntário de colaboradores de uma empresa de bebidas com atuação no Brasil

22 de junho de 2026

Análise do papel da gestão de projetos sustentáveis para o desempenho organizacional no comércio exterior

22 de junho de 2026

O Impacto do Ambiente de Trabalho na Motivação e Saúde Mental dos Colaboradores

22 de junho de 2026

Recrutamento e Seleção: As Ferramentas utilizadas e sua Efetividade na Análise dos Candidatos

22 de junho de 2026

Práticas empresariais sustentáveis no setor de papel e celulose e a percepção do colaborador como “stakeholder”

22 de junho de 2026

Os desafios de gestores escolares na inclusão do aluno com Transtorno do Espectro Autista

22 de junho de 2026

Computação Forense e a Produção de Evidências Digitais no Combate aos Crimes Cibernéticos

22 de junho de 2026

A Percepção do Usuário sobre Chatbots: Análise de Eficiência, Clareza e Confiança no Contexto Brasileiro

Você também pode gostar

22 de junho de 2026

O papel da liderança no processo de motivação no trabalho híbrido

Júlia Vicentini de Miranda; Cristiana Correa Dias Lopes DOI: 10.22167/2675-6528-2026M20 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação Resumo A crescente adoção do modelo de trabalho híbrido, impulsionada pela pandemia de COVID-19, gerou novos desafios na gestão de equipes, engajamento e produtividade. Este estudo investigou […]

22 de junho de 2026

Previsão de desligamento voluntário e involuntário de colaboradores de uma empresa de bebidas com atuação no Brasil

Cássia Cristina Marques Wasseda; Auberth Henrik Venson DOI: 10.22167/2675-6528-2026M19 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação Resumo A previsão de desligamentos voluntários e involuntários de colaboradores é crucial para a gestão de talentos em empresas competitivas. Este estudo objetivou prever tais desligamentos em uma […]

22 de junho de 2026

Análise do papel da gestão de projetos sustentáveis para o desempenho organizacional no comércio exterior

Nathália Falsetti; Anne Rocha DOI: 10.22167/2675-6528-2026M18 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação Resumo A crescente pressão por responsabilidade socioambiental impulsionou empresas do comércio exterior a integrar projetos sustentáveis em seus modelos de negócio, com indicadores ESG influenciando decisões de investimento e crédito para […]

22 de junho de 2026

O Impacto do Ambiente de Trabalho na Motivação e Saúde Mental dos Colaboradores

Maria Eunice Mendes; Josiel William Paes Rodrigues DOI: 10.22167/2675-6528-2026M17 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação Resumo A crescente preocupação com a saúde mental no ambiente de trabalho tem impulsionado empresas a adotar ações de bem-estar, contudo, a sobrecarga e a falta de apoio […]

22 de junho de 2026

Recrutamento e Seleção: As Ferramentas utilizadas e sua Efetividade na Análise dos Candidatos

Hozana Santos de Sousa do Nascimento; Luciana Cardoso Siqueira Ambrozini DOI: 10.22167/2675-6528-2026M16 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação Resumo A análise de candidatos em processos seletivos corporativos é um procedimento essencial que impacta diretamente a composição do quadro de funcionários e o desempenho […]

22 de junho de 2026

Práticas empresariais sustentáveis no setor de papel e celulose e a percepção do colaborador como “stakeholder”

Beatriz Geha Carvalho; Daniela Fontana DOI: 10.22167/2675-6528-2026M14 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação Resumo As práticas sustentáveis empresariais surgiram para mitigar impactos ambientais e sociais, sendo o setor de papel e celulose um campo relevante devido aos incidentes ambientais e ao engajamento em […]

22 de junho de 2026

Os desafios de gestores escolares na inclusão do aluno com Transtorno do Espectro Autista

Yago Henrique dos Santos; Tatiana Giselle Guimarães Lopes DOI: 10.22167/2675-6528-2026M13 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação Resumo O presente estudo analisou os desafios enfrentados pela gestão escolar na inclusão de estudantes com Transtorno do Espectro Autista (TEA) em escolas regulares, considerando a evolução […]

22 de junho de 2026

Computação Forense e a Produção de Evidências Digitais no Combate aos Crimes Cibernéticos

Elton Riva Moura Lima; Gabriel Gomes de Oliveira DOI: 10.22167/2675-6528-2026M12 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação Resumo A evolução dos crimes cibernéticos e a crescente complexidade das ameaças digitais tornaram essencial a atualização das abordagens de investigação forense digital. Este estudo investigou as […]

22 de junho de 2026

A Percepção do Usuário sobre Chatbots: Análise de Eficiência, Clareza e Confiança no Contexto Brasileiro

Elielton Pereira Santos; José Eduardo Vilas Bôas DOI: 10.22167/2675-6528-2026M11 Artigo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação Resumo O avanço da Inteligência Artificial (IA) estabeleceu os chatbots como ferramentas comuns no atendimento ao cliente, embora interações ineficazes possam gerar insatisfação e desconfiança. O estudo objetivou […]

Saúde

02 de junho de 2026

Como liderar equipes multiprofissionais em projetos complexos na saúde

O maior desafio do setor é a dificuldade de transformar excelência individual em resultado coletivo Projetos estratégicos na saúde raramente fracassam por escassez de conhecimento técnico. Em geral, o que acontece é que as organizações reúnem excelentes profissionais que não conseguem atuar como sistema diante de prioridades conflitantes, pressões assistenciais permanentes e estruturas historicamente fragmentadas. […]

CSRD: a nova fronteira da transparência das empresas

Sustentabilidade

29 de maio de 2026

CSRD: a nova fronteira da transparência das empresas

Antes considerados como única medida do sucesso das empresas, balanços financeiros perdem protagonismo, e sustentabilidade assume importância estratégica O mundo corporativo atravessa uma transformação sem precedentes na forma como comunica seu valor à sociedade. Se antes o sucesso de uma companhia era medido quase exclusivamente por balanços financeiros, hoje a sustentabilidade assumiu o protagonismo estratégico. […]

Inteligência Artificial

22 de maio de 2026

O custo real da IA nas empresas de TI

Próximo ciclo da tecnologia nas organizações deve ser menos marcado pela euforia da substituição e mais pela disciplina da sustentabilidade operacional A incorporação acelerada da inteligência artificial nas empresas de tecnologia tem sido apresentada como um caminho quase inevitável para aumentar produtividade, reduzir custos e substituir parte do trabalho humano em atividades técnicas, administrativas e, […]

O novo Plano Nacional de Educação e o desafio da execução

Desafios

18 de maio de 2026

O novo Plano Nacional de Educação e o desafio da execução

Texto aprovado apresenta maior densidade em cinco dimensões, mas enfrenta a questão da atratividade da carreira docente Aprovado pelo Congresso e sancionado pelo presidente Luiz Inácio Lula da Silva em abril deste ano, o novo Plano Nacional de Educação (PNE) reposiciona a qualidade e a equidade do acesso ao ensino no centro da política educacional […]

Engajamento

11 de maio de 2026

Engajamento, emoções e performance: oportunidades estratégicas

Organizações brasileiras podem avançar na gestão de pessoas criando práticas organizacionais mais estruturadas O engajamento no trabalho tem se consolidado, nas últimas décadas, como um dos principais constructos explicativos da performance organizacional, especialmente em contextos de transformação tecnológica acelerada. O relatório “State of the Global Workplace 2026”, da Gallup, oferece evidências robustas de que, apesar […]

Incentivos à exportação e padrão produtivo: o papel do drawback no Brasil

Finanças

04 de maio de 2026

Incentivos à exportação e padrão produtivo: o papel do drawback no Brasil

Como um regime aduaneiro voltado à exportação influencia custos, incentivos e o padrão produtivo do país A pauta exportadora brasileira mantém, nos últimos anos, um perfil marcado pela relevância de commodities e produtos intermediários. Dados do ComexStat, sistema da Secretaria de Comércio Exterior (SECEX), vinculada ao Ministério do Desenvolvimento, Indústria, Comércio e Serviços (MDIC), indicam que […]

Marketing

28 de abril de 2026

Pensar global, agir caipira

Inovação territorial e estratégias de posicionamento no interior paulista Durante décadas, a narrativa da inovação no Brasil foi dominada pelas grandes capitais, que representavam os imaginários mais comuns quando o assunto era tecnologia, startups e economia do conhecimento. Nos últimos anos, porém, uma cidade do interior paulista passou a aparecer com frequência crescente em reportagens, […]

A novelinha das frutas e a verticalização do absurdo

Digital

24 de abril de 2026

A novelinha das frutas e a verticalização do absurdo

Conteúdo de caráter lúdico prende, mas não alimenta o repertório cognitivo e colabora para o brainrot Nesta semana meu feed foi invadido. Mas não foi por hackers. Foi uma invasão singular, eu diria: ele foi tomado por frutas humanizadas, em diálogos estridentes e roteiros inesperados. O que testemunhamos agora com as chamadas “novelinhas das frutas” […]

Os desafios do uso da IA no ensino superior

Inteligência Artificial

13 de abril de 2026

Os desafios do uso da IA no ensino superior

MEC propõe diretrizes para alinhar uso da tecnologia aos princípios pedagógicos, éticos e sociais que orientam a educação brasileira A incorporação crescente da inteligência artificial nos processos educacionais tem produzido tensões relevantes, especialmente no que se refere à superficialidade do aprendizado e à redução do esforço cognitivo em atividades complexas. Segundo Kasneci et al. (2023), […]

Inovação

Tecnologia

21 de maio de 2026

Corredor Agro SP: inovação, articulação institucional e futuro

Pecege comanda operação executiva das atividades do ecossistema de 400 km que ficou conhecido como Vale do Silício do agro brasileiro Em 2025, além de assumir a gestão do Parque Tecnológico de Piracicaba, o Instituto Pecege também foi designado para comandar a operação executiva das atividades do Corredor de Inovação Agropecuária do Estado, o chamado […]

Educação

27 de abril de 2026

Como transformar um TCC em negócio

Nova gestão do Parque Tecnológico de Piracicaba oferece consultoria a egressos de MBAs O novo diretor de projetos do Parque Tecnológico de Piracicaba (PTP), Alexandre Barreto, costuma dizer que uma das maiores recompensas que já teve na vida foi ver seus orientandos do MBA USP/Esalq estruturarem empresas a partir de seus trabalhos de conclusão de […]

Tecnologia

20 de março de 2026

O repertório humano na era da IA

Pensamento crítico e criatividade são insubstituíveis no trabalho do profissional de marketing A Inteligência Artificial (IA) é capaz de feitos incríveis, mas ainda não possui a capacidade de julgamento, empatia, intuição e criatividade estratégica necessárias para fazer o trabalho de um bom profissional de marketing. Nessa área, é importante saber usar a ferramenta para automatizar […]

Renata de Gaspari Valdejão Almeida

ESG como estratégia de crescimento em uma cooperativa do RS

Agronegócio

Inovação

23 de fevereiro de 2026

ESG como estratégia de crescimento em uma cooperativa do RS

Santa Clara equilibra responsabilidade social e ambiental com inovação Fundada em 1911 por imigrantes italianos em Carlos Barbosa, na serra gaúcha, a Cooperativa Santa Clara é um exemplo de que é possível equilibrar o crescimento econômico com a responsabilidade social e ambiental. De uma pequena empresa de produção de queijos, a organização evoluiu para um […]

Renata de Gaspari Valdejão Almeida

Brasil livre de febre aftosa: o que muda para a carne brasileira?

Agronegócio

Inovação

22 de janeiro de 2026

Brasil livre de febre aftosa: o que muda para a carne brasileira?

Com um rebanho de mais de 200 milhões de cabeças de gado, o país é atualmente o líder em exportações O Brasil recebeu recentemente, pela primeira vez, a certificação de país livre de febre aftosa sem vacinação, conferida pela Organização Mundial de Saúde Animal (OMSA). O selo fortalece a posição do país como fornecedor de carne confiável para o […]

Renata de Gaspari Valdejão Almeida

Inovação

09 de dezembro de 2025

Inovação: o novo ciclo do Parque Tecnológico de Piracicaba

Instituto Pecege assume a gestão apostando na criação de novos negócios A partir de 2026, o Instituto Pecege assumirá a gestão do Parque Tecnológico de Piracicaba (PTP). Entre suas responsabilidades estarão a administração, operação, manutenção e expansão do parque, além do fomento de atividades de inovação, empreendedorismo e ciência e tecnologia. A escolha foi feita […]

Renata de Gaspari Valdejão Almeida

Como Florianópolis virou um polo de oestreicultura

Agronegócio

Inovação

14 de novembro de 2025

Como Florianópolis virou um polo de oestreicultura

Pesquisa e produção na UFSC fortaleceram a atividade, que hoje é vital para a economia local O Laboratório de Moluscos Marinhos da Universidade Federal de Santa Catarina (UFSC) fez de Florianópolis uma referência nacional na produção da ostra do Pacífico. Hoje, 95% das ostras consumidas no Brasil vêm da ilha catarinense. A atividade é vital […]

Renata de Gaspari Valdejão Almeida

Pesquisadora brasileira transforma paixão em prêmio “Nobel” da agricultura

Videocasts

24 de outubro de 2025

Pesquisadora brasileira transforma paixão em prêmio “Nobel” da agricultura

Mariangela Hungria ganhou seu primeiro livro sobre microbiologia da avó, aos 8 anos A cientista Mariangela Hungria, pesquisadora da Embrapa Soja, fez história ao se tornar a primeira mulher brasileira a receber o Prêmio Mundial de Alimentação — considerado o “Nobel” da agricultura. O anúncio foi feito em maio de 2025, e a entrega da […]

Renata de Gaspari Valdejão Almeida

EUA x Brasil: como proteger os investimentos?

Economia

Gestão Financeira

03 de setembro de 2025

EUA x Brasil: como proteger os investimentos?

Especialista em previsão econômica analisa o cenário e faz recomendações a empresas e investidores Entraram em vigor em agosto de 2025 as tarifas de 50% impostas sobre parte das exportações brasileiras para os Estados Unidos. A medida afeta 36% das mercadorias enviadas ao mercado estadunidense, entre elas, o café, as frutas e as carnes. O […]

Renata de Gaspari Valdejão Almeida