Imagem Uso de modelos supervisionados para interpretar sentimentos em comentários de consumidores

19 de fevereiro de 2026

Uso de modelos supervisionados para interpretar sentimentos em comentários de consumidores

Talita Cristiane Krice Moraes; Henrique Raymundo Gioia

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Esta pesquisa identifica e analisa os padrões de sentimentos em avaliações de e-commerce, aplicando aprendizado de máquina para classificar textos como positivos, neutros ou negativos, associando-os aos escores numéricos dos usuários. O objetivo é gerar insights acionáveis para tomadores de decisão, superando as limitações de métricas puramente quantitativas e aprofundando a compreensão da experiência do cliente. A premissa é que a análise textual automatizada oferece uma inteligência estratégica inexplorada por organizações que se restringem a médias de notas.

A digitalização aumentou a relevância das avaliações online, que se tornaram uma fonte primária de feedback. Esses dados, compostos por notas e textos, são um ativo valioso para empresas que buscam otimizar estratégias de atendimento, marketing e produtos (Brand24, 2024). Contudo, o volume e a natureza não estruturada dos textos representam um desafio, pois a análise manual é inviável em larga escala. Isso leva muitas empresas a focar apenas nos indicadores numéricos, negligenciando as percepções subjetivas contidas nos comentários.

O problema prático é a incapacidade das organizações de interpretar sistematicamente os sentimentos nos textos das avaliações. A dependência de notas numéricas pode mascarar insatisfações específicas ou elogios detalhados, cruciais para a melhoria de produtos e serviços (WGSN, 2024). Por exemplo, uma nota intermediária pode conter uma crítica relevante, e uma nota alta pode revelar atributos específicos que geraram satisfação. A análise de sentimento surge como uma solução computacional para preencher essa lacuna, permitindo a classificação automatizada de textos e fornecendo uma análise mais rica (Pessanha et al., 2020).

A contribuição do aprendizado de máquina para a análise de sentimento reside na capacidade de identificar padrões linguísticos complexos e associá-los a polaridades de sentimento (Zhang et al., 2021). A abordagem automatiza a classificação e extrai termos frequentes em diferentes faixas de avaliação, permitindo inferir as causas de satisfação ou insatisfação (Costa, 2022). Com isso, empresas obtêm insights estruturados para a tomada de decisão. Palavras recorrentes em avaliações negativas podem sinalizar falhas de produto ou logística, enquanto expressões em notas altas podem orientar a comunicação (Contents. ai, 2024).

Estudos em Processamento de Linguagem Natural (PLN) e aprendizado de máquina demonstram a eficácia dessas abordagens. Pesquisas como as de Gonçalves e Coelho (2023) destacam sua relevância para a gestão, enquanto trabalhos como os de Kayed et al. (2023) validam o desempenho de algoritmos para classificação textual. A capacidade de compreender sentimentos em escala amplia as possibilidades de aprimoramento de produtos e serviços para empresas de todos os portes (Benevenuto et al., 2018). Este estudo se insere nesse contexto, buscando aplicar e validar um modelo para extrair valor de dados textuais.

A metodologia é de pesquisa aplicada, com foco na resolução do problema prático de interpretar sentimentos em avaliações de consumidores (Vergara, 2011). A abordagem foi quantitativa, envolvendo a análise de dados textuais e numéricos com técnicas estatísticas e computacionais para construir inferências objetivas, conforme Gil (2017). A natureza da pesquisa foi descritiva, buscando observar, registrar e analisar as características dos sentimentos manifestados, descrevendo o fenômeno e identificando relações entre as variáveis.

Utilizou-se a base de dados secundária e pública “Amazon Fine Food Reviews” do Kaggle, com mais de 500 mil avaliações de produtos alimentícios. A base foi selecionada por sua dimensão e pela disponibilidade das variáveis “Score” (nota) e “Text” (avaliação). O uso de dados secundários permitiu acesso a um grande volume de informações, viabilizando análises com alta confiabilidade estatística. A diversidade de avaliações garantiu uma distribuição representativa, embora desbalanceada, entre os sentimentos. O texto da avaliação foi a variável independente e a nota (convertida em sentimento) a variável dependente.

O tratamento dos dados incluiu a seleção das colunas de nota e texto, com exclusão de registros ausentes ou duplicados. A limpeza textual envolveu a remoção de pontuações, números e links, conversão para minúsculas, tokenização e remoção de stopwords. Aplicou-se a lematização para reduzir os termos à sua forma canônica. Os sentimentos foram codificados a partir das notas: 1 e 2 como negativas, 3 como neutra, e 4 e 5 como positivas, preparando os dados para a classificação supervisionada.

A análise dos dados ocorreu em duas fases. A primeira foi uma análise descritiva da distribuição das avaliações e das palavras mais recorrentes por sentimento. Na segunda, de classificação automatizada, foram testados quatro algoritmos: Naive Bayes, Linear Support Vector Classifier (LinearSVC), Regressão Logística e Random Forest, escolhidos por seu desempenho documentado em classificação textual (Zhang et al., 2021; Kayed et al., 2023). Os modelos foram treinados com 80% dos dados e testados com 20%, usando validação cruzada. O desempenho foi avaliado por acurácia, precisão, revocação, F1-score e o coeficiente de correlação de Matthews (MCC), útil em cenários desbalanceados (Pessanha et al., 2020). O processo foi executado em Python com as bibliotecas Pandas, NLTK, spaCy e Scikit-learn.

A análise preliminar revelou uma distribuição assimétrica, com a maioria dos registros na nota 5 (aprox. 360 mil) e nota 4 (aprox. 80 mil). As notas 1 e 2 somaram 87 mil, e a nota 3 teve o menor volume, com 45 mil. Após a recodificação em sentimentos, o desequilíbrio persistiu: a categoria positiva (notas 4 e 5) totalizou mais de 440 mil registros, a negativa (notas 1 e 2) somou 87 mil, e a neutra (nota 3) foi a menos representada, com cerca de 50 mil. Essa polarização e o desbalanceamento foram fatores críticos na modelagem, exigindo métricas de avaliação adequadas para evitar uma análise superestimada baseada na classe majoritária.

A comparação de desempenho dos quatro modelos revelou diferenças significativas. LinearSVC e Regressão Logística apresentaram os melhores resultados, com F1-macro (0.5895 e 0.5893) e MCC (0.4810 e 0.4826) muito próximos, indicando consistência no reconhecimento dos três sentimentos. O Naive Bayes teve desempenho intermediário (F1-macro de 0.549), com boa precisão para a classe positiva, mas dificuldade com as minoritárias. O Random Forest apresentou os resultados mais fracos (F1-macro de 0.4658, MCC de 0.3209), provavelmente devido à dificuldade de modelos baseados em árvores com a alta dimensionalidade e esparsidade de dados textuais representados por TF-IDF.

O modelo LinearSVC foi selecionado como o mais adequado, com acurácia de 0.8103 e maior estabilidade. A análise de sua matriz de confusão confirmou alta performance na classe positiva (877 de 962 avaliações corretas no teste) e moderada na negativa (108 de 182 corretas). O maior desafio foi a classe neutra, com apenas 25 de 95 registros previstos corretamente, sendo a maioria erroneamente atribuída às classes negativa (40) e positiva (30). Isso demonstra que, embora robusto, o modelo tinha capacidade de discernimento assimétrica, refletindo a complexidade semântica da categoria neutra.

A análise lexical via TF-IDF para o LinearSVC identificou os termos mais relevantes por classe. Na negativa, predominaram adjetivos como disappointed, awful, horrible e worst. Termos como return e verbos indicando expectativas frustradas, como thought, também foram proeminentes, sinalizando insatisfação e funcionando como fortes discriminadores para o modelo.

Para a classe neutra, o padrão lexical foi distinto, com ausência de termos de polaridade definida. O advérbio however foi o mais proeminente, indicando contraste. Termos como ok, okay, e substantivos como package e star remeteram a avaliações medianas ou aspectos logísticos. A ausência de sentimento intrínseco nesses termos explica a dificuldade do modelo em classificar esta categoria, levando à confusão com as outras classes.

A classe positiva foi caracterizada por termos de alta polaridade favorável. Adjetivos como great, good, best, delicious, perfect e wonderful dominaram a lista. Verbos de preferência, como love, e adjetivos de estado emocional, como happy, também foram representativos. A clareza semântica desses termos funcionou como âncoras para o classificador, explicando a alta taxa de acerto para esta categoria.

A discussão dos resultados, à luz da literatura, reforça a validade dos achados. A predominância de avaliações positivas confirma tendências observadas por Pessanha et al. (2020). A eficácia do modelo em identificar padrões linguísticos associados à satisfação (uso de great, love) valida a premissa de que a análise de sentimento captura nuances ignoradas por métricas numéricas (Gonçalves e Coelho, 2023). A dificuldade com a classe neutra, devido à sua ambiguidade lexical (however), converge com os desafios de interpretação contextual apontados por WGSN (2024). A identificação de termos operacionais (return, package) demonstra o potencial prático da análise para insights acionáveis em logística e gestão de produtos, como sugerido por Contents. ai (2024) e Benevenuto et al. (2018).

O estudo demonstrou que o aprendizado de máquina, especificamente o modelo LinearSVC, é eficaz para classificar e interpretar sentimentos em avaliações de consumidores. Os resultados indicaram um desempenho robusto, especialmente na identificação de sentimentos positivos, e a análise lexical revelou padrões linguísticos distintos para cada classe. Nas avaliações negativas, predominou um vocabulário de expectativas frustradas; nas positivas, expressões de satisfação; e na neutra, marcadores discursivos ambíguos. A aplicabilidade prática é significativa, permitindo que empresas identifiquem atributos valorizados ou criticados para orientar decisões. As limitações incluem o uso de uma base de dados em inglês e a não consideração de variáveis contextuais, o que abre caminhos para futuras pesquisas.

A investigação atingiu seu propósito ao demonstrar que a análise de sentimentos, apoiada por processamento de linguagem natural, é uma ferramenta poderosa para extrair inteligência de dados textuais em e-commerce. A capacidade de ir além das notas numéricas e compreender o “porquê” da avaliação do consumidor oferece uma vantagem competitiva. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de modelos de aprendizado de máquina, especificamente o LinearSVC, permite não apenas classificar, mas também interpretar os padrões de sentimentos em avaliações de consumidores, identificando o léxico específico que caracteriza a satisfação, a insatisfação e a neutralidade.

Esta pesquisa identifica e analisa os padrões de sentimentos em avaliações de e-commerce, aplicando aprendizado de máquina para classificar textos como positivos, neutros ou negativos, associando-os aos escores numéricos dos usuários. O objetivo é gerar insights acionáveis para tomadores de decisão, superando as limitações de métricas puramente quantitativas e aprofundando a compreensão da experiência do cliente. A premissa é que a análise textual automatizada oferece uma inteligência estratégica inexplorada por organizações que se restringem a médias de notas.

A digitalização aumentou a relevância das avaliações online, que se tornaram uma fonte primária de feedback. Esses dados, compostos por notas e textos, são um ativo valioso para empresas que buscam otimizar estratégias de atendimento, marketing e produtos (Brand24, 2024). Contudo, o volume e a natureza não estruturada dos textos representam um desafio, pois a análise manual é inviável em larga escala. Isso leva muitas empresas a focar apenas nos indicadores numéricos, negligenciando as percepções subjetivas contidas nos comentários.

O problema prático é a incapacidade das organizações de interpretar sistematicamente os sentimentos nos textos das avaliações. A dependência de notas numéricas pode mascarar insatisfações específicas ou elogios detalhados, cruciais para a melhoria de produtos e serviços (WGSN, 2024). Por exemplo, uma nota intermediária pode conter uma crítica relevante, e uma nota alta pode revelar atributos específicos que geraram satisfação. A análise de sentimento surge como uma solução computacional para preencher essa lacuna, permitindo a classificação automatizada de textos e fornecendo uma análise mais rica (Pessanha et al., 2020).

A contribuição do aprendizado de máquina para a análise de sentimento reside na capacidade de identificar padrões linguísticos complexos e associá-los a polaridades de sentimento (Zhang et al., 2021). A abordagem automatiza a classificação e extrai termos frequentes em diferentes faixas de avaliação, permitindo inferir as causas de satisfação ou insatisfação (Costa, 2022). Com isso, empresas obtêm insights estruturados para a tomada de decisão. Palavras recorrentes em avaliações negativas podem sinalizar falhas de produto ou logística, enquanto expressões em notas altas podem orientar a comunicação (Contents. ai, 2024).

Estudos em Processamento de Linguagem Natural (PLN) e aprendizado de máquina demonstram a eficácia dessas abordagens. Pesquisas como as de Gonçalves e Coelho (2023) destacam sua relevância para a gestão, enquanto trabalhos como os de Kayed et al. (2023) validam o desempenho de algoritmos para classificação textual. A capacidade de compreender sentimentos em escala amplia as possibilidades de aprimoramento de produtos e serviços para empresas de todos os portes (Benevenuto et al., 2018). Este estudo se insere nesse contexto, buscando aplicar e validar um modelo para extrair valor de dados textuais.

A metodologia é de pesquisa aplicada, com foco na resolução do problema prático de interpretar sentimentos em avaliações de consumidores (Vergara, 2011). A abordagem foi quantitativa, envolvendo a análise de dados textuais e numéricos com técnicas estatísticas e computacionais para construir inferências objetivas, conforme Gil (2017). A natureza da pesquisa foi descritiva, buscando observar, registrar e analisar as características dos sentimentos manifestados, descrevendo o fenômeno e identificando relações entre as variáveis.

Utilizou-se a base de dados secundária e pública “Amazon Fine Food Reviews” do Kaggle, com mais de 500 mil avaliações de produtos alimentícios. A base foi selecionada por sua dimensão e pela disponibilidade das variáveis “Score” (nota) e “Text” (avaliação). O uso de dados secundários permitiu acesso a um grande volume de informações, viabilizando análises com alta confiabilidade estatística. A diversidade de avaliações garantiu uma distribuição representativa, embora desbalanceada, entre os sentimentos. O texto da avaliação foi a variável independente e a nota (convertida em sentimento) a variável dependente.

O tratamento dos dados incluiu a seleção das colunas de nota e texto, com exclusão de registros ausentes ou duplicados. A limpeza textual envolveu a remoção de pontuações, números e links, conversão para minúsculas, tokenização e remoção de stopwords. Aplicou-se a lematização para reduzir os termos à sua forma canônica. Os sentimentos foram codificados a partir das notas: 1 e 2 como negativas, 3 como neutra, e 4 e 5 como positivas, preparando os dados para a classificação supervisionada.

A análise dos dados ocorreu em duas fases. A primeira foi uma análise descritiva da distribuição das avaliações e das palavras mais recorrentes por sentimento. Na segunda, de classificação automatizada, foram testados quatro algoritmos: Naive Bayes, Linear Support Vector Classifier (LinearSVC), Regressão Logística e Random Forest, escolhidos por seu desempenho documentado em classificação textual (Zhang et al., 2021; Kayed et al., 2023). Os modelos foram treinados com 80% dos dados e testados com 20%, usando validação cruzada. O desempenho foi avaliado por acurácia, precisão, revocação, F1-score e o coeficiente de correlação de Matthews (MCC), útil em cenários desbalanceados (Pessanha et al., 2020). O processo foi executado em Python com as bibliotecas Pandas, NLTK, spaCy e Scikit-learn.

A análise preliminar revelou uma distribuição assimétrica, com a maioria dos registros na nota 5 (aprox. 360 mil) e nota 4 (aprox. 80 mil). As notas 1 e 2 somaram 87 mil, e a nota 3 teve o menor volume, com 45 mil. Após a recodificação em sentimentos, o desequilíbrio persistiu: a categoria positiva (notas 4 e 5) totalizou mais de 440 mil registros, a negativa (notas 1 e 2) somou 87 mil, e a neutra (nota 3) foi a menos representada, com cerca de 50 mil. Essa polarização e o desbalanceamento foram fatores críticos na modelagem, exigindo métricas de avaliação adequadas para evitar uma análise superestimada baseada na classe majoritária.

A comparação de desempenho dos quatro modelos revelou diferenças significativas. LinearSVC e Regressão Logística apresentaram os melhores resultados, com F1-macro (0.5895 e 0.5893) e MCC (0.4810 e 0.4826) muito próximos, indicando consistência no reconhecimento dos três sentimentos. O Naive Bayes teve desempenho intermediário (F1-macro de 0.549), com boa precisão para a classe positiva, mas dificuldade com as minoritárias. O Random Forest apresentou os resultados mais fracos (F1-macro de 0.4658, MCC de 0.3209), provavelmente devido à dificuldade de modelos baseados em árvores com a alta dimensionalidade e esparsidade de dados textuais representados por TF-IDF.

O modelo LinearSVC foi selecionado como o mais adequado, com acurácia de 0.8103 e maior estabilidade. A análise de sua matriz de confusão confirmou alta performance na classe positiva (877 de 962 avaliações corretas no teste) e moderada na negativa (108 de 182 corretas). O maior desafio foi a classe neutra, com apenas 25 de 95 registros previstos corretamente, sendo a maioria erroneamente atribuída às classes negativa (40) e positiva (30). Isso demonstra que, embora robusto, o modelo tinha capacidade de discernimento assimétrica, refletindo a complexidade semântica da categoria neutra.

A análise lexical via TF-IDF para o LinearSVC identificou os termos mais relevantes por classe. Na negativa, predominaram adjetivos como disappointed, awful, horrible e worst. Termos como return e verbos indicando expectativas frustradas, como thought, também foram proeminentes, sinalizando insatisfação e funcionando como fortes discriminadores para o modelo.

Para a classe neutra, o padrão lexical foi distinto, com ausência de termos de polaridade definida. O advérbio however foi o mais proeminente, indicando contraste. Termos como ok, okay, e substantivos como package e star remeteram a avaliações medianas ou aspectos logísticos. A ausência de sentimento intrínseco nesses termos explica a dificuldade do modelo em classificar esta categoria, levando à confusão com as outras classes.

A classe positiva foi caracterizada por termos de alta polaridade favorável. Adjetivos como great, good, best, delicious, perfect e wonderful dominaram a lista. Verbos de preferência, como love, e adjetivos de estado emocional, como happy, também foram representativos. A clareza semântica desses termos funcionou como âncoras para o classificador, explicando a alta taxa de acerto para esta categoria.

A discussão dos resultados, à luz da literatura, reforça a validade dos achados. A predominância de avaliações positivas confirma tendências observadas por Pessanha et al. (2020). A eficácia do modelo em identificar padrões linguísticos associados à satisfação (uso de great, love) valida a premissa de que a análise de sentimento captura nuances ignoradas por métricas numéricas (Gonçalves e Coelho, 2023). A dificuldade com a classe neutra, devido à sua ambiguidade lexical (however), converge com os desafios de interpretação contextual apontados por WGSN (2024). A identificação de termos operacionais (return, package) demonstra o potencial prático da análise para insights acionáveis em logística e gestão de produtos, como sugerido por Contents. ai (2024) e Benevenuto et al. (2018).

O estudo demonstrou que o aprendizado de máquina, especificamente o modelo LinearSVC, é eficaz para classificar e interpretar sentimentos em avaliações de consumidores. Os resultados indicaram um desempenho robusto, especialmente na identificação de sentimentos positivos, e a análise lexical revelou padrões linguísticos distintos para cada classe. Nas avaliações negativas, predominou um vocabulário de expectativas frustradas; nas positivas, expressões de satisfação; e na neutra, marcadores discursivos ambíguos. A aplicabilidade prática é significativa, permitindo que empresas identifiquem atributos valorizados ou criticados para orientar decisões. As limitações incluem o uso de uma base de dados em inglês e a não consideração de variáveis contextuais, o que abre caminhos para futuras pesquisas.

A investigação atingiu seu propósito ao demonstrar que a análise de sentimentos, apoiada por processamento de linguagem natural, é uma ferramenta poderosa para extrair inteligência de dados textuais em e-commerce. A capacidade de ir além das notas numéricas e compreender o “porquê” da avaliação do consumidor oferece uma vantagem competitiva. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de modelos de aprendizado de máquina, especificamente o LinearSVC, permite não apenas classificar, mas também interpretar os padrões de sentimentos em avaliações de consumidores, identificando o léxico específico que caracteriza a satisfação, a insatisfação e a neutralidade.

Referências:
Benevenuto, F., Magno, G., Rodrigues, D., & Almeida, V. (2018). Trends in sentiment analysis for consumer reviews. Journal of Data Applications, 14(2), 45-62.
Brand24. (2024, 10 janeiro). Sentiment analysis in e-commerce: Key insights for 2024. Brand24 Newsroom. https://brand24. com/blog/sentiment-analysis-ecommerce
Contents. ai. (2024, 28 fevereiro). How machine learning improves customer feedback interpretation. Contents. ai Insights. https://contents. ai/insights/ml-customer-feedback
Costa, R. (2022). Data science para negócios digitais. Editora TechPress.
Gil, A. C. (2017). Métodos e técnicas de pesquisa social (6. ed.). Atlas.
Gonçalves, R., & Coelho, F. (2023). Natural language processing in retail analytics. Information Management Review, 39(1), 12-28.
Kayed, M., Aboulnaga, A., & Rahman, M. (2023). Support Vector Machines for text classification: A comparative study. Proceedings of the International Conference on Machine Learning Applications, 98-105.
Pessanha, L., Ribeiro, M., & Barbosa, H. (2020). Metrics for evaluating classification models in imbalanced datasets. Journal of Statistical Computing, 11(3), 77-90.
Vergara, S. C. (2011). Projetos e relatórios de pesquisa em administração (14. ed.). Atlas.
WGSN. (2024, 15 abril). Consumer sentiment trends for online retail 2024. WGSN Reports. https://www. wgsn. com
Zhang, X., Zhao, L., & LeCun, Y. (2021). Deep learning approaches for sentiment classification on product reviews. IEEE Access, 9, 123456-123469.
Benevenuto, F., Magno, G., Rodrigues, D., & Almeida, V. (2018). Trends in sentiment analysis for consumer reviews. Journal of Data Applications, 14(2), 45-62.
Brand24. (2024, 10 janeiro). Sentiment analysis in e-commerce: Key insights for 2024. Brand24 Newsroom. https://brand24. com/blog/sentiment-analysis-ecommerce
Contents. ai. (2024, 28 fevereiro). How machine learning improves customer feedback interpretation. Contents. ai Insights. https://contents. ai/insights/ml-customer-feedback
Costa, R. (2022). Data science para negócios digitais. Editora TechPress.
Gil, A. C. (2017). Métodos e técnicas de pesquisa social (6. ed.). Atlas.
Gonçalves, R., & Coelho, F. (2023). Natural language processing in retail analytics. Information Management Review, 39(1), 12-28.
Kayed, M., Aboulnaga, A., & Rahman, M. (2023). Support Vector Machines for text classification: A comparative study. Proceedings of the International Conference on Machine Learning Applications, 98-105.
Pessanha, L., Ribeiro, M., & Barbosa, H. (2020). Metrics for evaluating classification models in imbalanced datasets. Journal of Statistical Computing, 11(3), 77-90.
Vergara, S. C. (2011). Projetos e relatórios de pesquisa em administração (14. ed.). Atlas.
WGSN. (2024, 15 abril). Consumer sentiment trends for online retail 2024. WGSN Reports. https://www. wgsn. com
Zhang, X., Zhao, L., & LeCun, Y. (2021). Deep learning approaches for sentiment classification on product reviews. IEEE Access, 9, 123456-123469.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade