
19 de fevereiro de 2026
Uso de modelos supervisionados para interpretar sentimentos em comentários de consumidores
Talita Cristiane Krice Moraes; Henrique Raymundo Gioia
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Esta pesquisa identifica e analisa os padrões de sentimentos em avaliações de e-commerce, aplicando aprendizado de máquina para classificar textos como positivos, neutros ou negativos, associando-os aos escores numéricos dos usuários. O objetivo é gerar insights acionáveis para tomadores de decisão, superando as limitações de métricas puramente quantitativas e aprofundando a compreensão da experiência do cliente. A premissa é que a análise textual automatizada oferece uma inteligência estratégica inexplorada por organizações que se restringem a médias de notas.
A digitalização aumentou a relevância das avaliações online, que se tornaram uma fonte primária de feedback. Esses dados, compostos por notas e textos, são um ativo valioso para empresas que buscam otimizar estratégias de atendimento, marketing e produtos (Brand24, 2024). Contudo, o volume e a natureza não estruturada dos textos representam um desafio, pois a análise manual é inviável em larga escala. Isso leva muitas empresas a focar apenas nos indicadores numéricos, negligenciando as percepções subjetivas contidas nos comentários.
O problema prático é a incapacidade das organizações de interpretar sistematicamente os sentimentos nos textos das avaliações. A dependência de notas numéricas pode mascarar insatisfações específicas ou elogios detalhados, cruciais para a melhoria de produtos e serviços (WGSN, 2024). Por exemplo, uma nota intermediária pode conter uma crítica relevante, e uma nota alta pode revelar atributos específicos que geraram satisfação. A análise de sentimento surge como uma solução computacional para preencher essa lacuna, permitindo a classificação automatizada de textos e fornecendo uma análise mais rica (Pessanha et al., 2020).
A contribuição do aprendizado de máquina para a análise de sentimento reside na capacidade de identificar padrões linguísticos complexos e associá-los a polaridades de sentimento (Zhang et al., 2021). A abordagem automatiza a classificação e extrai termos frequentes em diferentes faixas de avaliação, permitindo inferir as causas de satisfação ou insatisfação (Costa, 2022). Com isso, empresas obtêm insights estruturados para a tomada de decisão. Palavras recorrentes em avaliações negativas podem sinalizar falhas de produto ou logística, enquanto expressões em notas altas podem orientar a comunicação (Contents. ai, 2024).
Estudos em Processamento de Linguagem Natural (PLN) e aprendizado de máquina demonstram a eficácia dessas abordagens. Pesquisas como as de Gonçalves e Coelho (2023) destacam sua relevância para a gestão, enquanto trabalhos como os de Kayed et al. (2023) validam o desempenho de algoritmos para classificação textual. A capacidade de compreender sentimentos em escala amplia as possibilidades de aprimoramento de produtos e serviços para empresas de todos os portes (Benevenuto et al., 2018). Este estudo se insere nesse contexto, buscando aplicar e validar um modelo para extrair valor de dados textuais.
A metodologia é de pesquisa aplicada, com foco na resolução do problema prático de interpretar sentimentos em avaliações de consumidores (Vergara, 2011). A abordagem foi quantitativa, envolvendo a análise de dados textuais e numéricos com técnicas estatísticas e computacionais para construir inferências objetivas, conforme Gil (2017). A natureza da pesquisa foi descritiva, buscando observar, registrar e analisar as características dos sentimentos manifestados, descrevendo o fenômeno e identificando relações entre as variáveis.
Utilizou-se a base de dados secundária e pública “Amazon Fine Food Reviews” do Kaggle, com mais de 500 mil avaliações de produtos alimentícios. A base foi selecionada por sua dimensão e pela disponibilidade das variáveis “Score” (nota) e “Text” (avaliação). O uso de dados secundários permitiu acesso a um grande volume de informações, viabilizando análises com alta confiabilidade estatística. A diversidade de avaliações garantiu uma distribuição representativa, embora desbalanceada, entre os sentimentos. O texto da avaliação foi a variável independente e a nota (convertida em sentimento) a variável dependente.
O tratamento dos dados incluiu a seleção das colunas de nota e texto, com exclusão de registros ausentes ou duplicados. A limpeza textual envolveu a remoção de pontuações, números e links, conversão para minúsculas, tokenização e remoção de stopwords. Aplicou-se a lematização para reduzir os termos à sua forma canônica. Os sentimentos foram codificados a partir das notas: 1 e 2 como negativas, 3 como neutra, e 4 e 5 como positivas, preparando os dados para a classificação supervisionada.
A análise dos dados ocorreu em duas fases. A primeira foi uma análise descritiva da distribuição das avaliações e das palavras mais recorrentes por sentimento. Na segunda, de classificação automatizada, foram testados quatro algoritmos: Naive Bayes, Linear Support Vector Classifier (LinearSVC), Regressão Logística e Random Forest, escolhidos por seu desempenho documentado em classificação textual (Zhang et al., 2021; Kayed et al., 2023). Os modelos foram treinados com 80% dos dados e testados com 20%, usando validação cruzada. O desempenho foi avaliado por acurácia, precisão, revocação, F1-score e o coeficiente de correlação de Matthews (MCC), útil em cenários desbalanceados (Pessanha et al., 2020). O processo foi executado em Python com as bibliotecas Pandas, NLTK, spaCy e Scikit-learn.
A análise preliminar revelou uma distribuição assimétrica, com a maioria dos registros na nota 5 (aprox. 360 mil) e nota 4 (aprox. 80 mil). As notas 1 e 2 somaram 87 mil, e a nota 3 teve o menor volume, com 45 mil. Após a recodificação em sentimentos, o desequilíbrio persistiu: a categoria positiva (notas 4 e 5) totalizou mais de 440 mil registros, a negativa (notas 1 e 2) somou 87 mil, e a neutra (nota 3) foi a menos representada, com cerca de 50 mil. Essa polarização e o desbalanceamento foram fatores críticos na modelagem, exigindo métricas de avaliação adequadas para evitar uma análise superestimada baseada na classe majoritária.
A comparação de desempenho dos quatro modelos revelou diferenças significativas. LinearSVC e Regressão Logística apresentaram os melhores resultados, com F1-macro (0.5895 e 0.5893) e MCC (0.4810 e 0.4826) muito próximos, indicando consistência no reconhecimento dos três sentimentos. O Naive Bayes teve desempenho intermediário (F1-macro de 0.549), com boa precisão para a classe positiva, mas dificuldade com as minoritárias. O Random Forest apresentou os resultados mais fracos (F1-macro de 0.4658, MCC de 0.3209), provavelmente devido à dificuldade de modelos baseados em árvores com a alta dimensionalidade e esparsidade de dados textuais representados por TF-IDF.
O modelo LinearSVC foi selecionado como o mais adequado, com acurácia de 0.8103 e maior estabilidade. A análise de sua matriz de confusão confirmou alta performance na classe positiva (877 de 962 avaliações corretas no teste) e moderada na negativa (108 de 182 corretas). O maior desafio foi a classe neutra, com apenas 25 de 95 registros previstos corretamente, sendo a maioria erroneamente atribuída às classes negativa (40) e positiva (30). Isso demonstra que, embora robusto, o modelo tinha capacidade de discernimento assimétrica, refletindo a complexidade semântica da categoria neutra.
A análise lexical via TF-IDF para o LinearSVC identificou os termos mais relevantes por classe. Na negativa, predominaram adjetivos como disappointed, awful, horrible e worst. Termos como return e verbos indicando expectativas frustradas, como thought, também foram proeminentes, sinalizando insatisfação e funcionando como fortes discriminadores para o modelo.
Para a classe neutra, o padrão lexical foi distinto, com ausência de termos de polaridade definida. O advérbio however foi o mais proeminente, indicando contraste. Termos como ok, okay, e substantivos como package e star remeteram a avaliações medianas ou aspectos logísticos. A ausência de sentimento intrínseco nesses termos explica a dificuldade do modelo em classificar esta categoria, levando à confusão com as outras classes.
A classe positiva foi caracterizada por termos de alta polaridade favorável. Adjetivos como great, good, best, delicious, perfect e wonderful dominaram a lista. Verbos de preferência, como love, e adjetivos de estado emocional, como happy, também foram representativos. A clareza semântica desses termos funcionou como âncoras para o classificador, explicando a alta taxa de acerto para esta categoria.
A discussão dos resultados, à luz da literatura, reforça a validade dos achados. A predominância de avaliações positivas confirma tendências observadas por Pessanha et al. (2020). A eficácia do modelo em identificar padrões linguísticos associados à satisfação (uso de great, love) valida a premissa de que a análise de sentimento captura nuances ignoradas por métricas numéricas (Gonçalves e Coelho, 2023). A dificuldade com a classe neutra, devido à sua ambiguidade lexical (however), converge com os desafios de interpretação contextual apontados por WGSN (2024). A identificação de termos operacionais (return, package) demonstra o potencial prático da análise para insights acionáveis em logística e gestão de produtos, como sugerido por Contents. ai (2024) e Benevenuto et al. (2018).
O estudo demonstrou que o aprendizado de máquina, especificamente o modelo LinearSVC, é eficaz para classificar e interpretar sentimentos em avaliações de consumidores. Os resultados indicaram um desempenho robusto, especialmente na identificação de sentimentos positivos, e a análise lexical revelou padrões linguísticos distintos para cada classe. Nas avaliações negativas, predominou um vocabulário de expectativas frustradas; nas positivas, expressões de satisfação; e na neutra, marcadores discursivos ambíguos. A aplicabilidade prática é significativa, permitindo que empresas identifiquem atributos valorizados ou criticados para orientar decisões. As limitações incluem o uso de uma base de dados em inglês e a não consideração de variáveis contextuais, o que abre caminhos para futuras pesquisas.
A investigação atingiu seu propósito ao demonstrar que a análise de sentimentos, apoiada por processamento de linguagem natural, é uma ferramenta poderosa para extrair inteligência de dados textuais em e-commerce. A capacidade de ir além das notas numéricas e compreender o “porquê” da avaliação do consumidor oferece uma vantagem competitiva. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de modelos de aprendizado de máquina, especificamente o LinearSVC, permite não apenas classificar, mas também interpretar os padrões de sentimentos em avaliações de consumidores, identificando o léxico específico que caracteriza a satisfação, a insatisfação e a neutralidade.
Esta pesquisa identifica e analisa os padrões de sentimentos em avaliações de e-commerce, aplicando aprendizado de máquina para classificar textos como positivos, neutros ou negativos, associando-os aos escores numéricos dos usuários. O objetivo é gerar insights acionáveis para tomadores de decisão, superando as limitações de métricas puramente quantitativas e aprofundando a compreensão da experiência do cliente. A premissa é que a análise textual automatizada oferece uma inteligência estratégica inexplorada por organizações que se restringem a médias de notas.
A digitalização aumentou a relevância das avaliações online, que se tornaram uma fonte primária de feedback. Esses dados, compostos por notas e textos, são um ativo valioso para empresas que buscam otimizar estratégias de atendimento, marketing e produtos (Brand24, 2024). Contudo, o volume e a natureza não estruturada dos textos representam um desafio, pois a análise manual é inviável em larga escala. Isso leva muitas empresas a focar apenas nos indicadores numéricos, negligenciando as percepções subjetivas contidas nos comentários.
O problema prático é a incapacidade das organizações de interpretar sistematicamente os sentimentos nos textos das avaliações. A dependência de notas numéricas pode mascarar insatisfações específicas ou elogios detalhados, cruciais para a melhoria de produtos e serviços (WGSN, 2024). Por exemplo, uma nota intermediária pode conter uma crítica relevante, e uma nota alta pode revelar atributos específicos que geraram satisfação. A análise de sentimento surge como uma solução computacional para preencher essa lacuna, permitindo a classificação automatizada de textos e fornecendo uma análise mais rica (Pessanha et al., 2020).
A contribuição do aprendizado de máquina para a análise de sentimento reside na capacidade de identificar padrões linguísticos complexos e associá-los a polaridades de sentimento (Zhang et al., 2021). A abordagem automatiza a classificação e extrai termos frequentes em diferentes faixas de avaliação, permitindo inferir as causas de satisfação ou insatisfação (Costa, 2022). Com isso, empresas obtêm insights estruturados para a tomada de decisão. Palavras recorrentes em avaliações negativas podem sinalizar falhas de produto ou logística, enquanto expressões em notas altas podem orientar a comunicação (Contents. ai, 2024).
Estudos em Processamento de Linguagem Natural (PLN) e aprendizado de máquina demonstram a eficácia dessas abordagens. Pesquisas como as de Gonçalves e Coelho (2023) destacam sua relevância para a gestão, enquanto trabalhos como os de Kayed et al. (2023) validam o desempenho de algoritmos para classificação textual. A capacidade de compreender sentimentos em escala amplia as possibilidades de aprimoramento de produtos e serviços para empresas de todos os portes (Benevenuto et al., 2018). Este estudo se insere nesse contexto, buscando aplicar e validar um modelo para extrair valor de dados textuais.
A metodologia é de pesquisa aplicada, com foco na resolução do problema prático de interpretar sentimentos em avaliações de consumidores (Vergara, 2011). A abordagem foi quantitativa, envolvendo a análise de dados textuais e numéricos com técnicas estatísticas e computacionais para construir inferências objetivas, conforme Gil (2017). A natureza da pesquisa foi descritiva, buscando observar, registrar e analisar as características dos sentimentos manifestados, descrevendo o fenômeno e identificando relações entre as variáveis.
Utilizou-se a base de dados secundária e pública “Amazon Fine Food Reviews” do Kaggle, com mais de 500 mil avaliações de produtos alimentícios. A base foi selecionada por sua dimensão e pela disponibilidade das variáveis “Score” (nota) e “Text” (avaliação). O uso de dados secundários permitiu acesso a um grande volume de informações, viabilizando análises com alta confiabilidade estatística. A diversidade de avaliações garantiu uma distribuição representativa, embora desbalanceada, entre os sentimentos. O texto da avaliação foi a variável independente e a nota (convertida em sentimento) a variável dependente.
O tratamento dos dados incluiu a seleção das colunas de nota e texto, com exclusão de registros ausentes ou duplicados. A limpeza textual envolveu a remoção de pontuações, números e links, conversão para minúsculas, tokenização e remoção de stopwords. Aplicou-se a lematização para reduzir os termos à sua forma canônica. Os sentimentos foram codificados a partir das notas: 1 e 2 como negativas, 3 como neutra, e 4 e 5 como positivas, preparando os dados para a classificação supervisionada.
A análise dos dados ocorreu em duas fases. A primeira foi uma análise descritiva da distribuição das avaliações e das palavras mais recorrentes por sentimento. Na segunda, de classificação automatizada, foram testados quatro algoritmos: Naive Bayes, Linear Support Vector Classifier (LinearSVC), Regressão Logística e Random Forest, escolhidos por seu desempenho documentado em classificação textual (Zhang et al., 2021; Kayed et al., 2023). Os modelos foram treinados com 80% dos dados e testados com 20%, usando validação cruzada. O desempenho foi avaliado por acurácia, precisão, revocação, F1-score e o coeficiente de correlação de Matthews (MCC), útil em cenários desbalanceados (Pessanha et al., 2020). O processo foi executado em Python com as bibliotecas Pandas, NLTK, spaCy e Scikit-learn.
A análise preliminar revelou uma distribuição assimétrica, com a maioria dos registros na nota 5 (aprox. 360 mil) e nota 4 (aprox. 80 mil). As notas 1 e 2 somaram 87 mil, e a nota 3 teve o menor volume, com 45 mil. Após a recodificação em sentimentos, o desequilíbrio persistiu: a categoria positiva (notas 4 e 5) totalizou mais de 440 mil registros, a negativa (notas 1 e 2) somou 87 mil, e a neutra (nota 3) foi a menos representada, com cerca de 50 mil. Essa polarização e o desbalanceamento foram fatores críticos na modelagem, exigindo métricas de avaliação adequadas para evitar uma análise superestimada baseada na classe majoritária.
A comparação de desempenho dos quatro modelos revelou diferenças significativas. LinearSVC e Regressão Logística apresentaram os melhores resultados, com F1-macro (0.5895 e 0.5893) e MCC (0.4810 e 0.4826) muito próximos, indicando consistência no reconhecimento dos três sentimentos. O Naive Bayes teve desempenho intermediário (F1-macro de 0.549), com boa precisão para a classe positiva, mas dificuldade com as minoritárias. O Random Forest apresentou os resultados mais fracos (F1-macro de 0.4658, MCC de 0.3209), provavelmente devido à dificuldade de modelos baseados em árvores com a alta dimensionalidade e esparsidade de dados textuais representados por TF-IDF.
O modelo LinearSVC foi selecionado como o mais adequado, com acurácia de 0.8103 e maior estabilidade. A análise de sua matriz de confusão confirmou alta performance na classe positiva (877 de 962 avaliações corretas no teste) e moderada na negativa (108 de 182 corretas). O maior desafio foi a classe neutra, com apenas 25 de 95 registros previstos corretamente, sendo a maioria erroneamente atribuída às classes negativa (40) e positiva (30). Isso demonstra que, embora robusto, o modelo tinha capacidade de discernimento assimétrica, refletindo a complexidade semântica da categoria neutra.
A análise lexical via TF-IDF para o LinearSVC identificou os termos mais relevantes por classe. Na negativa, predominaram adjetivos como disappointed, awful, horrible e worst. Termos como return e verbos indicando expectativas frustradas, como thought, também foram proeminentes, sinalizando insatisfação e funcionando como fortes discriminadores para o modelo.
Para a classe neutra, o padrão lexical foi distinto, com ausência de termos de polaridade definida. O advérbio however foi o mais proeminente, indicando contraste. Termos como ok, okay, e substantivos como package e star remeteram a avaliações medianas ou aspectos logísticos. A ausência de sentimento intrínseco nesses termos explica a dificuldade do modelo em classificar esta categoria, levando à confusão com as outras classes.
A classe positiva foi caracterizada por termos de alta polaridade favorável. Adjetivos como great, good, best, delicious, perfect e wonderful dominaram a lista. Verbos de preferência, como love, e adjetivos de estado emocional, como happy, também foram representativos. A clareza semântica desses termos funcionou como âncoras para o classificador, explicando a alta taxa de acerto para esta categoria.
A discussão dos resultados, à luz da literatura, reforça a validade dos achados. A predominância de avaliações positivas confirma tendências observadas por Pessanha et al. (2020). A eficácia do modelo em identificar padrões linguísticos associados à satisfação (uso de great, love) valida a premissa de que a análise de sentimento captura nuances ignoradas por métricas numéricas (Gonçalves e Coelho, 2023). A dificuldade com a classe neutra, devido à sua ambiguidade lexical (however), converge com os desafios de interpretação contextual apontados por WGSN (2024). A identificação de termos operacionais (return, package) demonstra o potencial prático da análise para insights acionáveis em logística e gestão de produtos, como sugerido por Contents. ai (2024) e Benevenuto et al. (2018).
O estudo demonstrou que o aprendizado de máquina, especificamente o modelo LinearSVC, é eficaz para classificar e interpretar sentimentos em avaliações de consumidores. Os resultados indicaram um desempenho robusto, especialmente na identificação de sentimentos positivos, e a análise lexical revelou padrões linguísticos distintos para cada classe. Nas avaliações negativas, predominou um vocabulário de expectativas frustradas; nas positivas, expressões de satisfação; e na neutra, marcadores discursivos ambíguos. A aplicabilidade prática é significativa, permitindo que empresas identifiquem atributos valorizados ou criticados para orientar decisões. As limitações incluem o uso de uma base de dados em inglês e a não consideração de variáveis contextuais, o que abre caminhos para futuras pesquisas.
A investigação atingiu seu propósito ao demonstrar que a análise de sentimentos, apoiada por processamento de linguagem natural, é uma ferramenta poderosa para extrair inteligência de dados textuais em e-commerce. A capacidade de ir além das notas numéricas e compreender o “porquê” da avaliação do consumidor oferece uma vantagem competitiva. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de modelos de aprendizado de máquina, especificamente o LinearSVC, permite não apenas classificar, mas também interpretar os padrões de sentimentos em avaliações de consumidores, identificando o léxico específico que caracteriza a satisfação, a insatisfação e a neutralidade.
Referências:
Benevenuto, F., Magno, G., Rodrigues, D., & Almeida, V. (2018). Trends in sentiment analysis for consumer reviews. Journal of Data Applications, 14(2), 45-62.
Brand24. (2024, 10 janeiro). Sentiment analysis in e-commerce: Key insights for 2024. Brand24 Newsroom. https://brand24. com/blog/sentiment-analysis-ecommerce
Contents. ai. (2024, 28 fevereiro). How machine learning improves customer feedback interpretation. Contents. ai Insights. https://contents. ai/insights/ml-customer-feedback
Costa, R. (2022). Data science para negócios digitais. Editora TechPress.
Gil, A. C. (2017). Métodos e técnicas de pesquisa social (6. ed.). Atlas.
Gonçalves, R., & Coelho, F. (2023). Natural language processing in retail analytics. Information Management Review, 39(1), 12-28.
Kayed, M., Aboulnaga, A., & Rahman, M. (2023). Support Vector Machines for text classification: A comparative study. Proceedings of the International Conference on Machine Learning Applications, 98-105.
Pessanha, L., Ribeiro, M., & Barbosa, H. (2020). Metrics for evaluating classification models in imbalanced datasets. Journal of Statistical Computing, 11(3), 77-90.
Vergara, S. C. (2011). Projetos e relatórios de pesquisa em administração (14. ed.). Atlas.
WGSN. (2024, 15 abril). Consumer sentiment trends for online retail 2024. WGSN Reports. https://www. wgsn. com
Zhang, X., Zhao, L., & LeCun, Y. (2021). Deep learning approaches for sentiment classification on product reviews. IEEE Access, 9, 123456-123469.
Benevenuto, F., Magno, G., Rodrigues, D., & Almeida, V. (2018). Trends in sentiment analysis for consumer reviews. Journal of Data Applications, 14(2), 45-62.
Brand24. (2024, 10 janeiro). Sentiment analysis in e-commerce: Key insights for 2024. Brand24 Newsroom. https://brand24. com/blog/sentiment-analysis-ecommerce
Contents. ai. (2024, 28 fevereiro). How machine learning improves customer feedback interpretation. Contents. ai Insights. https://contents. ai/insights/ml-customer-feedback
Costa, R. (2022). Data science para negócios digitais. Editora TechPress.
Gil, A. C. (2017). Métodos e técnicas de pesquisa social (6. ed.). Atlas.
Gonçalves, R., & Coelho, F. (2023). Natural language processing in retail analytics. Information Management Review, 39(1), 12-28.
Kayed, M., Aboulnaga, A., & Rahman, M. (2023). Support Vector Machines for text classification: A comparative study. Proceedings of the International Conference on Machine Learning Applications, 98-105.
Pessanha, L., Ribeiro, M., & Barbosa, H. (2020). Metrics for evaluating classification models in imbalanced datasets. Journal of Statistical Computing, 11(3), 77-90.
Vergara, S. C. (2011). Projetos e relatórios de pesquisa em administração (14. ed.). Atlas.
WGSN. (2024, 15 abril). Consumer sentiment trends for online retail 2024. WGSN Reports. https://www. wgsn. com
Zhang, X., Zhao, L., & LeCun, Y. (2021). Deep learning approaches for sentiment classification on product reviews. IEEE Access, 9, 123456-123469.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































