Imagem Análise da Comunicação do Duolingo no X via Mineração de Texto e Clusterização

02 de março de 2026

Análise da Comunicação do Duolingo no X via Mineração de Texto e Clusterização

José de Souza Dias Neto; Erik Montagna

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este trabalho utiliza aprendizado de máquina e Processamento de Linguagem Natural para analisar as estratégias de comunicação do perfil oficial do Duolingo no X. A pesquisa, por meio de uma abordagem quantitativa, identifica padrões textuais e temáticos para transformar observações empíricas sobre o sucesso da marca em evidências mensuráveis. A investigação extrai, processa e agrupa as postagens da empresa para revelar as nuances de sua linguagem, o tom, os temas abordados e a estrutura de sua persona digital.

A relevância do estudo está no contexto de um Brasil digitalizado. Dados do IBGE (2024) indicam que 92,5% dos domicílios brasileiros possuem acesso à internet. Um levantamento da DataReportal (2023) aponta que os brasileiros estão entre as populações que mais passam tempo em frente a telas, com média de nove horas diárias. Essa imersão digital reflete-se no uso de redes sociais; o país tem 144 milhões de perfis ativos (DataReportal, 2025). Nesse cenário, as empresas integraram o ambiente digital em suas estratégias, usando as redes sociais para construção de marca e fidelização de clientes (Maia, 2022).

A eficácia da comunicação digital depende da aliança entre criatividade e tecnologia. Conforme McKenna (2000), a convergência entre tecnologia da informação e marketing é um imperativo para empresas relevantes. O Duolingo exemplifica essa sinergia, tornando-se uma referência em comunicação digital, reconhecida com prêmios como o Parceria de Milhões do Tik Tok Ad Awards 2023. A estratégia da empresa baseia-se na construção de uma comunidade virtual, conceito definido por Recuero (2009) como um conjunto de atores que estabelecem relacionamentos e pertencimento em um espaço digital. O Duolingo alcança isso personificando sua marca, usando a mascote Coruja com linguagem informal para interagir diretamente com seguidores.

Apesar do sucesso do Duolingo, a análise de sua estratégia é majoritariamente subjetiva. Este estudo justifica-se pela necessidade de aplicar métodos de ciência de dados para validar essas percepções. Ao utilizar mineração de texto e clusterização, a pesquisa oferece uma metodologia replicável para diagnosticar estratégias de comunicação em redes sociais de forma automatizada. Isso não apenas caracteriza o caso Duolingo, mas fornece um modelo analítico para outras empresas realizarem análises de concorrentes, entenderem o posicionamento de mercado e otimizarem suas próprias estratégias de conteúdo.

A pesquisa combina a análise de métricas quantitativas com a exploração do conteúdo textual. A análise descritiva das interações, horários e uso de mídias visuais oferece um panorama do comportamento da conta. O Processamento de Linguagem Natural desvenda as características semânticas e estilísticas do discurso. A aplicação de algoritmos de clusterização segmenta as postagens em grupos temáticos, revelando as frentes de comunicação da marca. O trabalho contribui para o marketing digital ao demonstrar como a ciência de dados pode decodificar e otimizar a comunicação empresarial, transformando dados não estruturados em insights estratégicos.

O trabalho é um estudo observacional e prospectivo. É observacional por não haver manipulação de variáveis, analisando interações já ocorridas. É prospectivo por acompanhar o objeto de análise durante um período específico (Gil, 2002). A metodologia foi estruturada em coleta de dados, pré-processamento, análise descritiva, análise exploratória textual e modelagem por clusterização. Para a extração de dados do perfil do Duolingo no X, foi utilizada a biblioteca Selenium em Python. A extração foi realizada via Nitter, um front-end alternativo do X, devido à ausência de uma API pública e gratuita, necessitando de web scraping para coletar o conteúdo.

As variáveis brutas coletadas incluíram autor, data, texto, URLs de imagens e métricas de engajamento (comentários, repostagens, curtidas). A partir delas, foram criadas novas variáveis: interactions (soma do engajamento), hasimage (presença de conteúdo visual), yearmonth e period (classificação por mês/ano e período do dia). Esta fase, focada na caracterização do grupo e na busca por relações entre variáveis, alinha-se à definição de pesquisa descritiva de Gil (2008). A análise dessas métricas é fundamental, pois o engajamento quantifica o sucesso de uma estratégia comunicacional em redes sociais.

Para a análise textual, foram empregadas técnicas de Processamento de Linguagem Natural (PLN), um campo da IA para interpretação de linguagem humana (Ribeiro et al., 2024). A biblioteca SpaCy foi a principal ferramenta para o pré-processamento, que iniciou com a tokenização, segmentando o texto em unidades menores (tokens) para análise computacional (Barbosa et al., 2017). Seguiu-se uma etapa de limpeza, removendo elementos de baixo valor semântico como pontuações, emojis e stopwords (palavras comuns como “o”, “a”, “de”), o que é crucial para o desempenho dos modelos (Oliveira, 2020). Para padronizar o vocabulário, aplicou-se a lematização, que reduz as palavras à sua forma canônica (ex: “correndo” para “correr”), permitindo uma análise de frequência mais precisa.

Após o pré-processamento, os textos foram convertidos em vetores numéricos com o TfidfVectorizer. O modelo TF-IDF (Term Frequency-Inverse Document Frequency) valoriza palavras frequentes em um documento, mas raras no corpus geral, atribuindo maior peso aos termos que melhor caracterizam o texto (Campos e Figueiredo, 2021). Com os textos vetorizados, aplicou-se a clusterização para identificar grupos de postagens com conteúdo similar. A análise de clusters cria grupos homogêneos internamente e heterogêneos entre si (Fávero e Belfiore, 2017). O método escolhido foi o K-means, que agrupa observações com base na menor distância euclidiana a um centroide. Para visualização, utilizou-se a Análise de Componentes Principais (PCA) para reduzir a dimensionalidade. Em uma segunda fase, as stopwords foram retidas para quantificar o uso de 1ª e 3ª pessoa gramatical, gerando um novo vetor combinado ao TF-IDF para uma clusterização mais refinada.

A base de dados compreende 740 postagens publicadas pelo Duolingo no X entre 24 de janeiro de 2024 e 30 de abril de 2025. A análise descritiva revela uma média de 46 postagens por mês, com exceção de setembro de 2024 (três publicações), período em que o X foi temporariamente bloqueado no Brasil. O volume de interações seguiu o mesmo padrão. A média de interações por postagem foi de 6.153, totalizando uma média mensal de 284.576, o que demonstra alto engajamento. A análise dos períodos de publicação indicou que, embora a maior quantidade de postagens ocorra à tarde, o período da noite concentra o maior volume de interações, sugerindo que a estratégia se ajusta aos horários de maior atividade da audiência. As 108 postagens durante a madrugada evidenciam uma estratégia de presença constante. O uso de recursos visuais é comum, com 57,84% das publicações contendo imagens.

A análise exploratória textual, após remoção de stopwords e lematização, resultou em um vocabulário de 3.297 palavras, com 1.758 únicas. A análise de frequência destacou termos como “hoje”, “ir”, “dia”, “duo”, “lição” e “ficar”. A proeminência de “lição” reforça a conexão da comunicação com o produto. Para compreender o contexto, foram extraídos os bigramas e trigramas mais comuns. O bigrama mais frequente, “miau miau”, e o quarto, “apt apt”, são referências a memes da internet brasileira, corroborando a hipótese de que a comunicação do Duolingo se baseia em linguagem descontraída e alinhada à cultura digital. Os trigramas seguiram o mesmo padrão, reforçando o tom informal.

Na primeira tentativa de clusterização com K-means sobre os vetores TF-IDF, o método de cotovelo sugeriu seis agrupamentos. O resultado foi desequilibrado: o cluster 0 concentrou 631 das 740 postagens, enquanto os outros cinco eram menores. A análise da Soma dos Quadrados Intra-Clusters (WCSS) revelou que o cluster 0 possuía alta média de distância interna (348), indicando baixa similaridade textual e funcionando como um agrupamento residual. Os outros clusters apresentaram WCSS baixos (entre 2 e 20), agrupando postagens quase idênticas. Apesar da limitação, foi possível identificar temas nos grupos menores: o cluster 3 focava na palavra “coruja” e o cluster 5 agrupava postagens com a hashtag “novafotodeperfil”. A abordagem apontou a necessidade de uma análise mais refinada.

Uma nova abordagem foi adotada, focando em características linguísticas da persona da marca. O pré-processamento foi modificado para reter pronomes e verbos, a fim de quantificar o uso da 1ª e 3ª pessoa gramatical. A análise revelou que 8% do total de palavras (568) estavam na 1ª pessoa e 11% (768) na 3ª pessoa. A frequência de palavras como “eu”, “meu” e “estou” na 1ª pessoa evidencia uma forte estratégia de personificação; a marca se posiciona como um indivíduo. O uso do mascote como sujeito que narra experiências cotidianas gera conexão emocional. Complementarmente, o uso recorrente de “você” e “vocês” na 3ª pessoa demonstra um diálogo direto com os seguidores, humanizando a relação.

A interpretação dos quatro novos clusters revelou uma estrutura de comunicação mais clara. O grupo 0 agrupou postagens de difícil interpretação textual, como aquelas contendo apenas imagens, vídeos ou emojis, com baixa incidência de marcadores de pessoa gramatical. O grupo 1 continha as postagens mais longas e contextualmente ricas, com alta incidência de 1ª e 3ª pessoa, sugerindo interações complexas. O grupo 2 foi definido como o cluster da “autopersonificação”, com alta média de uso da 1ª pessoa; o Duolingo fala sobre si mesmo. Por fim, o grupo 3 representou as postagens direcionadas ao público, com predominância da 3ª pessoa e termos como “lição” e “gente”, focando em chamadas para ação.

Este estudo investigou as estratégias de comunicação do Duolingo no X por meio de PLN e aprendizado de máquina, analisando 740 postagens. Os resultados demonstram que a empresa adota uma linguagem informal e alinhada à cultura da internet, usando memes para fortalecer seu posicionamento. A análise de frequência revelou a recorrência do termo “lição”, conectando a comunicação ao propósito da plataforma, enquanto a alta incidência de palavras em 1ª e 3ª pessoa confirmou a estratégia de personificação da marca e o diálogo direto com os usuários, distanciando-se do tom corporativo. A análise descritiva apontou para uma estratégia de publicação orientada por dados, com postagens concentradas nos períodos de maior engajamento.

A aplicação do K-means, especialmente na segunda abordagem, permitiu segmentar as postagens em grupos temáticos, revelando as facetas da comunicação da marca: desde postagens autopromocionais até aquelas que personificam a mascote. Contudo, o estudo evidenciou as limitações da análise puramente textual em redes sociais; o significado depende de contextos visuais e culturais. A metodologia apresentada, no entanto, demonstra potencial prático para profissionais de marketing, oferecendo um framework para avaliar perfis, realizar análises competitivas e planejar conteúdo de forma automatizada e baseada em evidências. Conclui-se que o objetivo foi atingido: demonstrou-se, por meio de mineração de texto e clusterização, as características da comunicação do Duolingo no X, revelando uma estratégia baseada em informalidade, personificação e interação direta com o público.

Referências:
Barbosa, J. L.; Vieira, J. P.; Santos, R. L.; Magalhães Junior, G. V.; Muniz, M. d.; Moura, R. S. 2017. Introdução ao Processamento de Linguagem Natural usando Python. Livro Anais – Artigos e Minicursos 1(1): 336-360.
Campos, S. L. B.; Figueredo, J. M. DE. 2021. Uso de técnicas de processamento de linguagem natural para identificação de similaridade de serviços públicos. Anais do IX Workshop de Computação Aplicada em Governo Eletrônico 9: 83-94.
Fávero, L. P.; Belfiore, P. 2017. Manual de análise de dados. 1ed. Elsevier, Rio de Janeiro, RJ, Brasil.
Gil, A. C. 2002. Como elaborar projetos de pesquisa. 4ed. Atlas, São Paulo, SP, Brasil.
GIL, A. C. 2008. Métodos e técnicas de pesquisa social. 6ed. Atlas, São Paulo, SP, Brasil.
Maia, G. 2022. Marketing digital e redes sociais: a importância para as empresas durante a pandemia. Revista Ibero-Americana de Humanidades, Ciências e Educação 8(2): 929-950.
McKenna, R. 2000. As cinco regras do novo marketing. 4: 14-22.
Oliveira, F. R. 2020. Metodologias de pesquisa direcionadas ao twitter. Tópicos especiais em sistemas computacionais para engenharia.
Recuero, R. 2009. Redes sociais na internet. Coleção Cibercultura ed. Meridional, Porto Alegre, RS, Brasil.
Ribeiro, J. A.; Mazurek, L. A.; Coelho, R. D. 2024. Análise diagnóstica de dados em textos não estruturados por processamento de linguagem natural para identificação e mitigação de causas de perda de clientes em empresas. Revista Multidisciplinar do Nordeste Mineiro 12(4): 1-21.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade