Imagem Predição eleitoral com análise de sentimentos no Twitter nas eleições municipais de 2024

02 de março de 2026

Predição eleitoral com análise de sentimentos no Twitter nas eleições municipais de 2024

Gabriela Tereza Silva de Oliveira; Lauana Rossetto Lazaretti

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este trabalho avaliou se a análise de sentimentos de menções a candidatos a prefeito no Twitter, durante as eleições de 2024, pode prever a probabilidade de eleição. A premissa é que a centralidade das redes sociais na comunicação política gera um volume massivo de dados sobre a opinião pública, abrindo novas fronteiras para a análise eleitoral. Pesquisadores têm explorado o potencial desses dados para compreender dinâmicas eleitorais e monitorar o humor do eleitorado. Estudos como o de Chauhan et al. (2021) destacam a aplicação da análise de sentimentos no campo político; se busca capturar a percepção pública sobre candidatos e temas de relevância.

O X (antigo Twitter) destaca-se pela comunicação instantânea e pública. A brevidade das postagens e sua centralidade como plataforma de microblogging justificam seu uso para aferir a “temperatura” das discussões políticas (Gayo-Avello, 2013). A hipótese subjacente é que as percepções compartilhadas por eleitores, quando agregadas, podem revelar tendências de comportamento eleitoral. Técnicas de Processamento de Linguagem Natural (PLN), como a análise de sentimentos, permitem quantificar a polaridade das interações — classificando-as como positivas, negativas ou neutras — e oferecer um panorama quantitativo do humor do eleitorado.

Investigações acadêmicas buscam compreender em que medida a atividade online reflete o desempenho dos candidatos nas urnas. Caldarelli et al. (2014) demonstraram que, embora o volume de tweets seja insuficiente, análises que incorporam a valência do sentimento podem oferecer sinais relevantes. No entanto, a literatura aponta desafios metodológicos. A previsão de resultados eleitorais a partir de dados do Twitter deve ser encarada com cautela, pois as amostras de usuários da plataforma não são representativas do eleitorado geral, o que compromete a validade externa das conclusões. Além disso, o uso de bots para inflar o engajamento e a dificuldade de modelos de PLN em detectar nuances como sarcasmo e ironia podem distorcer os resultados e limitar a confiabilidade das análises (Gayo-Avello, 2013).

Apesar das ressalvas, a utilização de tweets como insumo para análises políticas permanece promissora, especialmente com a evolução de modelos de Deep Learning, como a arquitetura Transformer, que ampliou a capacidade de interpretar nuances semânticas. No contexto da língua portuguesa, trabalhos recentes validaram benchmarks e propuseram abordagens de adaptação (Benevenuto et al., 2015). Este estudo aplica um modelo de classificação de sentimentos de última geração para o português, utilizando os indicadores de sentimento agregados como variáveis preditoras em modelos estatísticos. A pesquisa visa contribuir para a compreensão dos limites e potencialidades dessa abordagem no contexto das eleições municipais brasileiras, um ambiente de grande diversidade política e social.

O estudo adotou uma abordagem quantitativa, fundamentada na coleta e análise de menções a candidatos a prefeito nas eleições de 2024. A metodologia iniciou com o levantamento da lista oficial de candidatos do portal de dados abertos do Tribunal Superior Eleitoral (TSE, 2024a). Foram integradas tabelas de candidaturas, informações complementares e redes sociais declaradas, resultando em uma base de dados estruturada com variáveis como nome, partido, UF, município e resultado eleitoral. A amostra final foi composta por 197 candidatos a prefeito que possuíam contas ativas no Twitter, definidas como aquelas com postagens registradas durante o período eleitoral.

A coleta de dados do Twitter foi restrita ao intervalo entre janeiro de 2024 e o dia do primeiro turno. O recorte metodológico focou exclusivamente em menções diretas aos candidatos (formato “@candidato”), estratégia que minimiza ambiguidades e aumenta a precisão da coleta, conforme recomendado por Jungherr (2016). Para cada menção, foram armazenados o identificador do usuário, a data e o texto. O corpus de tweets passou por pré-processamento, incluindo remoção de duplicatas, caracteres especiais, hiperlinks e retuítes. Em seguida, aplicou-se a normalização linguística, convertendo o texto para minúsculas, e a lematização para padronizar o vocabulário.

Para a classificação de sentimentos, os textos foram submetidos ao modelo twitter-xlm-roberta-base-sentiment, baseado na arquitetura BERT (Devlin et al., 2019). A escolha se justifica por seu treinamento específico em mensagens curtas e multilíngues do Twitter, tornando-o apto a capturar as nuances da plataforma (Barbieri et al., 2022). Cada tweet foi classificado como positivo, negativo ou neutro. Os dados foram agregados por candidato, gerando variáveis que representam a proporção de menções em cada categoria. Adicionalmente, foram calculados o saldo de sentimento (polaridade líquida) e o volume transformado de menções (transformação logarítmica para normalizar a distribuição).

Na modelagem preditiva, foram estimados dois tipos de modelos de classificação para prever a variável resposta binária (eleito = 1; não eleito = 0). O primeiro modelo, “só-controles” ou baseline, utilizou apenas variáveis dummy para cada UF como preditores. O segundo, “com sentimento”, incorporou, além dos controles, os preditores da análise de sentimentos: proporções de menções positivas (pospct) e negativas (negpct), saldo de polaridade e volume logarítmico de menções. Foram ajustados os classificadores Regressão Logística e Naïve Bayes. A avaliação do desempenho foi realizada por meio de validação cruzada estratificada com 5 folds. As métricas utilizadas foram a Área Sob a Curva ROC (ROC-AUC) e o F1-score, adequado para cenários com classes desbalanceadas.

A análise dos dados do TSE (2024a) revela que a presença digital é um componente comum nas campanhas. De 15.614 candidatos a prefeito, 67,3% declararam possuir redes sociais. Essa proporção é maior entre os eleitos (73,1%) do que entre os não eleitos (64,2%), sugerindo uma correlação positiva. A análise por plataforma mostra a hegemonia do Instagram (utilizado por 94,1% dos candidatos com redes) e do Facebook (76,1%). Em contrapartida, TikTok (12,6%), YouTube (7,8%) e Twitter (4,4%) apresentaram presença restrita. Esses achados corroboram pesquisas sobre a predominância do ecossistema da Meta no Brasil (SECOM, 2015) e o uso mais residual do Twitter pela elite política (Braga e Carlomagno, 2018).

A adoção do Twitter pelos candidatos em 2024 foi baixa e seletiva, variando com o porte do município. Em capitais, 49,7% dos candidatos com presença digital possuíam conta no Twitter, enquanto nos demais municípios esse percentual foi de apenas 3,7%. Esse padrão de concentração em grandes centros indica que o Twitter funciona como um espaço de debate mais relevante para disputas de maior visibilidade. Em municípios menores, outras plataformas parecem ser priorizadas. Essa seletividade na adoção representa uma limitação para estudos que buscam generalizar achados baseados em dados do Twitter, reforçando a hipótese da “normalização”, segundo a qual atores com mais recursos exploram melhor as mídias digitais (Braga e Carlomagno, 2018).

A análise quantitativa das menções coletadas evidenciou uma acentuada desigualdade na distribuição da atenção. Um grupo reduzido de candidatos, majoritariamente de capitais, concentrou um volume expressivo de interações, enquanto a maioria recebeu pouca ou nenhuma menção. O teste t de Welch foi conduzido para verificar se existiam diferenças estatisticamente significativas nas médias dos indicadores de sentimento entre o grupo de candidatos eleitos e o de não eleitos. Os resultados foram inequívocos: para todos os indicadores, os p-valores foram superiores ao nível de significância de 0,05. Isso significa que não foi possível rejeitar a hipótese nula de que as médias dos dois grupos são iguais. A análise não encontrou evidências de que candidatos eleitos tenham recebido, em média, um tratamento com polaridade distinta no Twitter em comparação com os derrotados.

Os resultados da modelagem preditiva confirmaram a ausência de poder discriminatório das variáveis de sentimento. O modelo de Regressão Logística que incluiu os indicadores de sentimento apresentou uma performance (ROC-AUC de 0,429) ligeiramente inferior ao modelo baseline (ROC-AUC de 0,434). O modelo Naïve Bayes obteve um desempenho um pouco melhor (ROC-AUC de 0,477), mas ainda assim muito próximo do nível de um classificador aleatório (AUC = 0,5). O ganho de performance ao adicionar as variáveis de sentimento foi nulo ou marginalmente negativo. A métrica F1-score também não mostrou melhorias. Esses achados configuram um resultado nulo robusto: o sentimento agregado das menções no Twitter não acrescentou poder preditivo para distinguir entre candidatos eleitos e não eleitos.

A discussão desses resultados nulos é fundamental. A evidência negativa obtida de forma transparente é uma contribuição científica relevante, pois delimita a aplicabilidade da técnica. O contraste com estudos internacionais que obtiveram sucesso, como o de Chauhan et al. (2023) na Índia, sugere que o contexto é um fator determinante. A maior penetração e centralidade do Twitter no debate político indiano, combinada com um desenho metodológico mais abrangente, pode explicar a diferença nos resultados. No caso brasileiro, a baixa e seletiva cobertura do Twitter em eleições municipais, a concentração de atenção em poucos candidatos e a heterogeneidade do eleitorado local parecem diluir qualquer sinal preditivo que o sentimento agregado pudesse conter.

As limitações do estudo concentram-se na cobertura e na mensuração. A baixa representatividade da amostra de usuários do Twitter em relação ao eleitorado geral e a seletividade na adoção da plataforma pelos candidatos geram vieses de seleção e atenção. No plano da mensuração, apesar do uso de um modelo de PLN avançado, a classificação de sentimentos em textos curtos continua sendo um desafio, especialmente na detecção de ironia e sarcasmo, o que pode introduzir ruído. A contribuição central do estudo reside em registrar empiricamente um limite de aplicabilidade da análise de sentimentos do Twitter para a predição eleitoral no Brasil.

Pesquisas futuras poderiam avançar na incorporação de variáveis institucionais (como tempo de TV, recursos de campanha), na análise de redes de interação para além do sentimento agregado, e na exploração de dados de diferentes plataformas (como Instagram e Facebook) para construir um panorama mais completo do engajamento digital. A combinação de diferentes fontes de dados pode revelar padrões que uma análise focada em uma única plataforma e métrica não consegue capturar.

A pesquisa avaliou se o sentimento extraído de menções no Twitter durante as eleições municipais de 2024 poderia prever o resultado eleitoral. Por meio de classificação de sentimentos com um modelo BERT, testes estatísticos e modelagem preditiva, os resultados mostraram-se consistentemente negativos. O estudo demonstrou que o sentimento agregado, da forma como foi mensurado, não discriminou o desfecho eleitoral nem aprimorou a capacidade de predição. O teste t de Welch não indicou diferenças estatisticamente significativas nas médias de polaridade entre candidatos eleitos e não eleitos. De forma correspondente, os modelos que incorporaram as variáveis de sentimento não apresentaram melhoria de desempenho em relação a um modelo baseline, com valores de AUC próximos a 0,5, indicando uma capacidade de classificação equivalente à aleatória.

Este resultado nulo constitui a principal contribuição do trabalho: uma evidência negativa clara, obtida com um método transparente, que estabelece limites importantes para a aplicabilidade da análise de sentimentos do Twitter como ferramenta de previsão eleitoral no contexto brasileiro, contrastando com achados em outros contextos internacionais. As limitações de cobertura e representatividade da plataforma, somadas aos desafios inerentes à mensuração de sentimento, foram interpretadas como as principais razões para a ausência de poder preditivo. Conclui-se que o objetivo foi atingido: demonstrou-se que, no contexto das eleições municipais brasileiras de 2024, a análise de sentimentos de menções no Twitter não serviu como um preditor eficaz de resultados eleitorais.

Referências:
Almeida, H.; Gomes, L. P.; Souza, R. M. P. 2023. E o Nordeste? E o Twitter? O Twitter nas majoritárias municipais nordestinas. p. 105-130. In: Aggio, C.; Cavassana, F.; Massuchin, M. (org.). Eleições municipais em rede: o contexto digital em 2020. Ed. UFPR, Curitiba, PR, Brasil.
Barbieri, F.; Camacho-Collados, J.; Espinosa-Ankoles, L.; Neves, L. 2022. XLM-T: Multilingual Language Models in Twitter for Sentiment Analysis and Beyond. In: Language Resources and Evaluation Conference (LREC), 2022, Marseille, França.
Benevenuto, F.; Araújo, M.; Ribeiro, F. 2015. Métodos para Análise de Sentimentos em mídias sociais. In: Brazilian Symposium on Multimedia and the Web (WebMedia), 2015, Manaus, AM, Brasil.
Braga, S.; Carlomagno, M. 2018. Eleições como de costume? Uma análise longitudinal das mudanças provocadas nas campanhas eleitorais brasileiras pelas tecnologias digitais (1998-2016). Revista Brasileira de Ciência Política 26: 7-62.
Brasil. Secretaria de Comunicação Social da Presidência da República [SECOM]. 2015. Pesquisa Brasileira de Mídia 2015: hábitos de consumo de mídia pela população brasileira.
Caldarelli, G.; Chessa, A.; Pammolli, F.; Pompa, G.; Puliga, M.; et al. 2014. A Multi-Level Geographical Study of Italian Political Elections from Twitter Data. PLOS ONE 9(5): e95809.
Cervi, E. U.; Sinderski, R. M.; Kniess, A. B.; Alcantara, N. S. A.; Verner, A. F.; Soares, M. M.; Padilha, R. L.; Saleh, D. M.; Araujo, B. C. S. 2023. Campanhas digitais nas eleições de 2020: uma análise do Twitter na disputa pelas prefeituras dos maiores municípios do Paraná. p. 15-46. In: Aggio, C.; Cavassana, F.; Massuchin, M. (org.). Eleições municipais em rede: o contexto digital em 2020. Ed. UFPR, Curitiba, PR, Brasil.
Chauhan, P.; Sharma, N.; Sikka, G. 2021. The emergence of social media data and sentiment analysis in election prediction. Journal of Ambient Intelligence and Humanized Computing 12: 2601-2627.
Chauhan, P.; Sharma, N.; Sikka, G. 2023. Application of Twitter sentiment analysis in election prediction: a case study of 2019 Indian general election. Social Network Analysis and Mining 13: 88.
Devlin, J.; Chang, M.-W.; Lee, K.; Toutanova, K. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: NAACL-HLT, 2019, Minneapolis, MN, EUA.
Gayo-Avello, D. 2013. A meta-analysis of state-of-the-art electoral prediction from Twitter data. Social Science Computer Review 31(6): 649-679.
Jungherr, A. 2016. Twitter use in election campaigns: a systematic literature review. Journal of Information Technology & Politics 13(1): 72-91.
Soares, M. M. 2013. Formas de Estado: federalismo. Manuscrito. UFMG/DCP, Belo Horizonte, MG, Brasil.
Soares, M. M.; Machado, J.Â. 2018. Federalismo e políticas públicas. ENAP, Brasília, DF, Brasil.
Tribunal Superior Eleitoral [TSE]. 2024a. Candidatos – Eleições 2024. Dados Abertos TSE.
Tribunal Superior Eleitoral [TSE]. 2024b. Contabilidade eleitoral: aspectos contábeis e jurídicos – eleições 2024. Brasília, DF, Brasil.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade