Imagem Categorização e Rotulação de Discursos Políticos na Câmara dos Deputados Brasileira

02 de março de 2026

Categorização e Rotulação de Discursos Políticos na Câmara dos Deputados Brasileira

José Rafael Souza do Nascimento; Erik Montagna

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O presente estudo comparou a aplicação de métodos de Processamento de Linguagem Natural (PLN) em discursos políticos na Câmara de Deputados brasileira, categorizando-os e medindo a proporção destinada à argumentação. A pesquisa investiga a padronização, validade argumentativa e a adaptação dos pronunciamentos para mídias sociais, num contexto de superficialidade informacional. A hiperconectividade alterou o consumo de informação, com frases de impacto prevalecendo sobre análises aprofundadas. Este fenômeno, que afeta processos democráticos e alimenta divisões, é global, observado em cenários como as eleições estadunidenses (Aisha e Khan, 2024). A disseminação de desinformação torna crucial o desenvolvimento de ferramentas analíticas para examinar o conteúdo e a forma da comunicação política.

Na era digital, a “economia da atenção” valoriza a capacidade de capturar o interesse do público. Na política, isso se traduz na preferência por mensagens curtas, polarizadoras e emocionais, propensas à viralização. Discursos complexos são fatiados em “soundbites” que, descontextualizados, podem ter o significado distorcido, servindo a campanhas de desinformação. Essa fragmentação desafia a deliberação democrática, que pressupõe a troca de argumentos racionais. Portanto, a análise estrutural dos discursos parlamentares é essencial para diagnosticar a saúde do debate e verificar se a comunicação legislativa está sendo moldada para o consumo rápido em detrimento da profundidade.

O uso de modelos computacionais para analisar discursos políticos tem crescido, impulsionado por avanços em PLN e pela disponibilidade de ferramentas de código aberto. Um marco foi o modelo BERT (Bidirectional Encoder Representations from Transformers), que revolucionou a compreensão contextual da linguagem por máquinas (Devlin et al., 2019). As técnicas empregadas variam desde algoritmos de aprendizado de máquina como Latent Dirichlet Allocation (LDA) e Support Vector Machine (Baarir e Djeffal, 2020), até abordagens de deep learning com arquitetura de transformers para uma compreensão semântica mais profunda (Oyedokun e William, 2025).

A aplicação dessas tecnologias ao português brasileiro apresenta desafios específicos, como a riqueza sintática e o jargão político, que exigem modelos treinados para as nuances locais. Modelos genéricos, treinados em inglês, podem falhar em capturar sutilezas, levando a interpretações imprecisas. A escolha de ferramentas desenvolvidas para o português do Brasil, como o BERTimbau, é um passo metodológico crucial para garantir a acurácia das análises, permitindo uma dissecação fiel da semântica e pragmática dos pronunciamentos.

Este trabalho aplica e compara metodologias de ponta para analisar os discursos parlamentares brasileiros, visando não apenas identificar temas, mas dissecar a estrutura interna dos pronunciamentos, diferenciando segmentos como argumentação, formalidades e apelos emocionais. A compreensão dessa estrutura é fundamental para avaliar a qualidade do debate público. A relevância da pesquisa reside na sua capacidade de fornecer uma análise objetiva e quantitativa do discurso político, domínio frequentemente sujeito a interpretações subjetivas. Ao aplicar um rigor metodológico de ciência de dados, o estudo oferece uma nova perspectiva sobre como os temas são construídos e debatidos no legislativo. Os resultados podem servir como insumo para jornalistas, analistas e o público, promovendo maior transparência e alinhando-se a esforços acadêmicos de combate a fenômenos como notícias falsas (Özgöbek e Gulla, 2018).

A metodologia iniciou-se com a coleta de dados via Interface de Programação de Aplicações (API) do portal de Dados Abertos da Câmara dos Deputados (Dados Abertos da Câmara dos Deputados, 2025). A API, baseada na arquitetura REST (Godinho et al., 2024), permitiu a extração sistemática de dados cadastrais dos parlamentares e das transcrições de seus pronunciamentos. O escopo temporal abrangeu o período do início do mandato do presidente da Câmara, Hugo Motta, até o final do primeiro semestre parlamentar de 2025, garantindo um corpus textual volumoso e consistente.

Após a coleta, uma análise exploratória identificou a transcrição do discurso como a categoria mais importante. Foram filtrados os registros para incluir apenas aqueles com fase de evento identificada, resultando em uma base final de 19.417 discursos, com foco no primeiro semestre de 2025 para garantir homogeneidade. A base de dados passou por um rigoroso processo de limpeza. Utilizando expressões regulares (Regex) (Friedl, 2002), foram removidos caracteres especiais, hiperlinks e espaços excessivos. Foram eliminadas interpelações e frases protocolares, como “Senhor Presidente, Senhoras e Senhores Deputados”, que não agregam conteúdo semântico. O texto foi submetido à tokenização, processo de divisão do texto em unidades (tokens) (Grefenstette, 1999), com a biblioteca Natural Language Toolkit (NLTK). Nesta fase, foram removidas “stopwords”, palavras funcionalmente importantes mas semanticamente vazias (Sarica e Luo, 2021). Realizou-se a lematização, que reduz as palavras à sua forma canônica (Balakrishnan e Lloyd-Yemoh, 2014), uma escolha preferível à radicalização (stemming) por preservar o significado lexical, fundamental para análises semânticas apuradas.

Com os dados pré-processados, duas abordagens de modelagem de tópicos foram implementadas. A primeira, tradicional, usou o algoritmo Latent Dirichlet Allocation (LDA), um modelo probabilístico que assume que documentos são uma mistura de tópicos latentes (Blei et al., 2003). A segunda, mais avançada, empregou a Fatoração de Matriz Não-Negativa (NMF) combinada com “embeddings” semânticos. Esta técnica, de alta assertividade em análises de discursos parlamentares (Greene e Cross, 2015), utiliza a métrica TF-IDF (Term Frequency-Inverse Document Frequency) para ponderar a importância das palavras. Para otimizar o número de tópicos em ambos os modelos, utilizou-se o “Coherence Score”, que avalia a similaridade semântica entre as palavras de um mesmo tópico. O cálculo foi realizado iterativamente para um intervalo de 5 a 30 tópicos, e o valor que maximizou a coerência foi selecionado.

A etapa final envolveu a segmentação da estrutura textual dos discursos com um modelo “transformer”, o BERTimbau, pré-treinado para o português brasileiro (Souza et al., 2020). Os discursos foram segmentados em frases e cada frase foi convertida em um vetor numérico (“embedding”) de alta dimensionalidade pelo BERTimbau, populando um banco de dados vetorial (VectorDB) otimizado para buscas de similaridade (Taipalus, 2024). Dada a alta dimensionalidade dos vetores (768 dimensões), aplicou-se a Análise de Componentes Principais (PCA) para reduzi-la para 300 componentes, preservando 93,6% da variância e mitigando a “Maldição da Dimensionalidade”. Com os vetores em um espaço dimensional reduzido, aplicou-se o algoritmo de clusterização K-Means para agrupar as sentenças por proximidade semântica. Os clusters resultantes foram analisados qualitativamente e rotulados em categorias funcionais como “Argumentação Substantiva”, “Formalidade Protocolar”, “Apelo Emocional”, “Ataque a Oponentes” e “Citação de Dados/Fontes”, permitindo quantificar a estrutura de cada discurso.

A análise dos resultados da modelagem de tópicos revelou os principais eixos temáticos do debate. O Coherence Score indicou um número ótimo de 14 tópicos para os modelos LDA e NMF. Entre os tópicos mais proeminentes identificados pelo NMF, destacaram-se: “Economia e Reforma Tributária” (palavras-chave: ‘imposto’, ‘crescimento’, ‘empresa’); “Segurança Pública e Sistema Prisional” (‘polícia’, ‘crime’, ‘violência’); “Meio Ambiente e Agronegócio” (‘desmatamento’, ‘sustentabilidade’, ‘amazônia’); e “Saúde e Gestão do SUS” (‘hospital’, ‘vacina’, ‘pandemia’). Esses temas refletem as preocupações centrais da agenda política brasileira no período.

Na comparação entre os métodos, o modelo NMF com TF-IDF demonstrou performance superior em interpretabilidade. Enquanto o LDA produziu tópicos mais genéricos e com sobreposição de palavras-chave, o NMF gerou clusters temáticos mais coesos e distintos. Por exemplo, o NMF separou claramente um tópico sobre “Direitos Humanos e Minorias” de outro sobre “Justiça e Legislação Penal”, temas que no LDA apareceram parcialmente fundidos. Este resultado corrobora as conclusões de Greene e Cross (2015), sugerindo que a fatoração de matriz é eficaz para desvendar a estrutura temática em textos políticos.

Os resultados da segmentação estrutural, obtidos pela clusterização dos embeddings do BERTimbau, foram reveladores. A análise quantitativa indicou que, em média, apenas 48% do conteúdo de um discurso parlamentar é dedicado à “Argumentação Substantiva”, definida como a apresentação de fatos e raciocínios lógicos. O restante foi distribuído entre “Formalidades Protocolares” (22%), “Apelos Emocionais e Retóricos” (17%), “Ataques a Oponentes” (9%), e uma categoria residual de 4% para outros elementos.

Adicionalmente, identificaram-se correlações entre o tema do discurso e sua estrutura. Discursos sobre “Segurança Pública e Sistema Prisional” apresentaram uma proporção maior de “Apelos Emocionais” e “Ataques a Oponentes” (somando, em média, 35% do conteúdo) em comparação com discursos sobre “Economia e Reforma Tributária”, majoritariamente compostos por “Argumentação Substantiva” (cerca de 65%). Essa descoberta sugere que a natureza do debate varia com o tema, com pautas de maior apelo popular sendo tratadas de forma mais retórica, enquanto temas técnicos incentivam uma comunicação focada em dados.

A aplicação combinada de técnicas de PLN permitiu uma análise multifacetada dos discursos. A superioridade do NMF para identificação de tópicos foi estabelecida, e a análise estrutural via BERTimbau quantificou a distribuição das funções comunicativas, revelando que menos da metade do tempo é usado para argumentação baseada em evidências. Conclui-se que o objetivo foi atingido, pois foi possível comparar com sucesso os métodos de PLN e quantificar a estrutura argumentativa dos discursos, fornecendo um retrato empírico da comunicação legislativa no Brasil contemporâneo.

As implicações desses achados oferecem uma ferramenta de diagnóstico para a qualidade do debate democrático e para a fiscalização da atividade parlamentar. A predominância de elementos não argumentativos pode indicar uma tendência à performatividade política em detrimento da deliberação substantiva. Como trabalhos futuros, sugere-se a expansão da análise para séries temporais mais longas, permitindo a observação de tendências ao longo de diferentes legislaturas, e a incorporação de análises multimodais que considerem elementos prosódicos e visuais dos discursos para uma compreensão mais completa da comunicação política.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade