
Tecnologia
10 de dezembro de 2025
Análise de padrões de gastos parlamentares por meio de clusterização
Autora: Dalciana Bressan Waller — Orientador: Eder Costa Cassettari
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo desta pesquisa foi investigar os padrões de gastos dos deputados federais brasileiros com a Cota para o Exercício da Atividade Parlamentar (CEAP), utilizando técnicas de clusterização não supervisionadas para identificar agrupamentos. O estudo explorou uma base de dados pública para verificar a existência de comportamentos de despesas semelhantes entre os parlamentares, segmentando-os em grupos com perfis de consumo distintos. A análise visa fornecer um instrumento que contribua para a fiscalização e a transparência no uso de recursos públicos, identificando tendências gerais e comportamentos atípicos que possam merecer investigação.
A relevância deste trabalho insere-se na crescente demanda por transparência governamental. A abertura de dados públicos permite que cidadãos exerçam controle social sobre seus representantes (Silva et al., 2014), fortalecendo a participação cívica e a eficiência da gestão. Conforme relatório do Tribunal de Contas da União, a transparência é uma ferramenta central no combate à corrupção, pois a publicidade dos atos administrativos inibe práticas ilícitas ao expor gestores ao escrutínio público (TCU, 2018).
O parlamento brasileiro tem evoluído na regulamentação e divulgação do uso de verbas públicas. Lemos e Joseph (2010) destacam que foram implementadas medidas para conferir maior publicidade e rigor no acompanhamento desses gastos. Dentre os auxílios financeiros, a Cota para o Exercício da Atividade Parlamentar (CEAP), instituída em 2009, é um dos principais mecanismos de custeio, cobrindo despesas como passagens aéreas, manutenção de escritórios, alimentação, hospedagem, locomoção e divulgação da atividade parlamentar.
A transparência no uso da CEAP foi formalizada pela Portaria 228/2014, que determinou a publicação das notas fiscais. O valor mensal da cota varia entre R$ 36 mil e R$ 51,4 mil por deputado, dependendo do estado de origem para refletir diferenças de custo, principalmente com deslocamento. Uma característica do regulamento é que o saldo não utilizado em algumas categorias pode ser acumulado ao longo do ano fiscal, influenciando os padrões de gastos, enquanto outras categorias possuem limites mensais rígidos e não acumuláveis.
A pesquisa aplica técnicas de análise de dados para explorar a base de gastos da CEAP, buscando padrões de consumo que permitam agrupar parlamentares em clusters. A utilização de algoritmos de aprendizado de máquina não supervisionado, como aglomeração hierárquica e K-means, oferece uma abordagem objetiva para descobrir estruturas latentes nos dados. O estudo também verifica se as regras atuais da cota podem facilitar abusos ou gastos de necessidade questionável, promovendo a conscientização sobre o uso de recursos públicos.
O material de análise consiste em bases de dados públicas sobre os gastos da CEAP, do portal de dados abertos da Câmara dos Deputados. Foram utilizados os arquivos CSV de 2023, 2024 e 2025, da 57ª legislatura. O conjunto de dados consolidado abrangeu o período de 1º de fevereiro de 2023 a 30 de abril de 2025, totalizando 604.374 registros de despesas. A data de corte foi escolhida para garantir a completude dos dados, considerando o prazo de 90 dias para apresentação de comprovantes. As variáveis centrais extraídas foram nome do parlamentar, partido, UF, descrição da despesa e valor líquido.
A preparação dos dados envolveu um tratamento rigoroso. Campos monetários foram convertidos para formato numérico. Para reduzir a granularidade, a variável auxiliar macrocategorias agrupou descrições detalhadas em categorias mais amplas, como “manutenção de escritório”, “combustíveis e lubrificantes” e “divulgação da atividade parlamentar”. Foram incorporadas variáveis categóricas externas para enriquecer o perfil dos parlamentares, como reeleição (catreeleicao) e titularidade (catcargotitusup). A variável de tempo numAnoMes_compet foi criada para análises temporais. Optou-se por não aplicar atualização monetária para simplificar a análise comparativa no curto período.
A metodologia baseou-se em clusterização não supervisionada, adequada para agrupar observações por semelhanças intrínsecas sem uma variável de resposta pré-definida (Fávero e Belfiore, 2017). A primeira técnica foi a aglomeração hierárquica, que constrói uma hierarquia de clusters representada por um dendrograma. Foram testadas diferentes métricas de distância (Euclidiana, Manhattan, Chebyshev) e métodos de encadeamento (simples, completo, médio). A distância Euclidiana mede a distância linear direta, enquanto a de Manhattan calcula a soma das diferenças absolutas, ambas derivadas da medida de dissimilaridade de Minkowski.
A segunda e principal técnica foi o algoritmo K-means, um método não hierárquico que particiona os dados em um número K de clusters pré-definido, minimizando a soma das distâncias quadráticas intra-cluster (WCSS). A escolha do número ideal de clusters (K) foi orientada pelo método do cotovelo (“elbow method”) e pelo método da silhueta, que mede a coesão e separação dos clusters. O processamento e a modelagem foram realizados em Python, com o ambiente Jupyter Notebook e as bibliotecas Pandas, Scikit-learn, Matplotlib e Seaborn.
A análise exploratória inicial não revelou anomalias temporais, com exceção de janeiro de 2023, último mês do mandato anterior. Foram identificados 623 nomes de deputados com despesas, número superior aos 513 eleitos devido à atuação de suplentes. Geograficamente, deputados de São Paulo, Minas Gerais e Rio de Janeiro tiveram os maiores volumes totais de gastos, como esperado por terem as maiores bancadas. Contudo, a análise do gasto médio por parlamentar mostrou que deputados de estados da região Norte apresentaram as médias mais elevadas, possivelmente por maiores custos com deslocamento aéreo.
A distribuição dos gastos por categoria foi um dos achados mais significativos. A rubrica “divulgação da atividade parlamentar” correspondeu a quase 40% do valor total despendido com a CEAP. A análise temporal desta categoria revelou forte sazonalidade, com gastos se intensificando no segundo semestre de cada ano. Este padrão é relevante porque, ao contrário de outras categorias, a divulgação parlamentar não possui limite mensal de gastos. A ausência de teto, combinada com a não acumulação de saldo entre exercícios, pode incentivar a concentração de despesas no final do ano, levantando questões sobre sua real necessidade. Essa preocupação já foi apontada pelo TCU (2019), que recomendou a revisão das regras para esta rubrica, sugerindo a fixação de critérios e valores máximos.
A clusterização foi realizada em três etapas. Na primeira, utilizaram-se 21 variáveis das categorias de despesas para todos os 623 parlamentares, com baixa colinearidade entre elas. A aglomeração hierárquica resultou em dendrogramas ilegíveis, uma limitação comum em grandes conjuntos de dados, como aponta Noble. A tentativa com K-means também foi infrutífera: os métodos do cotovelo e da silhueta não indicaram um número claro de clusters. A análise de variância (ANOVA) mostrou que a maioria das variáveis era significativa, mas a sobreposição dos grupos em gráficos 3D demonstrou a dificuldade em separá-los com base em um conjunto tão amplo de variáveis.
Na segunda etapa, a abordagem foi refinada, focando nas seis categorias de maior representatividade financeira: divulgação da atividade parlamentar, passagens aéreas, locação de veículos, manutenção de escritório, combustíveis e hospedagem. Com este conjunto reduzido, os resultados foram mais promissores. O método do cotovelo e a análise da silhueta sugeriram um número ótimo entre 3 e 5 clusters. Optando-se por 5 clusters, a ANOVA confirmou a relevância de todas as seis variáveis, com “divulgação da atividade parlamentar” sendo a mais discriminante (maior estatística F). A visualização 3D mostrou uma separação mais nítida, embora com alguma sobreposição. Foi possível identificar um cluster (Cluster 4) com gastos elevados em divulgação e passagens, e outro (Cluster 3) com despesas mais contidas, composto majoritariamente por suplentes e deputados em primeiro mandato.
A terceira etapa adotou uma nova perspectiva, usando como variáveis os valores médios mensais de gastos nas mesmas seis categorias, ponderados pelo número de meses em exercício para normalizar os dados. Novamente, o método do cotovelo indicou de 3 a 5 clusters. A aplicação do K-means com 5 clusters revelou um resultado interessante: a formação de um cluster (Cluster 4) com apenas três parlamentares. A análise dos centroides mostrou que esses indivíduos apresentavam um padrão de gastos médios mensais significativamente superior ao dos demais, caracterizando-os como outliers. Conforme Fávero e Belfiore (2017), a sensibilidade do K-means a outliers pode levar à formação de clusters individuais, e a identificação desses pontos atípicos é um resultado valioso, pois aponta para comportamentos que fogem da norma e podem justificar uma auditoria.
A análise geral dos resultados da clusterização indica que, embora os padrões de gastos sejam em grande medida homogêneos, a aplicação de técnicas de segmentação permite identificar perfis de consumo distintos. A dificuldade inicial em formar clusters com muitas variáveis sugere que gastos menores seguem um padrão similar entre os parlamentares. Contudo, ao focar nas categorias de maior impacto financeiro, especialmente “divulgação da atividade parlamentar”, foi possível agrupar os deputados de forma mais coerente. A identificação de um pequeno grupo com despesas médias muito acima da média na terceira etapa reforça o potencial da metodologia como ferramenta de fiscalização para destacar casos que necessitam de maior escrutínio.
O estudo demonstrou que a aplicação de aprendizado de máquina não supervisionado em dados públicos de despesas parlamentares é uma abordagem viável para promover a transparência. A análise revelou que a “divulgação da atividade parlamentar” é o principal fator de diferenciação nos padrões de gastos e, por sua regulamentação flexível, representa uma área de potencial vulnerabilidade. As limitações do estudo incluem o número relativamente pequeno de observações (deputados), o que pode ser superado em trabalhos futuros com a inclusão de dados de legislaturas anteriores. Sugestões para pesquisas futuras incluem a aplicação de algoritmos mais robustos a outliers como o K-means++, a análise de anomalias na base de dados granular e a investigação dos CNPJs dos fornecedores.
A análise demonstra a utilidade de técnicas de clusterização para a fiscalização de despesas públicas, oferecendo um caminho para aprimorar a transparência e o controle social. A capacidade de segmentar e identificar padrões e outliers em grandes volumes de dados governamentais representa um avanço para a auditoria e a accountability. Conclui-se que o objetivo foi atingido: demonstrou-se que, embora os padrões gerais de gastos sejam homogêneos, a análise segmentada por meio de clusterização permite identificar perfis específicos de consumo e outliers que podem subsidiar ações de controle e transparência.
Referências:
Câmara dos deputados Assessoria de imprensa. Guia para jornalistas sobre Cotas parlamentares. Disponível em <https://www2. camara. leg. br/comunicacao/assessoria-de-imprensa/guia-para-jornalistas/cota-parlamentar>. Acesso em 31 de maio de 2025.
Câmara dos Deputados. Assessoria de imprensa. Guia para jornalistas sobe a Câmara dos deputados. Disponível em <https://www2. camara. leg. br/comunicacao/assessoria-de-imprensa/guia-para-jornalistas/camara-dos-deputados>. Acesso em 16 de junho de 2025.
Câmara dos Deputados. Assessoria de imprensa sobre recesso. Disponível em <https://www2. camara. leg. br/comunicacao/assessoria-de-imprensa/guia-para-jornalistas/recesso-dos-deputados>. Acesso em 19 de julho de 2025.
Câmara dos deputados. Cota para o Exercício da Atividade Parlamentar (Ceap). Disponível em <https://www2. camara. leg. br/a-camara/documentos-e-pesquisa/arquivo/sites-tematicos/57a-legislatura/no-exercicio-do-mandato/cota-para-o-exercicio-da-atividade-parlamentar-ceap>. Acessado em 2 de setembro de 2025.
Câmara dos deputados. Dados abertos. Sessão Despesas pela Cota para Exercício da Atividade Parlamentar. Disponível em <https://dadosabertos. camara. leg. br/swagger/api. html? tab=staticfile>. Primeiro acesso em 10 de maio de 2025 e segundo acesso em 2 de setembro de 2025.
Câmara dos deputados. Gastos parlamentares. Disponível em <https://www. camara. leg. br/transparencia/gastos-parlamentares/>. Acesso em 2 de maio de 2025.
Câmara dos deputados. Perguntas frequentes sobre deputados e seus mandatos. Disponível em <https://www2. camara. leg. br/transparencia/acesso-a-informacao/copyofperguntas-frequentes/deputados>. Acesso em 2 de setembro de 2025.
Câmara dos deputados. Portaria Nº 228, de 18/06/2014. Disponível em <https://www2. camara. leg. br/legin/int/portar/2014/portaria-228-18-junho-2014-779144-publicacaooriginal-144692-cd-dg. html>. Acesso em 16 de junho de 2025.
Câmara dos deputados. Resultado dos deputados eleitos (titulares) para a 57a legislatura. Disponível em <https://www. camara. leg. br/internet/agencia/infograficos-html5/tabelasEleicoes/deputados-eleitos-estado/index. html>. Acesso em 20 de julho de 2025.
Câmara dos deputados. Resultado dos deputados reeleitos para a 57a legislatura. Disponível em <https://www. camara. leg. br/noticias/912220-reeleicao-na-camara-alcanca-57-veja-quais-deputados-foram-reeleitos/>. Acesso em 5 de julho de 2025.
Câmara dos deputados. Significado das colunas da base de gastos parlamentares. <https://dadosabertos. camara. leg. br/howtouse/2023-12-26-dados-ceap. html>. Acesso em 2 de maio de 2025.
Fávero, L. P.; Belfiore, P. Manual de análise dados: estatística e modelagem multivariada com Excel, SPSS e Stata. Rio de Janeiro: Elsevier, 2017. Acesso em 7 junho de 2025.
Lemos, L.; Joseph, R. 2010. Parliamentarians’ Expenses Recent Reforms: a briefing on Australia, Canada, United Kingdom and Brazil. Global Economic Governance Programme- GEG Working Paper 2010/57. Disponível em <https://www. geg. ox. ac. uk/sites/default/files/Lemos%20JosephGEG%20WP%20201057. pdf>. Acesso em 15 de junho de 2025.
Noble, J. Como funciona o agrupamento hierárquico. Disponível em <https://www. ibm. com/br-pt/think/topics/hierarchical-clustering> Acesso em 17 de agosto de 2025.
Silva, C. F.; Santos, E. M. F.; Chaves, M. C.; Vaz, W; Balaniuk;. R. Dados abertos: uma estratégia para o aumento da transparência e modernização da gestão pública. Revista do TCU, Brasília, n. 131, p. p. 22–29, 2014. Disponível em: <https://revista. tcu. gov. br/ojs/index. php/RTCU/article/view/59> Acesso em 14 de junho de 2025.
Tribunal de Contas da União. 2018. Relatório sistêmico sobre Transparência Pública. Disponível em: <https://portal. tcu. gov. br/data/files/16/63/C5/6F/46A1F6107AD96FE6F18818A8/Fisc_Transparencia. pdf>. Acesso em 15 de junho de 2025.
Tribunal de Contas da União. 2019. Acórdão 3048/2019 – Plenário. Disponível em <https://pesquisa. apps. tcu. gov. br//acordao-completo/Ac%25C3%25B3rd%25C3%25A3o%25203048%252F2019%2520/%2520/DTRELEVANCIA%2520desc%252C%2520NUMACORDAOINT%2520desc/0/%2520>. Acessado em 30 de junho de 2025.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































