Imagem Identificação de avaliadores ad hoc com embeddings de sentença

02 de fevereiro de 2026

Identificação de avaliadores ad hoc com embeddings de sentença

Danilo Barros Nacif Júnior; Adriano de Freitas Fernandes

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

A automação inteligente dessa tarefa não apenas otimiza o tempo dos gestores, mas também promete aumentar a qualidade e a justiça do processo de avaliação por pares, ao garantir que cada projeto seja analisado por especialistas com a máxima aderência temática. O CNPq, vinculado ao Ministério da Ciência, Tecnologia e Inovação (MCTI), desempenha um papel central no ecossistema de pesquisa brasileiro, fomentando a Ciência, Tecnologia e Inovação (CT&I) e contribuindo com políticas públicas para o desenvolvimento nacional (CNPq, 2015). Seu fomento ocorre por meio de um portfólio diversificado de apoio a projetos e bolsas, sendo a Chamada Pública o principal instrumento para a alocação de recursos. Um pilar fundamental e indispensável desse processo é a avaliação de mérito, que se apoia em pareceres Ad Hoc emitidos por especialistas da comunidade científica, selecionados criteriosamente para cada projeto (CNPq, 2025).

A robustez e a credibilidade do sistema de fomento dependem diretamente da eficácia da avaliação por pares (peer review), pois são os especialistas que atestam o mérito científico, a originalidade da proposta, a adequação da metodologia e a razoabilidade dos recursos solicitados, garantindo que o investimento público seja direcionado para as pesquisas mais promissoras e bem fundamentadas (Davyt e Velho, 2000). A importância do processo de avaliação por pares é universalmente reconhecida como o padrão-ouro para a validação da pesquisa científica. No entanto, sua operacionalização enfrenta desafios logísticos e epistemológicos significativos, especialmente em agências de fomento de grande porte. O desafio central se manifesta de forma aguda em chamadas de grande escala e escopo abrangente, como a Chamada Universal (CNPq, 2024), que historicamente pode receber mais de 10 mil propostas de todas as áreas do conhecimento.

Nestes cenários, a tarefa de identificar, entre um universo de aproximadamente 17 mil bolsistas de produtividade, os perfis mais adequados para avaliar cada um desses milhares de projetos torna-se uma tarefa de complexidade combinatória e de alta demanda cognitiva. O processo tradicional, que se baseia na análise do Currículo Lattes (Werlang, 2013), embora detalhado, pode ser excessivamente demorado e nem sempre consegue capturar a aderência temática mais recente e específica entre o avaliador e o projeto, focando muitas vezes em áreas de atuação mais amplas ou em produções passadas que podem não refletir a expertise atual do pesquisador. Os atributos selecionados para a construção da representação semântica foram o título, as palavras-chave e a área de conhecimento do projeto. Essa escolha foi estratégica, buscando um balanço ótimo entre a riqueza informacional contida nesses campos e a viabilidade de processamento computacional em larga escala.

A hipótese central que norteia esta pesquisa é que a similaridade semântica, calculada a partir de representações vetoriais densas dos descritores de projetos de um avaliador e de um proponente, é um forte e confiável indicativo de adequação para a avaliação. Em outras palavras, se os projetos de um pesquisador são semanticamente próximos ao de uma nova proposta, é altamente provável que ele possua o conhecimento de fronteira necessário para realizar uma avaliação de mérito qualificada. A fundamentação tecnológica desta pesquisa reside no campo do Processamento de Linguagem Natural (PLN), uma subárea da inteligência artificial que utiliza técnicas computacionais para permitir que máquinas processem, compreendam e interpretem a linguagem humana (Liddy, 2001). Especificamente, o estudo emprega a técnica de embeddings de sentenças, que consiste em transformar trechos de texto em representações vetoriais numéricas de alta dimensionalidade que capturam o seu significado semântico.

Essa técnica representa uma evolução significativa sobre modelos anteriores como o Word2Vec, que focava em gerar vetores para palavras isoladas, perdendo parte do contexto composicional da sentença (Mikolov et al., 2013). Modelos de linguagem modernos, como o Sentence-BERT (SBERT), utilizam arquiteturas de redes neurais transformadoras para gerar vetores de alta qualidade para sentenças inteiras de forma computacionalmente eficiente, o que facilita enormemente tarefas como busca semântica, classificação de textos e agrupamento (Reimers & Gurevych, 2019). A qualidade e a expressividade dessas representações vetoriais são um fator crítico para o sucesso da metodologia, e a rápida evolução dos modelos de embedding, impulsionada por arquiteturas cada vez mais sofisticadas, marca o progresso contínuo da área de PLN (Cao, 2024).

Este estudo possui um caráter exploratório e experimental, com o foco principal em validar a hipótese de que a aplicação de técnicas de deep learning não supervisionado pode otimizar e qualificar a seleção de avaliadores Ad Hoc no contexto do CNPq. A metodologia foi desenhada para ser pragmática e replicável, convertendo os dados textuais descritivos dos projetos (título, palavras-chave) em dados quantitativos (vetores de embeddings), que são então passíveis de análise por métodos estatísticos e de aprendizado de máquina. A pesquisa não se limitou à concepção teórica, mas implementou as técnicas propostas para gerar resultados concretos e diretamente aplicáveis, como listas de sugestão de avaliadores para cada projeto e a identificação de agrupamentos temáticos emergentes no portfólio de pesquisa.

Para garantir a relevância e a aplicabilidade dos achados, foram utilizados exclusivamente dados reais, anonimizados, provenientes das bases institucionais do CNPq, refletindo o cenário operacional da agência. A base de dados utilizada para este estudo compreende um conjunto de 10.748 projetos submetidos à Chamada Universal, que constituem o grupo de Proponentes, e 17.010 projetos de pesquisa vigentes de bolsistas de produtividade, que formam o universo de potenciais Avaliadores. No total, foram processados 27.758 projetos, devidamente anonimizados para preservar a confidencialidade das informações. Os atributos selecionados para a análise foram: Título do Projeto, Palavras-chave e a Área de Conhecimento, esta última estruturada hierarquicamente em Grande Área, Área e Subárea, conforme a tabela de áreas do CNPq. A natureza de texto livre dos campos de título e palavras-chave exigiu um tratamento de dados cuidadoso para normalização e limpeza, em contraste com a estrutura rígida e pré-definida da Área de Conhecimento.

A partir desses atributos, foram construídas quatro sentenças distintas para cada projeto, com o objetivo de testar experimentalmente diferentes combinações de informação e seu impacto na qualidade dos resultados. As quatro variações foram: 1) utilizando apenas o título (T); 2) utilizando apenas as palavras-chave (PC); 3) utilizando a concatenação de título e palavras-chave (TPC); e 4) utilizando a concatenação de título, palavras-chave e a área de conhecimento completa (TPCA). O primeiro passo do processamento metodológico foi a geração dos embeddings para cada uma das quatro variações de sentenças.

Para tal, foi utilizado um modelo pré-treinado da família Sentence-BERT, especificamente um modelo multilíngue otimizado para tarefas de similaridade semântica, capaz de gerar vetores de 384 dimensões. Uma vez que todos os 27.758 projetos foram convertidos em vetores numéricos para cada uma das quatro configurações, esses vetores foram normalizados (L2-normalization) para garantir que a medida de similaridade se concentrasse apenas na direção (ângulo) dos vetores, e não em sua magnitude. Com os embeddings gerados e normalizados, a análise de similaridade foi iniciada com o cálculo da matriz de similaridade de cosseno entre o conjunto de vetores dos Avaliadores e o conjunto de vetores dos Proponentes. Este cálculo foi repetido para cada um dos quatro conjuntos de embeddings (T, PC, TPC, TPCA), resultando em quatro matrizes de similaridade distintas.

A partir dessas matrizes, foram extraídas, para cada projeto de proponente, listas ordenadas com os 20 avaliadores mais similares, conhecidas como listas TOP20.

Para a análise de agrupamento, que visava identificar comunidades temáticas na base de projetos, utilizou-se o algoritmo K-Means, uma técnica de aprendizado não supervisionado amplamente difundida para particionar um conjunto de dados em K grupos distintos (Samosir et al., 2022). O algoritmo foi implementado utilizando a biblioteca scikit-learn (Pedregosa et al., 2011), uma ferramenta robusta para aprendizado de máquina em Python. A determinação do número ótimo de clusters (K) é um passo crítico no uso do K-Means. O valor de 80 foi considerado um bom equilíbrio, capaz de capturar a granularidade temática da base de dados sem gerar um número excessivo de micro-clusters. Finalmente, para a visualização dos dados de alta dimensionalidade, foi aplicada a técnica de Análise de Componentes Principais (PCA) para reduzir a dimensionalidade dos vetores de embeddings de 384 para 2 dimensões.

A validade e as limitações dessa redução foram contextualizadas pela análise da variância explicada pelos dois primeiros componentes principais. Os resultados da análise de similaridade revelaram que a qualidade das sugestões de avaliadores variava consideravelmente entre as quatro estratégias de construção de sentenças. A abordagem que utilizou apenas o título (T) produziu sugestões razoáveis, mas por vezes genéricas, enquanto a que usou apenas palavras-chave (PC) foi suscetível a ruídos e ambiguidades. A concatenação de título, palavras-chave e área de conhecimento (TPCA) mostrou-se eficaz, mas em alguns casos a área de conhecimento, por ser muito ampla, dominava o sinal semântico, ofuscando conexões mais sutis e interdisciplinares. A estratégia que demonstrou o melhor desempenho qualitativo, gerando as listas TOP20 mais coerentes e específicas, foi a concatenação de título e palavras-chave (TPC). Esta combinação pareceu capturar um equilíbrio ideal entre a especificidade do título e a abrangência contextual das palavras-chave.

Em uma validação por amostragem, especialistas do corpo técnico do CNPq avaliaram as listas geradas pelo modelo TPC para um conjunto de 100 projetos e confirmaram a alta pertinência dos avaliadores sugeridos em mais de 85% dos casos, um resultado considerado muito promissor.

A análise de agrupamento com o algoritmo K-Means, utilizando K=80, resultou na identificação de clusters temáticos coesos e interpretáveis.

A análise do conteúdo dos projetos dentro de cada cluster revelou uma taxonomia emergente da ciência praticada pelos bolsistas de produtividade do CNPq. Alguns clusters alinhavam-se de forma clara com as subáreas de conhecimento tradicionais, como “Física de Partículas” ou “Direito Constitucional”. No entanto, o resultado mais interessante foi a emergência de múltiplos clusters de natureza intrinsecamente interdisciplinar, que não seriam facilmente identificados por meio da estrutura hierárquica formal das áreas. Esses agrupamentos fornecem um mapa valioso das frentes de pesquisa e das sinergias existentes na comunidade científica brasileira. A visualização dos dados por meio da redução de dimensionalidade com PCA corroborou os achados do K-Means. Ao projetar os vetores de 384 dimensões em um plano 2D, foi possível observar a formação de regiões de alta densidade que correspondiam aos clusters identificados. Áreas do conhecimento bem estabelecidas e com terminologia consolidada apareceram como nuvens de pontos densas e bem separadas.

Em contrapartida, as zonas de fronteira e de interdisciplinaridade se manifestaram como regiões de sobreposição entre diferentes clusters, ilustrando visualmente as pontes temáticas entre campos distintos do saber. Embora a redução para duas dimensões implique uma perda de informação, a visualização se mostrou uma ferramenta poderosa para a exploração e comunicação da estrutura semântica latente no conjunto de dados, permitindo uma compreensão intuitiva da paisagem científica representada. A implementação desta metodologia representa um avanço significativo para a gestão do fomento à pesquisa. A capacidade de gerar listas de avaliadores qualificados de forma automática e em poucos minutos para milhares de projetos pode transformar a operacionalização de grandes chamadas, liberando o tempo do corpo técnico para atividades mais estratégicas de análise e gestão.

Além disso, a abordagem baseada em similaridade semântica tende a ser mais objetiva e menos suscetível a vieses inconscientes do que a seleção manual, promovendo maior equidade no processo.

Conclui-se que o objetivo foi atingido, pois foi desenvolvida e validada uma metodologia funcional, baseada em deep learning não supervisionado, capaz de identificar avaliadores Ad Hoc com alta aderência temática. As limitações do estudo incluem a dependência da qualidade da informação textual fornecida pelos pesquisadores e o fato de que o modelo captura apenas a similaridade temática, não considerando outros fatores relevantes como conflitos de interesse ou a disponibilidade do avaliador. Trabalhos futuros podem explorar a incorporação de dados mais ricos, como os resumos dos projetos, e o desenvolvimento de modelos híbridos que integrem informações de redes de coautoria e da produção bibliográfica completa dos pesquisadores, extraída do Currículo Lattes.

Referências:
Cao, H. (2024). Recent advances in universal text embeddings: A Comprehensive Review of Top-Performing Methods on the MTEB Benchmark. Preprint, arXiv. https://doi. org/10.48550/arXiv , 2406 .
Conselho Nacional de Desenvolvimento Científico e Tecnológico [CNPq]. (2015). Apresentação do CNPq. Disponível em https://www. gov. br/cnpq/pt-br/acesso-a-informacao/institucional/institucional.
Conselho Nacional de Desenvolvimento Científico e Tecnológico [CNPq]. (2024). Chamada CNPq/MCTI/FNDCT Nº 44/2024 – UNIVERSAL. Disponível em <http://memoria2. cnpq. br/web/guest/chamadas-publicas? ppid=resultadosportletWARresultadoscnpqportletINSTANCE0ZaM&filtro=encerradas&detalha=chamadaDivulgada&idDivulgacao=12645>.
Conselho Nacional de Desenvolvimento Científico e Tecnológico [CNPq]. (2025). Portaria 2192/2025 de 26 de março de 2025 – Órgãos de Assessoramento Científico, Tecnológico e de Inovação ao CNPq. Disponível em http://memoria2. cnpq. br/web/guest/view/-/journalcontent/56INSTANCE0oED/10157/22375514? COMPANYID=10132.
Davyt, A., & Velho, L. (2000). A avaliação da ciência e a revisão por pares: passado e presente. Como será o futuro? História, Ciências, Saúde -Manguinhos, 7, 93-116.
Kaiser, H. F., & Rice, J. (1974). Little jiffy, mark iv. Educational and Psychological Measurement, 34(1), 111–117.
Liddy, E. D. (2001). Natural language processing.
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., … & Duchesnay, É. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12, 2825–2830.
Reimers, N., & Gurevych, I. (2019). Sentence-bert: Sentence embeddings using siamese bert-networks. arXiv preprint arXiv:1908.10084.
Samosir, F. V. P., Toba, H., & Ayub, M. (2022). BESKlus: BERT Extractive Summarization with K-Means Clustering in Scientific Paper. Jurnal Teknik Informatika dan Sistem Informasi, 8(1), 202-217.
Werlang, E. (2013). Revisão por pares: um estudo da gestão de avaliadores nas revistas científicas brasileiras. Dissertação de mestrado em Ciência da Informação. Centro de Ciências da Educação, Universidade Federal de Santa Catarina, SC, Brasil.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade