
20 de fevereiro de 2026
Classificação automatizada dos ODS na Produção científica brasileira com processamento de linguagem natural
Maria Marony Sousa Farias; Wallace Gusmão Ferreira
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo investiga a viabilidade de identificar, em larga escala, o alinhamento temático da produção científica brasileira aos Objetivos de Desenvolvimento Sustentável (ODS) através da análise automatizada de resumos acadêmicos. O objetivo é desenvolver e validar uma abordagem de Processamento de Linguagem Natural (PLN) para classificar teses, dissertações e artigos segundo a Agenda 2030, fornecendo uma ferramenta escalável para monitoramento. A questão central é se o aprendizado de máquina pode superar o volume de publicações e a complexidade conceitual dos ODS, oferecendo um método replicável para mapear a contribuição da ciência brasileira ao desenvolvimento sustentável.
A Agenda 2030 (United Nations, 2015) mobiliza o setor acadêmico para gerar conhecimento que subsidie políticas e inovações para o desenvolvimento sustentável (El-Jardali; Ataya; Fadlallah, 2018). No Brasil, a produção científica é expressiva: entre 2018 e 2022, foram defendidas mais de 400 mil teses e dissertações. Esse volume torna a avaliação manual de seu alinhamento temático com os ODS impraticável.
O desafio é amplificado pela natureza dos ODS, que são uma estrutura para políticas públicas, não um sistema de classificação científica, resultando em objetivos amplos e interconectados (Le Blanc, 2015; Nilsson et al., 2016). Essa sobreposição e a subjetividade da análise manual dificultam a produção de evidências para decisões estratégicas de agências como a Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) e o Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq). A ausência de métodos sistemáticos impede a identificação de áreas prioritárias e lacunas temáticas na ciência nacional (Santos, 2019).
Neste contexto, técnicas de PLN e aprendizado de máquina surgem como uma alternativa, permitindo analisar grandes volumes de documentos de forma consistente (Angin et al., 2022). Contudo, a complexidade da linguagem científica exige que os resultados sejam interpretados como indicadores de tendências agregadas, não como rótulos definitivos. Este estudo adota uma definição operacional de “alinhamento” como a correspondência temática entre o resumo e os domínios da Agenda 2030, independentemente de menções explícitas aos ODS pelos autores.
A relevância da pesquisa reside no desenvolvimento de uma metodologia de apoio à gestão pública da ciência no Brasil. Ao fornecer um panorama da aderência da produção científica aos ODS, o estudo oferece subsídios para políticas de fomento mais alinhadas às prioridades de desenvolvimento sustentável, permitindo uma alocação estratégica de recursos. A abordagem proposta visa transformar um desafio de escala em uma oportunidade analítica, alinhando-se ao esforço global de compreender o papel da ciência na consecução dos ODS, como destacado por Kestin et al. (2017).
A metodologia é quantitativa e exploratória, focada na análise de padrões temáticos em larga escala via aprendizado de máquina supervisionado. O “alinhamento aos ODS” foi operacionalizado como a correspondência temática entre o resumo e um ou mais dos 15 primeiros objetivos da Agenda 2030, identificada por um modelo computacional. Essa definição desconsidera a intencionalidade dos autores e serve como um proxy para análises agregadas. O estudo limitou-se aos ODS 1 a 15 devido à ausência de dados de treinamento para os ODS 16 e 17 na base de referência.
Foram utilizadas três bases de dados. A primeira, OSDG-CD, um corpus público com mais de 32 mil trechos de textos científicos rotulados com os ODS, serviu para treinamento. Foram selecionados cerca de 17.700 resumos com nível de concordância (“agreement”) igual ou superior a 0,7. A segunda base continha 387.281 resumos de teses e dissertações do Catálogo da CAPES (2018-2022), após limpeza de dados e seleção de textos em inglês entre 50 e 500 palavras. A terceira base consistiu em 29.813 artigos da Web of Science (WoS) do mesmo período, com afiliação brasileira e financiamento do CNPq, para análise comparativa.
O desenvolvimento do modelo de classificação foi incremental, progredindo de uma linha de base (TF-IDF + SVM) para arquiteturas baseadas em Transformers, como o DistilRoBERTa (Liu et al., 2019). Foram testadas quatro versões. O Modelo A (single-label) foi inadequado. O Modelo B (multi-label com “sigmoid”) concentrou predições em poucas classes. O Modelo C incorporou “focal loss” (Lin et al., 2017) e “temperature scaling” (Guo et al., 2017), melhorando o equilíbrio. O Modelo D, a versão final, substituiu a calibração por pesos de classe (“class weights”), uma estratégia eficaz para o desbalanceamento severo no corpus de treinamento (Charte et al., 2015).
A validação do modelo final foi multifacetada. No subconjunto de teste da base OSDG-CD, o Modelo D alcançou um Recall@3 de 0,9324, métrica adequada para tarefas “multi-label” com sobreposição temática (Zhang; Zhou, 2014). O modelo foi então aplicado às bases da CAPES e da WoS para testar sua generalização. Adicionalmente, uma validação qualitativa humana foi conduzida com uma amostra de 200 resumos (100 de cada base), classificados por três avaliadores. A comparação entre as predições e o consenso humano permitiu identificar os pontos fortes e as limitações do modelo. O processamento foi realizado em Python, com bibliotecas como PyTorch (Paszke et al., 2019), scikit-learn (Pedregosa et al., 2011) e Transformers (Wolf et al., 2020).
A caracterização das bases de dados revela o panorama da produção científica brasileira de 2018 a 2022. Na base da CAPES (387.281 trabalhos), o mestrado acadêmico responde por 58,2% e o doutorado por 24,2%. As Ciências Humanas (16,4%), Ciências Sociais Aplicadas (15,2%) e Ciências da Saúde (14,9%) foram as áreas de maior produção. Em contraste, a base da WoS (29.181 artigos) apresentou forte concentração em áreas de STEM, como “Engineering”, “Chemistry” e “Physics”, indicando um perfil distinto para a pesquisa publicada em periódicos internacionais.
A aplicação do Modelo D à base da CAPES revelou forte concentração das predições nos ODS 8 (Trabalho Decente e Crescimento Econômico), 4 (Educação de Qualidade), 5 (Igualdade de Gênero) e 2 (Fome Zero e Agricultura Sustentável), que somaram mais de 80% das atribuições. Em contrapartida, objetivos como ODS 13 (Ação Climática), ODS 14 (Vida na Água), ODS 15 (Vida Terrestre) e ODS 9 (Indústria, Inovação e Infraestrutura) tiveram representação marginal, raramente ultrapassando 1%. A distribuição sugere que a produção da pós-graduação registrada na CAPES dialoga predominantemente com temas sociais e econômicos.
De forma distinta, a aplicação do mesmo modelo à base da WoS resultou em uma distribuição mais equilibrada. Embora o ODS 2 (21,4%) e o ODS 3 (Saúde e Bem-Estar, 14,8%) se destacassem, houve presença significativa de quase todos os ODS de 1 a 15. Objetivos como ODS 7 (Energia Limpa, 11,3%), ODS 13 (Ação Climática, 9,3%), ODS 6 (Água Potável, 8,9%) e ODS 9 (Indústria e Inovação, 7,2%) apareceram com relevância. Esse contraste indica que a qualidade e a padronização dos textos de entrada são fatores cruciais. Os “abstracts” da WoS, por passarem por revisão por pares e serem escritos em inglês acadêmico padronizado, parecem fornecer sinais linguísticos mais claros para o modelo.
A validação humana aprofundou essa compreensão. A análise de 200 resumos mostrou que a maioria dos erros de classificação (20 de 24) ocorreu em trabalhos de mestrado da base CAPES. Os erros estavam associados a um tecnicismo excessivo; o resumo focava em detalhes metodológicos sem contextualizar a relevância da pesquisa, e a barreiras linguísticas, como traduções literais. Em contraste, os resumos de doutorado e os artigos da WoS foram considerados mais claros, resultando em classificações mais consistentes. Isso sugere que a maturidade acadêmica e a experiência com a escrita científica internacional influenciam a qualidade da classificação automática.
A discussão dos resultados aponta para a viabilidade da abordagem, com ressalvas. O desempenho do Modelo D (Recall@3 de 0,9324) confirma sua robustez técnica, mas a aplicação prática demonstrou sua sensibilidade à qualidade dos dados de entrada. A heterogeneidade dos resumos da CAPES parece ter limitado a capacidade do modelo de capturar a diversidade temática, levando à concentração em poucos ODS. Este achado está em linha com a literatura (Angin et al., 2022), mas o contraste com a WoS sugere que pode ser parcialmente um artefato da qualidade dos dados.
A análise também revelou limitações em certas áreas. Pesquisas em campos teóricos, como Matemática pura, cujos resumos não estabelecem conexões explícitas com problemas sociais ou ambientais, foram dificilmente classificadas. Isso evidencia os limites tanto do modelo quanto da Agenda 2030 como framework para categorizar toda a ciência. Estudos recentes corroboram que modelos de PLN tendem a ter desempenho inferior em disciplinas de STEM básico (Wulff, Meier & Mata, 2023), enquanto ciências aplicadas ganham visibilidade (Cortés, Guix & Carbonell, 2021).
As implicações práticas são significativas para agências de fomento. A metodologia pode servir como ferramenta de monitoramento para identificar tendências, como a aparente baixa representação de pesquisas sobre ODS ambientais na pós-graduação, ponto também levantado por Borsatto et al. (2024). Contudo, os resultados devem ser usados com cautela, pois a classificação reflete o conteúdo explícito dos resumos. A diferença entre os resultados da CAPES e da WoS também levanta questões sobre a necessidade de incentivar a redação de resumos mais claros e contextualizados.
Por fim, o estudo destaca a necessidade de desenvolver recursos linguísticos para o português. A dependência de uma base de treinamento em inglês (OSDG-CD) introduz um viés. A criação de um corpus “multi-label” em português, adaptado ao contexto brasileiro, seria um passo fundamental para aprimorar a precisão de futuras análises, valorizando a produção nacional em seu idioma original.
Em suma, este trabalho demonstrou que o uso de modelos de PLN é uma abordagem viável e escalável para mapear o alinhamento temático da produção científica brasileira com os ODS. A aplicação do modelo em mais de 400 mil resumos evidenciou padrões de concentração temática e diferenças significativas entre a produção da pós-graduação (CAPES) e os artigos internacionais (WoS). Os resultados indicam que a qualidade e a padronização dos resumos são determinantes para a precisão da classificação. A principal contribuição do estudo é a validação de uma ferramenta analítica que pode apoiar instituições de fomento na produção de diagnósticos agregados sobre a orientação da ciência nacional frente à Agenda 2030.
Reconhecendo as limitações, como a exclusão dos ODS 16 e 17 e a dependência de textos em inglês, a pesquisa aponta para a necessidade de investigações futuras que refinem a metodologia, como a criação de bases de treinamento em português. Tais avanços podem aprimorar a precisão das análises e fortalecer o uso de métodos computacionais para o acompanhamento estratégico da ciência. Conclui-se que o objetivo foi atingido: demonstrou-se que é possível identificar, de forma sistemática e em larga escala, o alinhamento temático da produção científica brasileira aos Objetivos de Desenvolvimento Sustentável a partir da análise de resumos acadêmicos, fornecendo uma metodologia replicável para apoiar a gestão da política científica nacional.
Referências:
Agin, M.; Taşdemir, B.; Yilmaz, C. A.; Demiralp, G.; Atay, M.; Angin, P.; Dikmener, G. 2022. A RoBERTa approach for automated processing of sustainability reports. Sustainability 14(23): 16139. https://doi. org/10.3390/su142316139
Borsatto, J. M. L. S.; Marcolin, C. B.; Abdalla, E. C.; Amaral, F. D. 2024. Aligning community outreach initiatives with SDGs in a higher education institution with artificial intelligence. Cleaner and Responsible Consumption 12: 100160. https://doi. org/10.1016/j. clrc.2023.100160
Charte, F.; Rivera, A. J.; Del Jesus, M. J.; Herrera, F. 2015. Addressing imbalance in multilabel classification: Measures and random resampling algorithms. Neurocomputing 163: 3–16. https://doi. org/10.1016/j. neucom.2014.08.091
Cortés, J. D.; Guix, M.; Carbonell, K. B. 2021. Innovation for sustainability in the Global South: Bibliometric findings from management & business and STEM (science, technology, engineering and mathematics) fields in developing countries. Heliyon 7(8): e07809. https://doi. org/10.1016/j. heliyon.2021. e07809
Devlin, J.; Chang, M. W.; Lee, K.; Toutanova, K. 2019. BERT: Pre-training of bidirectional transformers for language understanding. In: Proceedings of NAACL-HLT 2019. p. 4171–4186. https://doi. org/10.48550/arXiv.1810.04805
Eger, S.; Cao, Y.; D’Souza, J.; Geiger, A.; Greisinger, C.; Gross, S.; Hou, Y.; Krenn, B.; Lauscher, A.; Li, Y.; Lin, C.; Moosavi, N. S.; Zhao, W.; Miller, T. 2025. Transforming science with large language models: A survey on AI-assisted scientific discovery, experimentation, content generation, and evaluation. arXiv preprint arXiv:2502.05151. https://arxiv. org/abs/2502.05151
El-Jardali, F.; Ataya, N.; Fadlallah, R. 2018. Changing roles of universities in the era of SDGs: Rising up to the global challenge through institutionalising partnerships with governments and communities. Health Research Policy and Systems 16(38). https://doi. org/10.1186/s12961-018-0318-9
Guo, C.; Pleiss, G.; Sun, Y.; Weinberger, K. Q. 2017. On calibration of modern neural networks. In: Proceedings of the 34th International Conference on Machine Learning (ICML). v. 70, p. 1321–1330. PMLR. Disponível em: https://proceedings. mlr. press/v70/guo17a. html
Harris, C. R.; Millman, K. J.; Van Der Walt, S. J.; Gommers, R.; Virtanen, P.; Cournapeau, D.; Oliphant, T. E. 2020. Array programming with NumPy. Nature 585(7825): 357–362. https://doi. org/10.1038/s41586-020-2649-2
Hunter, J. D. 2007. Matplotlib: A 2D graphics environment. Computing in Science & Engineering 9(3): 90–95. https://doi. org/10.1109/MCSE.2007.55
Kestin, T.; Van Den Belt, M.; Denby, L.; Ross, K.; Thwaites, J.; Hawkes, M. 2017. Getting started with the SDGs in universities: A guide for universities, higher education institutions, and the academic sector (Australia, New Zealand & Pacific edition). Sustainable Development Solutions Network – Australia/Pacific.
Lin, T.; Wang, Y.; Liu, X.; Qiu, X. 2022. A survey of transformers. AI Open 3: 111–132. https://doi. org/10.1016/j. aiopen.2022.10.001
Lin, T.-Y.; Goyal, P.; Girshick, R.; He, K.; Dollár, P. 2017. Focal loss for dense object detection. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). p. 2980–2988. https://doi. org/10.1109/ICCV.2017.324
Liu, Y.; Ott, M.; Goyal, N.; Du, J.; Joshi, M.; Chen, D.; Stoyanov, V. 2019. RoBERTa: A robustly optimized BERT pretraining approach. arXiv preprint. https://doi. org/10.48550/arXiv.1907.11692
Manual ABNT: regras gerais de estilo e formatação de trabalhos acadêmicos. 2024. 6. ed., rev. e ampl. São Paulo: Biblioteca FECAP Paulo Ernesto Tolle. 89 p. Disponível em: https://www. fecap. br/files/docs/biblioteca/ManualABNT20246. ed.rev.eampl. pdf. Acesso em: 09 set. 2025.
Minderer, M.; Djolonga, J.; Romijnders, R.; Hubis, F.; Zhai, X.; Houlsby, N.; Tran, D.; Lucic, M. 2021. Revisiting the calibration of modern neural networks. Advances in Neural Information Processing Systems 34: 15682–15694.
Paszke, A.; Gross, S.; Massa, F.; Lerer, A.; Bradbury, J.; Chanan, G.; Chintala, S. 2019. PyTorch: An imperative style, high-performance deep learning library. Advances in Neural Information Processing Systems 32: 8024–8035.
Pedregosa, F.; Varoquaux, G.; Gramfort, A.; Michel, V.; Thirion, B.; Grisel, O.; Duchesnay, E. 2011. Scikit-learn: Machine learning in Python. Journal of Machine Learning Research 12: 2825–2830.
Reback, J.; McKinney, W.; The Pandas Development Team. 2020. pandas-dev/pandas: Pandas (Version 1. x). Zenodo. https://doi. org/10.5281/zenodo.3509134
Santos, A. V. 2019. Planejamento e sustentabilidade em instituições de ensino superior: Um estudo à luz dos Objetivos de Desenvolvimento Sustentável (ODS/ONU). Dissertação (Mestrado Profissional em Administração Pública) – Centro de Ciências Jurídicas e Sociais, Universidade Federal de Campina Grande, Campina Grande, PB, Brasil.
Waskom, M. 2021. Seaborn: Statistical data visualization. Journal of Open Source Software 6(60): 3021. https://doi. org/10.21105/joss.03021
Wolf, T.; Debut, L.; Sanh, V.; Chaumond, J.; Delangue, C.; Moi, A.; Rush, A. M. 2020. Transformers: State-of-the-art natural language processing. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. p. 38–45. https://doi. org/10.18653/v1/2020. emnlp-demos.6
Wulff, D. U.; Meier, D. S.; Mata, R. 2023. Using novel data and ensemble models to improve automated labeling of Sustainable Development Goals. arXiv preprint. https://doi. org/10.48550/arXiv.2301.11353
Zhang, M.-L.; Zhou, Z.-H. 2014. A review on multi-label learning algorithms. IEEE Transactions on Knowledge and Data Engineering 26(8): 1819–1837. https://doi. org/10.1109/TKDE.2013.39
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































