
25 de fevereiro de 2026
Análise de aderência a ODS com machine learning não supervisionado
Dirceu de Menezes Machado Júnior; Jéssica Eloá Poletto
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo utilizou as técnicas não supervisionadas de machine learning, análise de correspondência simples e análise de clusters, para avaliar a aderência de projetos ambientais de uma empresa do setor de energia elétrica aos Objetivos de Desenvolvimento Sustentável (ODS). A pesquisa desenvolveu e validou uma metodologia quantitativa para transformar avaliações qualitativas, baseadas na percepção de gestores, em métricas objetivas e visualmente interpretáveis, suportando a tomada de decisão estratégica no âmbito da governança Environmental, Social and Governance (ESG). A necessidade desta metodologia surge da exigência de que as corporações demonstrem de forma mensurável o impacto de suas operações e programas socioambientais, alinhando-se a agendas globais como a Agenda 2030 da ONU. A complexidade reside na natureza qualitativa desses dados, que historicamente dificultou a criação de avaliações padronizadas.
A problemática central é a ausência de um framework sistemático para medir o alinhamento entre ações empresariais e os 17 ODS (ODS, 2015). A performance ESG tornou-se um indicador crítico de sustentabilidade, exigindo que as organizações adotem abordagens baseadas em dados para validar suas contribuições, transcendendo relatórios narrativos. Este trabalho justifica-se por oferecer uma solução analítica para essa lacuna, empregando ferramentas de Ciência de Dados para estruturar e interpretar a aderência de múltiplos programas a metas globais. Ao converter percepções subjetivas em padrões identificáveis e grupos homogêneos, o estudo propõe um caminho para que as empresas possam monitorar e otimizar seu portfólio de iniciativas socioambientais de maneira mais eficaz e transparente.
A Ciência de Dados oferece o arcabouço para extrair conhecimento de dados complexos (Cooper, 2018). Dentro deste domínio, o machine learning, subárea da inteligência artificial, foca no desenvolvimento de algoritmos que permitem aos sistemas aprender com os dados, identificar padrões e tomar decisões com mínima intervenção humana (Pinheiro e Patetta, 2021). Os algoritmos de aprendizado de máquina encontram estruturas matemáticas que explicam as relações entre variáveis, revelando insights que seriam difíceis de serem percebidos por analistas (Escovedo e Koshiyama, 2020).
As técnicas de machine learning são categorizadas em supervisionadas e não supervisionadas. Nos algoritmos supervisionados, o modelo é treinado com dados onde a variável de resultado é conhecida. Em contraste, os algoritmos não supervisionados operam sobre dados sem uma variável alvo pré-definida, descobrindo padrões e estruturas latentes nos próprios dados (Sicsú et al., 2023). Para este problema, cujo objetivo é entender a estrutura de associação entre programas e os ODS, a abordagem não supervisionada é a mais adequada. Ela permite que os dados revelem como os programas se agrupam em termos de aderência, sem a necessidade de um rótulo prévio definindo uma “boa” ou “má” aderência.
Dentre as técnicas não supervisionadas, a análise de correspondência (ANACOR) e a análise de clusters foram selecionadas por sua complementaridade e adequação ao tratamento de dados categóricos, como os de uma escala Likert. A ANACOR é uma técnica estatística para explorar as relações entre variáveis qualitativas, representando-as em um espaço de baixa dimensão, o mapa perceptual. A análise de clusters é um conjunto de métodos que agrupa observações de tal forma que os elementos dentro de um mesmo grupo sejam mais semelhantes entre si do que com os de outros grupos. A combinação das duas técnicas permite, primeiramente, visualizar a estrutura de associação entre os programas e os níveis de aderência aos ODS e, em seguida, segmentar os objetivos em grupos de aderência definidos (alta, média, baixa ou não aplicável), conferindo rigor quantitativo à avaliação.
A pesquisa caracteriza-se como um estudo de implementação de algoritmo, com dados quali-quantitativos de uma empresa do setor de energia elétrica. Os dados foram coletados por meio de relatórios institucionais gerados a partir de um questionário interno, aplicado aos gestores dos programas socioambientais. A metodologia foi estruturada em etapas, implementadas no ambiente de programação R. O processo iniciou-se com a limpeza e tratamento da base de dados, seguida pela segmentação dos dados por área gestora para permitir análises em diferentes níveis de granularidade.
O instrumento de coleta foi um questionário baseado nas 169 metas dos 17 ODS. Para cada meta, os gestores avaliaram o grau de aderência de seu programa utilizando uma escala Likert de quatro pontos: ‘alta’, ‘média’, ‘baixa’ ou ‘não aplicável’. Para mitigar a subjetividade, foram desenvolvidos indicadores específicos para cada meta como guia para o respondente. O resultado foi uma matriz de dados com os programas nas linhas e as metas dos ODS nas colunas. A metodologia previa a possibilidade de múltiplos avaliadores para um mesmo programa; nesses casos, uma análise de concordância foi aplicada para verificar a consistência entre as respostas.
O fluxo metodológico prosseguiu com a aplicação do teste Qui-quadrado de independência para verificar se a associação entre cada programa e os ODS era estatisticamente significante. Programas sem associação significante (a um nível de 5%) foram sinalizados para reavaliação. Em seguida, a análise de correspondência (ANACOR) foi aplicada para cada programa aprovado. A ANACOR estuda a associação entre variáveis categóricas a partir de uma tabela de contingência, resultando em um mapa perceptual que visualiza a proximidade entre as categorias das variáveis (Fávero e Belfiore, 2022).
As coordenadas dos pontos geradas nos mapas perceptuais da ANACOR serviram como entrada para a etapa de clusterização. A análise de clusters aloca observações em agrupamentos internamente homogêneos e externamente heterogêneos (Fávero e Belfiore, 2022). Neste estudo, o objetivo foi agrupar os ODS com os níveis de aderência correspondentes, definindo para cada programa quais objetivos se enquadravam em ‘alta aderência’, ‘média aderência’, ‘baixa aderência’ ou ‘não aplicável’. Por fim, os resultados consolidados foram utilizados para a elaboração de painéis interativos (“dashboards”), que permitem a visualização dinâmica dos resultados em diferentes níveis organizacionais, transformando os achados estatísticos em uma ferramenta de gestão.
A primeira etapa dos resultados foi a limpeza e tratamento dos dados, corrigindo inconsistências como duplicidade de respostas e erros de digitação. A base foi então segmentada por área gestora. A etapa seguinte abordou os programas com avaliações de mais de um gestor, realizando uma análise de concordância para avaliar o grau de acordo entre eles. Utilizou-se a porcentagem de concordância absoluta e o coeficiente Kappa de Cohen. A concordância absoluta mede a frequência de classificações idênticas, enquanto o Kappa corrige essa medida pela probabilidade de concordância ao acaso.
Um achado relevante foi um paradoxo: muitos programas apresentaram alta concordância absoluta (acima de 80%), mas um coeficiente Kappa baixo, classificado como de concordância ‘ligeira’ ou ‘fraca’ (Matos, 2014). A investigação revelou que a causa era a alta frequência da categoria ‘não se aplica’. Como o Kappa penaliza a concordância que pode ser atribuída ao acaso, e a prevalência de uma categoria aumenta essa probabilidade, seus valores foram suprimidos. Diante disso, a equipe de pesquisa utilizou a porcentagem de concordância absoluta como critério. Foi estabelecido um ponto de corte de 80%: para programas com concordância acima desse valor, a resposta do gestor principal foi mantida; para aqueles abaixo, ambas as avaliações seguiram para a próxima etapa de análise.
A terceira etapa foi a aplicação do teste Qui-quadrado de significância. Este teste avalia a hipótese nula (H0) de que não existe associação entre as variáveis contra a hipótese alternativa (H1) de que a associação não é aleatória. Adotando um nível de significância de 5% (p-valor < 0,05), o teste filtrou os programas, garantindo que apenas aqueles com uma relação estatisticamente significante com os ODS avançassem. Os resultados para a divisão usada como exemplo mostraram que todos os seus programas passaram por este critério, indicando que as avaliações continham padrões de associação não aleatórios.
Com os dados validados, procedeu-se à análise de correspondência (ANACOR). Para cada programa, foi gerado um mapa perceptual, um gráfico de dispersão bidimensional que posiciona as categorias das variáveis (os 17 ODS e os 4 níveis de aderência) de forma que a distância entre os pontos reflita o grau de associação. Pontos próximos indicam forte associação, enquanto pontos distantes sugerem associação fraca. Esses mapas forneceram uma visualização das relações, permitindo identificar quais ODS estavam associados à ‘alta aderência’ ou ‘baixa aderência’ para um programa. A ANACOR também gerou as coordenadas numéricas de cada ponto, que se tornaram o insumo para a fase seguinte.
A análise de clusters trouxe objetividade à classificação da aderência. Utilizando as coordenadas da ANACOR, o processo iniciou-se com a aplicação de métodos hierárquicos aglomerativos para determinar o número ótimo de clusters. Ferramentas como dendrogramas e o método de Elbow foram empregadas. O dendrograma mostra como as observações são fundidas em grupos, e o método de Elbow plota a variação total dentro dos clusters em função do número de clusters, com o número ótimo indicado no “cotovelo” do gráfico. Para o programa exemplo, ambas as técnicas sugeriram quatro clusters como a quantidade ideal.
Definido o número ótimo de clusters (k=4), foi aplicado o algoritmo não hierárquico k-means para a segmentação final. Este algoritmo particiona as observações em k grupos, minimizando a variância dentro de cada cluster. O resultado foi a alocação de cada um dos 17 ODS e dos 4 níveis de aderência em um dos quatro clusters. A interpretação foi direta: um cluster continha a categoria ‘alta aderência’ e os ODS associados a ela; outro continha a ‘média aderência’ e seus ODS correspondentes, e assim por diante. Esse processo foi repetido para cada programa, gerando uma classificação de aderência detalhada e objetiva.
A metodologia desenvolvida demonstrou ser uma ferramenta eficaz para a avaliação da aderência de programas socioambientais aos ODS. A combinação de análise de correspondência e análise de clusters permitiu transformar dados qualitativos, provenientes da percepção de gestores, em uma classificação quantitativa, objetiva e estatisticamente validada. Os resultados não apenas identificaram padrões de aderência, mas também forneceram uma base para a tomada de decisão gerencial, permitindo que a organização direcione recursos de forma mais estratégica para fortalecer seu alinhamento com a agenda ESG e os ODS. A utilização de recursos visuais, como mapas perceptuais e painéis interativos, foi fundamental para traduzir a complexidade das análises em insights acionáveis.
Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de técnicas de machine learning não supervisionadas, como análise de correspondência e clusterização, é eficaz para mensurar e visualizar a aderência de programas socioambientais aos Objetivos de Desenvolvimento Sustentável. O estudo validou um método que confere maior robustez e objetividade ao monitoramento da governança socioambiental, superando as limitações de avaliações puramente narrativas. Reconhece-se como limitação a subjetividade residual inerente a avaliações baseadas em questionários. Como perspectivas futuras, sugere-se a aplicação desta metodologia em outros setores para validação externa e o desenvolvimento de análises longitudinais para acompanhar a evolução da aderência dos programas ao longo do tempo.
Referências:
Cooper, S. 2018. Deep Learning for Begginers: A Comprehensive Introduction of Deep Learning Fundamentals for Begginers to Understand Frameworks, Neural Networks, Large Datasets, and Creative Applications. 1ed.
Escovedo, T.; Koshiyama, A. 2020. Introdução a Data Science: Algoritmos de machine learning e métodos de análise. 1ed. Editora Casa do Código, São Paulo, São Paulo, Brasil.
Fávero, L. P.; Belfiore, P. 2022. Manual de análise de dados: Estatística e modelagem multivariada com Excel, SPSS e Stata. 1ed. Elsevier, Rio de Janeiro, Rio de Janeiro, Brasil.
Matos, D. A. S. 2014. Confiabilidade e concordância entre juízes: aplicações na área educacional. Estudos em Avaliação Educacional 25(59): 298-324.
Objetivos de Desenvolvimento Sustentável [ODS]. 2015. Indicadores Brasileiros para os Objetivos de Desenvolvimento Sustentável. Disponível em: <https://odsbrasil. gov. br/home/NewHome>. Acesso em: 05 mar. 2025.
Pinheiro, C. A. R.; Patetta, M. 2021. Introduction to statistical and machine learning methods for Data Science. 1ed. Editora SAS Institute, São Paulo, São Paulo, Brasil.
Portal de Educação Ambiental. 2023. O que são os ODS e o que você tem a ver com isso? Disponível em: <https://semil. sp. gov. br/educacaoambiental/2023/09/o-que-sao-os-ods-e-o-que-voce-tem-a-ver-com-isso/>. Acesso em: 03 mar. 2025.
Rodrigues, W. C. 2007. Metodologia Científica (PPT). 1ed. FAETEC/IST, Paracambi, Rio de Janeiro, Brasil.
Sicsú, A. L.; Samartini, A.; Barth, N. L. 2023. Técnicas de machine learning. 1ed. Editora Blucher, São Paulo, São Paulo, Brasil.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































