Imagem Predição do IDH a partir de indicadores socioeconômicos e de inovação

23 de fevereiro de 2026

Predição do IDH a partir de indicadores socioeconômicos e de inovação

Lucas Bragança Lopes Ribeiro; André Alves Ferreira

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo desta pesquisa foi avaliar a viabilidade de prever o Índice de Desenvolvimento Humano (IDH) dos estados brasileiros de 2010 a 2020, usando variáveis socioeconômicas e de inovação defasadas em um e dois anos (t-1 e t-2). A questão central foi determinar se modelos de aprendizado de máquina, lineares e não lineares, poderiam estimar o IDH de um estado no ano seguinte (IDH(t+1)) a partir de indicadores de períodos anteriores (X(t−1), X(t−2)), e qual classe de modelos seria mais adequada para essa tarefa em contextos regionais heterogêneos.

O Índice de Desenvolvimento Humano, proposto por Mahbub ul Haq e Amartya Sen no início dos anos 1990 (PNUD, 1990), foi uma resposta a métricas puramente econômicas como o PIB, que falhavam em capturar as múltiplas dimensões do bem-estar. Ao integrar indicadores de renda, educação e longevidade, o IDH alinha-se à abordagem das capacidades de Sen (1999), que define desenvolvimento como a expansão das liberdades e oportunidades individuais. O índice consolidou-se como referência global, mantendo sua estrutura conceitual ao longo do tempo.

No Brasil, a criação do Índice de Desenvolvimento Humano Municipal (IDHM), uma iniciativa do PNUD, IPEA e Fundação João Pinheiro (FJP), tornou o IDH uma ferramenta indispensável para diagnosticar as profundas desigualdades regionais. Contudo, seu uso tem sido majoritariamente descritivo e retrospectivo, com limitada exploração de seu potencial preditivo. A capacidade de antecipar tendências do IDH poderia fortalecer o planejamento de políticas públicas, permitindo intervenções proativas e alocação de recursos baseada em evidências, um pilar da gestão pública moderna (Escola Nacional de Administração Pública [ENAP], 2020).

A literatura aponta a inovação, ciência e tecnologia (CT&I) como vetores para o desenvolvimento sustentado, influenciando produtividade e competitividade (OECD, 2015; Lundvall, 1992). No Brasil, contudo, a distribuição de investimentos em Pesquisa e Desenvolvimento (P&D) é assimétrica, concentrada em poucos estados, o que perpetua disparidades regionais (Rauen et al., 2017). Essa assimetria, combinada com fatores como desigualdade de renda e deficiências educacionais, limita a conversão de crescimento econômico em desenvolvimento humano efetivo (Albuquerque, 2007).

Este estudo buscou preencher uma lacuna ao aplicar aprendizado de máquina para modelar a evolução do IDH estadual. A hipótese é que a trajetória do desenvolvimento humano possui inércia temporal, sendo influenciada por condições pregressas que vão além de seus componentes diretos. Ao incorporar variáveis de inovação, infraestrutura e desigualdade, juntamente com os indicadores tradicionais, a pesquisa visou construir um modelo preditivo mais holístico para identificar os determinantes do progresso social no Brasil e a sensibilidade do IDH a mudanças nesses fatores.

A metodologia foi quantitativa e preditiva, utilizando uma base de dados em painel longitudinal com as 27 Unidades da Federação (UFs) de 2010 a 2020. Os dados foram extraídos de fontes públicas: Atlas Brasil (IDH, escolaridade), IBGE (renda, desigualdade, infraestrutura), MCTI (P&D, patentes) e INEP (indicadores educacionais). A base final, após tratamento e criação de defasagens temporais, totalizou 297 observações.

O tratamento de dados foi uma etapa crítica. Valores ausentes em indicadores contínuos com variação gradual, como a média de anos de estudo, foram tratados com interpolação linear temporal. Para séries esparsas e discretas, como o total de patentes, utilizou-se o carregamento do último valor observado (LOCF), prática recomendada para dados longitudinais que evita a criação de valores artificiais (Enders, 2010; Little & Rubin, 2019). Em seguida, foram criadas variáveis defasadas (t-1 e t-2) para todos os preditores, garantindo que o modelo previsse o IDH futuro (t) apenas com informações passadas para mitigar o risco de vazamento de dados.

Para a modelagem, variáveis com alta assimetria e grande amplitude (PIB, renda per capita, patentes) foram transformadas pela função logarítmica (log(x+1)) e padronizadas pelo método Z-score. Variáveis expressas em proporções foram normalizadas pela escala Min-Max (0-1). Para evitar vazamento de informações do futuro, todos os parâmetros de padronização (médias, desvios-padrão, mínimos e máximos) foram calculados exclusivamente sobre os conjuntos de treinamento de cada dobra da validação cruzada e, então, aplicados aos respectivos conjuntos de teste, uma prática essencial para a validade de modelos preditivos (Kaufman et al., 2012).

A modelagem utilizou validação cruzada em janela deslizante (Rolling Cross-Validation) com cinco dobras para respeitar a estrutura temporal dos dados, simulando um cenário de previsão real. Foram testados cinco algoritmos de aprendizado de máquina: Regressão Linear, Regressão Ridge, Random Forest, XGBoost e uma Rede Neural Multicamadas (MLP). O desempenho foi comparado ao de duas baselines ingênuas: um modelo de persistência (que prevê que o IDH do próximo ano será igual ao deste ano) e uma média móvel de dois anos (MA2). As métricas de avaliação foram o Coeficiente de Determinação (R²), o Erro Absoluto Médio (MAE) e a Raiz do Erro Quadrático Médio (RMSE).

Os resultados mostraram um desempenho superior dos modelos lineares em detrimento dos algoritmos mais complexos. A Regressão Ridge destacou-se como o modelo mais performático, alcançando o menor Erro Absoluto Médio (MAE = 0,0153) e a menor Raiz do Erro Quadrático Médio (RMSE = 0,0177), em média, nas cinco dobras de validação. A Regressão Linear simples obteve um desempenho muito similar, confirmando a robustez da abordagem linear. Este achado sugere que a dinâmica do IDH nos estados brasileiros, no período analisado, é caracterizada por forte inércia e evolução gradual, padrões bem capturados por modelos lineares que evitam o sobreajuste a flutuações de curto prazo.

Em contraste, os modelos não lineares tiveram mais dificuldades. A Random Forest registrou um RMSE médio de 0,0197, enquanto o XGBoost teve o desempenho mais fraco entre os modelos de aprendizado de máquina, com um RMSE de 0,0232, muito próximo ao da baseline de média móvel (MA2). Esse resultado pode ser explicado pela natureza da tarefa: com poucas observações por série temporal (onze anos por estado) e um alvo de baixa variabilidade, modelos complexos como o XGBoost podem ter dificuldade em generalizar, tendendo a se ajustar excessivamente ao ruído dos dados de treinamento (Hastie, Tibshirani e Friedman, 2009).

Os valores de R² obtidos foram consistentemente negativos para todos os modelos. Em contextos de previsão fora da amostra, um R² negativo não indica um erro, mas sim que o modelo performou pior do que um simples modelo que previsse a média do conjunto de teste. Dada a altíssima estabilidade e a baixa variância do IDH ano a ano, superar essa média histórica com variáveis defasadas é um desafio considerável. Por essa razão, as métricas baseadas em erro, como MAE e RMSE, foram consideradas mais adequadas e informativas para a avaliação comparativa do desempenho preditivo, pois medem diretamente a magnitude do desvio entre as previsões e os valores reais (Kuhn & Johnson, 2013).

A análise de importância das variáveis no modelo Ridge, utilizando a técnica de permutação, revelou os principais preditores do IDH. Indicadores sociais e de saúde básica, como a mortalidade infantil e a taxa de analfabetismo, emergiram com forte peso explicativo, juntamente com o índice de Gini, que mede a desigualdade de renda. Este resultado reforça que as condições fundamentais de saúde, educação básica e equidade social são preditores poderosos do nível de desenvolvimento humano. A renda per capita e a média de anos de estudo também se mostraram consistentemente relevantes, alinhando-se à composição teórica do IDH e à literatura que destaca o capital humano e a renda como pilares do desenvolvimento (Mazzucato, 2013).

Variáveis de escala econômica e inovação tecnológica, como o PIB e o número de patentes, apresentaram um impacto marginal ou localizado. O PIB, após transformação logarítmica, mostrou-se redundante na presença da renda per capita. As patentes, por sua vez, tiveram relevância apenas em alguns estados específicos, sugerindo que a inovação, conforme medida por este indicador, atua como um fator complementar e não como um motor primário da variação do IDH no horizonte de tempo analisado. Este achado não diminui a importância da inovação a longo prazo, mas indica que, para prever o IDH no curto prazo, os indicadores sociais básicos são mais informativos.

Para explorar heterogeneidades regionais, os estados foram agrupados com o algoritmo K-Means, resultando em três clusters distintos. O primeiro grupo foi caracterizado por estados onde a renda per capita era o determinante dominante. O segundo cluster agrupou estados onde os desafios sociais, como analfabetismo e mortalidade infantil, tinham maior peso preditivo. O terceiro grupo representou um perfil intermediário, com uma contribuição mais equilibrada entre os indicadores. A análise evidenciou que, embora os determinantes do IDH sejam universais, seu peso relativo varia significativamente entre as diferentes realidades estaduais do Brasil.

A simulação de cenários quantificou o impacto potencial de mudanças em variáveis-chave sobre o IDH previsto. As simulações confirmaram que a renda per capita é o fator com maior sensibilidade; aumentos simulados de 5%, 10% e 20% geraram os maiores ganhos previstos no IDH, especialmente em estados com níveis de desenvolvimento mais baixos. A escolaridade média também mostrou efeitos positivos consistentes, embora de menor magnitude imediata, reforçando seu papel como investimento de longo prazo. Simulações de redução na desigualdade (índice de Gini) e na mortalidade infantil também se traduziram em ganhos expressivos no IDH.

Esses cenários preditivos oferecem uma ferramenta quantitativa para gestores públicos avaliarem o impacto potencial de diferentes políticas. Os resultados sugerem que, para estados com desafios sociais mais agudos, investimentos diretos na redução da mortalidade infantil e no combate ao analfabetismo podem gerar avanços mais rápidos no IDH. Em estados que já alcançaram patamares mais elevados, políticas de fomento à renda e à educação superior podem ser mais eficazes. A inovação tecnológica, conforme os resultados, parece funcionar como um vetor adicional para sustentar trajetórias de crescimento em economias mais maduras, mas com menor impacto preditivo imediato sobre o IDH em comparação com os fatores sociais básicos.

Em síntese, o estudo demonstrou que modelos preditivos, especialmente os lineares e parcimoniosos como a Regressão Ridge, são capazes de capturar padrões estruturais do desenvolvimento humano nos estados brasileiros. Os resultados confirmaram a centralidade da renda per capita e da escolaridade média como os determinantes mais robustos, acompanhados por efeitos significativos da mortalidade infantil e da desigualdade de renda. O impacto do PIB e das patentes mostrou-se marginal, sugerindo que, no curto prazo, os avanços no IDH estão mais associados a melhorias nas condições sociais básicas do que ao crescimento econômico agregado ou à inovação tecnológica per se. As principais limitações do estudo incluem o uso de dados secundários agregados em nível estadual, o que impede inferências em nível individual, e o foco em uma abordagem preditiva, que prioriza a acurácia em detrimento da explicação causal. Estudos futuros poderiam explorar modelos de painel com efeitos fixos para isolar melhor os efeitos intra-estaduais.

Apesar das limitações, os achados oferecem subsídios práticos para a formulação de políticas públicas orientadas por evidências. A capacidade de antecipar a trajetória do IDH e de simular o impacto de diferentes intervenções pode qualificar o debate público e otimizar a alocação de recursos, contribuindo para o enfrentamento das desigualdades regionais e para a promoção de um desenvolvimento mais inclusivo e sustentável no Brasil. Conclui-se que o objetivo foi atingido: demonstrou-se que é viável prever o IDH dos estados brasileiros com razoável precisão a partir de indicadores socioeconômicos e de inovação defasados, sendo os modelos lineares regularizados os mais adequados para essa tarefa.

Referências:
Albuquerque, E. M. 2007. Inovação e estrutura produtiva no Brasil: Um estudo a partir da pesquisa industrial de inovação tecnológica. Revista Brasileira de Inovação 6(2): 323-366.
Breiman, L. 2001. Random forests. Machine Learning 45(1): 5-32.
Enders, C. K. 2010. Applied Missing Data Analysis. New York: Guilford Press.
Escola Nacional de Administração Pública [ENAP]. 2020. Guia para inovação no setor público: Conceitos, práticas e diretrizes para gestores públicos. Disponível em: https://repositorio. enap. gov. br/handle/1/5820. Acesso em: 29/03/2025.
Gadelha, C. A. G.; Temporão, J. G.; Barbosa, P. R. 2012. Inovação, complexidade e território: Desafios para o desenvolvimento nacional. Cadernos do Desenvolvimento 7(11): 99-124.
Hastie, T.; Tibshirani, R.; Friedman, J. 2009. The elements of statistical learning: Data mining, inference, and prediction. 2ed. Springer, New York, NY, USA.
Kaufman, S.; Rosset, S.; Perlich, C.; Cedeño, S.; Merzel, A. 2012. Leakage in data mining: Formulation, detection, and avoidance. ACM Transactions on Knowledge Discovery from Data 6(4): 15:1–15:21.
Kuhn, M.; Johnson, K. 2013. Applied predictive modeling. Springer, New York, NY, USA.
Little, R. J. A.; Rubin, D. B. 2019. Statistical Analysis with Missing Data. 3ed. Wiley, Hoboken, NJ, USA.
Lundberg, S. M.; Lee, S. I. 2017. A unified approach to interpreting model predictions. In: Advances in Neural Information Processing Systems 30, 2017, Long Beach, CA, USA. Anais… p. 4765-4774.
Lundvall, B.Å. 1992. National systems of innovation: Towards a theory of innovation and interactive learning. Pinter, London, UK.
Mazzucato, M. 2013. The entrepreneurial state: Debunking public vs. private sector myths. Anthem Press, London, UK.
Organisation for Economic Co-operation and Development [OECD]. 2015. The innovation imperative: Contributing to productivity, growth and well-being. OECD Publishing, Paris, France.
Rauen, A. T.; Morceiro, P. C.; Almeida, A. N. 2017. Investimento público em inovação e sua distribuição regional no Brasil. Texto para Discussão 2331. IPEA, Brasília, DF, Brasil.
Sen, A. 1999. Development as Freedom. New York: Alfred A. Knopf.
United Nations Development Programme (UNDP). 1990. Human Development Report 1990. New York: Oxford University Press for the United Nations Development Programme.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade