Imagem Vulnerabilidade e primeira infância no Brasil: análise fatorial, clusterização e indexação

26 de fevereiro de 2026

Vulnerabilidade e primeira infância no Brasil: análise fatorial, clusterização e indexação

Julio Matheus Donato da Costa; Wagner dos Anjos Carvalho

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este estudo analisa padrões socioeconômicos e hierarquiza domicílios brasileiros com crianças de até seis anos por meio de análise fatorial, clusterização e indexação ponderada. Utilizando microdados da Pesquisa Nacional por Amostra de Domicílios (PNAD) de 2022, a pesquisa identifica as dimensões latentes da vulnerabilidade, agrupa domicílios com perfis semelhantes e cria um índice para medir a intensidade das privações. A abordagem multidimensional adotada supera a limitação de análises focadas exclusivamente na renda, reconhecendo que a vulnerabilidade infantil é um fenômeno complexo, influenciado por um conjunto de fatores que incluem condições habitacionais, acesso a serviços básicos, capital humano familiar e bens de consumo.

A primeira infância, do nascimento aos seis anos, é uma janela crítica para o desenvolvimento humano. Nesta fase, ocorrem transformações neurológicas, cognitivas e socioemocionais em um ritmo único, estabelecendo a arquitetura cerebral que servirá de alicerce para a aprendizagem e competências futuras (NCPI, 2014). A qualidade das experiências neste período, incluindo interações e o ambiente, tem impactos duradouros na saúde, desempenho educacional e produtividade na vida adulta (Grantham-McGregor et al., 2007).

Contudo, a exposição a adversidades como pobreza e negligência pode comprometer este processo. Crianças em ambientes de alta vulnerabilidade tendem a apresentar déficits cognitivos e emocionais, manifestados em dificuldades de aprendizagem e menor prontidão escolar. Estes impactos propagam-se de forma intergeracional, perpetuando ciclos de desvantagem. Como aponta Heckman (2012), o investimento na primeira infância é uma das estratégias mais eficazes para reduzir desigualdades e fortalecer o capital humano, gerando retornos sociais e econômicos superiores aos de intervenções em fases posteriores da vida.

No contexto brasileiro, a magnitude do desafio é expressiva. Dados indicam que aproximadamente 63% das crianças no país vivem em situação de pobreza, o que corresponde a cerca de 32 milhões de indivíduos (Unicef, 2023). Esta realidade é agravada pelo fato de que a pobreza de renda coexiste com outras privações. Famílias de baixa renda enfrentam maiores barreiras no acesso a serviços de saúde e educação, vivem em moradias precárias com saneamento inadequado e estão mais expostas à insegurança alimentar (Monteiro et al., 2014). A vida em condições de pobreza também impõe um estresse crônico aos cuidadores, o que pode afetar negativamente a qualidade das interações e a provisão de estímulos essenciais ao desenvolvimento infantil (Shonkoff & Phillips, 2000).

Diante deste cenário, a análise da vulnerabilidade infantil exige uma abordagem que transcenda a dimensão monetária, pois a pobreza é a privação de capacidades e oportunidades (Sen, 1999). Portanto, este estudo propõe uma análise multidimensional que incorpora variáveis relacionadas ao capital humano dos cuidadores, às condições de infraestrutura do domicílio, à posse de bens duráveis e a características sociodemográficas. Ao aplicar técnicas estatísticas como a análise de componentes principais e a clusterização, a pesquisa busca desvendar a estrutura da vulnerabilidade e identificar perfis de domicílios que compartilham padrões específicos de privação, oferecendo um diagnóstico detalhado para a formulação de políticas públicas.

O estudo é uma pesquisa quantitativa e exploratória, baseada na análise de dados secundários da PNAD Contínua de 2022, disponibilizada pelo IBGE. A amostra inicial de 376.821 domicílios foi filtrada para incluir apenas aqueles com ao menos uma criança de zero a seis anos. Para garantir a unicidade das observações por domicílio, selecionou-se como respondente o chefe da família (Barros et al., 2006). Após a aplicação desses critérios, a amostra final consolidou-se em 25.999 domicílios.

A etapa seguinte consistiu na construção de um conjunto de variáveis multidimensionais, agrupadas em dimensões teóricas: acesso a serviços básicos (água, esgoto, energia, coleta de lixo); condições do domicílio (densidade de moradores por dormitório, material das paredes); consumo (posse de bens como computador, televisão, geladeira, máquina de lavar, automóvel e acesso à internet); educação (alfabetização, escolaridade do chefe da família); e renda (renda per capita). Variáveis contínuas como renda e anos de estudo foram submetidas a transformações logarítmicas e padronização (z-score) para normalizar suas distribuições. A abordagem alinha-se com a metodologia de Alkire e Foster (2011), que conceitua a pobreza como um acúmulo de privações.

A análise dos dados foi conduzida em três fases. Primeiramente, realizou-se uma Análise de Componentes Principais (PCA) para reduzir a dimensionalidade das variáveis. A adequação dos dados foi verificada pelo Teste de Esfericidade de Bartlett (p < 0,001) e pelo Índice Kaiser-Meyer-Olkin (KMO), com valor de 0,745, considerado bom (Hair et al., 2019). A retenção dos componentes foi decidida com base na Regra de Kaiser, no Scree Test (Cattell, 1966) e na Análise Paralela. Foram retidos dois fatores que explicaram conjuntamente 64% da variância total dos dados. Para otimizar a interpretação, aplicaram-se rotações ortogonais (Varimax) e oblíquas (Oblimin).

Na segunda fase, os escores fatoriais da PCA foram utilizados como entrada para uma análise de clusterização, segmentando os domicílios em grupos homogêneos. O uso dos escores confere maior estabilidade ao processo, pois são ortogonais e livres de multicolinearidade (Kaufman e Rousseeuw, 2005). O algoritmo não hierárquico k-means foi empregado, e o número ótimo de três clusters foi definido com base no método Elbow e no coeficiente de Silhueta (Rousseeuw, 1987). A validação estatística dos clusters foi realizada por Análise de Variância (ANOVA) e teste do Qui-Quadrado, confirmando diferenças significativas entre os grupos. Na terceira fase, construiu-se um índice composto de vulnerabilidade, calculado como uma soma ponderada dos escores fatoriais, utilizando a proporção da variância explicada por cada componente como peso. Este procedimento criou um escore único para cada domicílio, permitindo sua hierarquização de forma análoga a índices como o IDH (Jolliffe & Cadima, 2016).

A análise descritiva da amostra de 25.999 domicílios revela um perfil de profundas desigualdades. A distribuição da renda domiciliar per capita exibe forte assimetria positiva, consistente com a estrutura de desigualdade no Brasil (Neri, 2019; Atkinson, 2015). A análise de correlação de Pearson evidenciou associações robustas entre as dimensões, sendo a mais forte entre consumo e renda (0,56), seguida por consumo e educação (0,47) e educação e renda (0,41). Estes resultados corroboram a teoria do capital humano, que postula que maior escolaridade se traduz em maiores rendimentos (Mincer, 1974), que ampliam a capacidade de consumo (Deaton, 1997).

A Análise de Componentes Principais sintetizou as variáveis em duas dimensões latentes que explicam 64% da variância total. O primeiro componente, responsável por 46% da variância, foi denominado “Capital Humano”, com altas cargas fatoriais para renda (0,671), consumo (0,745) e educação (0,487). Este fator representa a dimensão socioeconômica clássica. O segundo componente, que explicou 18% da variância, foi nomeado “Infraestrutura Básica”, com cargas elevadas para acesso a serviços públicos (0,723) e condições do domicílio (0,218). A identificação destes dois fatores valida a premissa de que a vulnerabilidade é multidimensional; a privação de infraestrutura é um eixo de desvantagem complementar à dimensão econômica (Townsend, 1979).

A aplicação do algoritmo k-means revelou três perfis socioeconômicos distintos. O “Cluster 1: Alta Vulnerabilidade” é o grupo mais numeroso, composto majoritariamente por famílias chefiadas por pessoas negras (82%), com alta informalidade (71% sem carteira assinada) e renda per capita extremamente baixa (nenhum domicílio acima de um salário mínimo). Concentra-se nas regiões Nordeste (57%) e Norte (24%) e em áreas rurais, com os piores indicadores de infraestrutura. Os achados são consistentes com estudos sobre a sobrerrepresentação de populações negras e nordestinas nos estratos de maior pobreza (Telles, 2004).

O “Cluster 2: Vulnerabilidade Intermediária” é um grupo heterogêneo. Embora majoritariamente composto por chefes de família negros (72%), apresenta maior proporção de domicílios em áreas urbanas (77%) e melhor acesso ao trabalho formal (57% com carteira assinada). A renda permanece baixa, com apenas 0,6% dos domicílios superando um salário mínimo per capita. Este grupo tem presença significativa no Nordeste (36%) e Sudeste (23%) e é marcado por alta proporção de chefia feminina (58%), sugerindo a intersecção de vulnerabilidades de gênero, raça e classe.

O “Cluster 3: Baixa Vulnerabilidade” corresponde ao perfil mais privilegiado. Caracteriza-se por capital humano consolidado, com maiores níveis de escolaridade e renda. A inserção no mercado de trabalho é predominantemente formal (76% com carteira assinada), e 25% dos domicílios possuem renda per capita superior a um salário mínimo. Este grupo está concentrado nas regiões Sudeste e Sul, reside majoritariamente em áreas urbanas (93%) e possui os melhores indicadores de infraestrutura e consumo. A composição racial é mais equilibrada, com metade dos chefes de família se declarando brancos. Testes ANOVA e Qui-Quadrado confirmaram que as diferenças entre os três clusters são altamente significativas (p < 0,001).

A construção do índice composto permitiu sintetizar as dimensões da vulnerabilidade em um escore único, possibilitando uma hierarquização precisa da amostra. A distribuição dos escores foi estratificada em dez decis. A análise revelou menor variabilidade nos decis centrais e maior dispersão nos extremos (primeiro e décimo decis), indicando que o índice é eficaz em capturar tanto a privação severa quanto o bem-estar acentuado. A análise de variância (ANOVA) dos escores médios dos componentes “Capital Humano” e “Infraestrutura Básica” entre os decis confirmou diferenças estatisticamente significativas. Isso demonstra que, ao avançar na escala do índice, há uma melhoria progressiva em ambas as dimensões. Esta hierarquização granular é uma ferramenta para políticas públicas, permitindo identificar os mais vulneráveis e medir a intensidade de suas privações para alocação eficiente de recursos.

A análise multivariada oferece um panorama detalhado da heterogeneidade da vulnerabilidade infantil no Brasil. Os resultados demonstram que políticas de combate à pobreza na primeira infância devem ser multidimensionais. Intervenções focadas apenas na transferência de renda, embora cruciais, são insuficientes para superar desvantagens estruturais. Para o grupo de alta vulnerabilidade, por exemplo, políticas de saneamento, melhoria habitacional e expansão de serviços públicos em áreas rurais são tão urgentes quanto o apoio à renda.

Em suma, o estudo evidenciou que a vulnerabilidade na primeira infância no Brasil é um mosaico de diferentes perfis de privação. A identificação das dimensões “Capital Humano” e “Infraestrutura Básica” e a segmentação em três clusters fornecem um mapa para a ação governamental. A hierarquização por meio do índice composto permite uma focalização precisa das intervenções, direcionando recursos para aqueles com as formas mais severas de desvantagem. A pesquisa reforça a necessidade de políticas integradas que atuem simultaneamente no fortalecimento da renda familiar e na expansão da infraestrutura social e urbana, garantindo condições dignas para o desenvolvimento de todas as crianças.

A abordagem metodológica demonstrou ser uma ferramenta poderosa para transformar dados de pesquisas domiciliares em insights para a política social. A combinação de análise fatorial, clusterização e indexação permitiu capturar a complexa estrutura da desigualdade que afeta as crianças brasileiras. As evidências geradas são um subsídio para gestores, pesquisadores e sociedade civil. Sugere-se, para futuras pesquisas, a aplicação desta metodologia em séries temporais da PNAD para analisar a evolução dos perfis de vulnerabilidade e avaliar o impacto de políticas públicas.

Conclui-se que o objetivo foi atingido: demonstrou-se que a análise fatorial, a clusterização e a indexação ponderada permitiram identificar padrões socioeconômicos e hierarquizar os domicílios brasileiros com crianças na primeira infância segundo a intensidade de sua vulnerabilidade.

Referências:
Abdi, H.; Williams, L. J. Principal component analysis. Wiley Interdisciplinary Reviews: Computational Statistics, v. 2, n. 4, p. 433-459, 2010.
Alkire, S.; Foster, J. Counting and multidimensional poverty measurement. Journal of Public Economics, v. 95, n. 7-8, p. 476-487, 2011.
Atkinson, A. B. Desigualdade: o que pode ser feito? São Paulo: LeYa, 2015.
Barros, R. P.; Carvalho, M.; Franco, S. Pobreza multidimensional no Brasil. Texto para Discussão IPEA n. 1227. Rio de Janeiro: IPEA, 2006.
Cattell, R. B. The scree test for the number of factors. Multivariate Behavioral Research, v. 1, n. 2, p. 245-276, 1966.
Comitê Científico Núcleo Científico Pela Infância [NCPI]. 2014. Estudo nº 1: O impacto do desenvolvimento na primeira infância sobre a aprendizagem.
De Souza, P. H. G. F.; Suarez, M. Vulnerabilidade social e pobreza no Brasil. Revista Brasileira de Estudos de População, v. 28, n. 2, p. 333-355, 2011.
Deaton, A. The Analysis of Household Surveys: A Microeconometric Approach to Development Policy. Washington, DC: The World Bank, 1997.
Fabrigar, L. R.; Wegener, D. T. Exploratory Factor Analysis. New York: Oxford University Press, 2012.
Fundo das Nações Unidas para o Desenvolvimento Infantil [UNICEF]. 2023. Disponível em: <https://www. unicef. org/brazil/comunicados-de-imprensa/ha-32-milhoes-de-criancas-e-adolescentes-na-pobreza-no-brasil-alerta-unicef>.
Grantham McGregor, S. et al. Developmental potential in the first 5 years for children in developing countries. The Lancet, v. 369, n. 9555, p. 60-70, 2007.
Hair, J. F. et al. Multivariate Data Analysis. 8ed. Boston: Cengage, 2019.
Heckman, J. J. Invest in Early Childhood Development: Reduce Deficits, Strengthen the Economy. Heckman Equation, 2012.
Instituto Brasileiro de Geografia e Estatística. 2019. Pesquisa Nacional por Amostra de Domicílios [PNAD]). Rio de Janeiro: IBGE.
Jolliffe, I. T.; Cadima, J. Principal component analysis: a review and recent developments. Philosophical Transactions of the Royal Society A, v. 374, 2016.
Kaufman, L.; Rousseeuw, P. J. Finding groups in data: an introduction to cluster analysis. Hoboken: John Wiley & Sons, 2005.
Mincer, J. Schooling, Experience, and Earnings. New York: NBER, 1974.
Monteiro, F.; Schmidt. S. T.; Bezerra, I.; Almeida, L.; Matuda, N. 2014. Bolsa Família: insegurança alimentar e nutricional de crianças menores de cinco anos. Ciência & Saúde Coletiva (19) 1347-1357.
Neri, M. Desigualdade de renda na década. Rio de Janeiro: FGV Social, 2019.
Rocha, S. Pobreza no Brasil: afinal, de que se trata? Rio de Janeiro: FGV, 2008.
Rousseeuw, P. J. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, v. 20, p. 53-65, 1987.
Sen, A. Desenvolvimento como liberdade. São Paulo: Companhia das Letras, 1999.
Shonkoff, J. P.; Phillips, D. 2000. From neurons to neighborhoods: The Science of early childhood development. Washington: National Academy Press.
Telles, E. Race in Another America: The Significance of Skin Color in Brazil. Princeton: Princeton University Press, 2004.
Townsend, P. Poverty in the United Kingdom. London: Penguin, 1979.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade