
24 de fevereiro de 2026
Fatores socioeconômicos da violência letal urbana em municípios brasileiros
Lucas Valoz Castellucci; Édipo Menezes da Silva
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Esta pesquisa investigou as relações entre a violência letal e indicadores socioeconômicos em municípios brasileiros, utilizando regressão multinível e aprendizado de máquina para explorar as contribuições e limites de cada método. O objetivo foi identificar os principais fatores explicativos da violência letal em contextos urbanos no Brasil, visando fornecer subsídios para políticas públicas de segurança. A análise buscou identificar a magnitude e a importância relativa de dimensões como emprego, educação e desigualdade na determinação das taxas de Mortes Violentas Intencionais (MVI).
A alta criminalidade é um dos desafios mais prementes para a sociedade brasileira. Conforme dados do Fórum Brasileiro de Segurança Pública (FBSP, 2024), o Brasil registrou 46.328 Mortes Violentas Intencionais em 2023, uma taxa de 22,8 mortes por 100 mil habitantes, valor quase quatro vezes superior à média global. Esta realidade é agravada pela subnotificação, como aponta o Atlas da Violência 2024, que destaca o elevado número de mortes com “causa indeterminada”, sugerindo uma falha sistêmica que pode mascarar a dimensão do problema (Cerqueira e Bueno, 2024). Adicionalmente, a letalidade por intervenções policiais atingiu 6.393 casos em 2023, um aumento de 188,9% desde 2013, evidenciando uma escalada da violência estatal (FBSP, 2024).
A compreensão do fenômeno evoluiu. Abordagens iniciais da criminologia do século XIX atribuíam o crime a características inatas, em trabalhos hoje considerados pseudocientíficos (Lombroso, 1876; Rodrigues, 2011). A partir da segunda metade do século XX, as ciências sociais consolidaram a visão de que a violência é produto de fatores socioeconômicos. Estudos pioneiros, como os de Shaw e Mckay (1969) nos EUA e de Cano e Santos (2001) no Brasil, estabeleceram as bases para a análise da relação entre violência, renda e desigualdade. O avanço tecnológico e a disponibilidade de dados permitiram aprofundar essas teorias com modelos estatísticos avançados e de aprendizado de máquina.
O uso de algoritmos para análise preditiva da criminalidade, contudo, apresenta controvérsias e desafios éticos. Pesquisadores como O’Neil (2016), Ludwig e Mullainathan (2021), Silva (2022) e Coelho (2024) alertam para o risco de que tais ferramentas possam reforçar vieses existentes. Nesse sentido, a fundamentação teórica da sociologia é crucial para orientar a seleção de variáveis explicativas, focando em indicadores socioeconômicos que representam causas estruturais, e não em proxies que possam levar à discriminação. Estudos anteriores já demonstraram o potencial dessa abordagem, como o de Goin et al. (2018), que explicou 77,8% da variância da violência armada na Califórnia com variáveis públicas, e o de Alves et al. (2018), que identificou desemprego e analfabetismo como preditores de homicídios no Brasil.
Este estudo se justifica pela necessidade de aprofundar a compreensão dos determinantes da violência letal no Brasil, comparando a capacidade explicativa de diferentes modelos analíticos. A pesquisa contrasta um modelo paramétrico hierárquico, que permite interpretar a direção e magnitude dos efeitos, com um modelo não paramétrico de aprendizado de máquina, capaz de capturar interações complexas. A expectativa é que os resultados informem o desenho de políticas públicas que atuem sobre as múltiplas dimensões da vulnerabilidade social. A operacionalização de conceitos como pobreza e desigualdade em indicadores quantificáveis, conforme Januzzi (2001), é um pilar metodológico central.
A metodologia é um estudo observacional de corte transversal, com análise quantitativa de dados secundários. O desenho, conforme Kellstedt e Whitten (2018), compara diferentes unidades de análise (municípios) em um ponto no tempo para identificar o impacto de indicadores socioeconômicos na violência letal. A unidade de análise são os 282 municípios brasileiros com população igual ou superior a 100.000 habitantes em 2010. Este recorte garante maior estabilidade e confiabilidade às taxas de violência, evitando as distorções que ocorrem em municípios de pequeno porte. As conclusões são, portanto, aplicáveis a municípios de médio e grande porte.
O banco de dados agregou informações de fontes como o Instituto de Pesquisa Econômica Aplicada (IPEA), o Instituto Brasileiro de Geografia e Estatística (IBGE), o Atlas do Desenvolvimento Humano (ATLAS DH) e o DATASUS. O ano de referência de 2010 foi selecionado devido à disponibilidade de indicadores municipais detalhados, já que os dados do Censo de 2022 ainda não estavam integralmente disponíveis. A variável dependente, “TAXA_VIOLENCIA”, é a taxa de Mortes Violentas Intencionais por 100.000 habitantes (IPEA), somando Crimes Violentos Letais e Intencionais (CVLI) e Mortes por Intervenção de Agente do Estado (MIAE). As 18 variáveis independentes, selecionadas com base na literatura, abrangem demografia, desigualdade (Gini, Theil), educação, infraestrutura, pobreza e mercado de trabalho.
Um desafio metodológico foi a alta multicolinearidade entre as variáveis preditoras, comum em estudos socioeconômicos. A multicolinearidade viola pressupostos da regressão linear e pode distorcer a importância das variáveis. O diagnóstico via Fator de Inflação da Variância (VIF), conforme James et al. (2023), revelou valores extremamente elevados. Para solucionar o problema, aplicou-se a Análise de Componentes Principais (PCA), uma técnica de redução de dimensionalidade que transforma variáveis correlacionadas em componentes principais não correlacionados. Esta abordagem, também utilizada por Ribeiro e Cano (2016), condensou as 18 variáveis originais em cinco fatores temáticos: Pobreza e Desigualdade, Educação, Emprego, Infraestrutura e População.
Foram testados cinco modelos de regressão supervisionada. Três modelos lineares baseados em Mínimos Quadrados Ordinários (OLS) – Regressão Linear Múltipla (RLM), Log-RLM e RLM com transformação de Box-Cox (RLM-BC) – foram avaliados inicialmente. Um modelo de Regressão Linear Multinível com transformação de Box-Cox (RLMM-BC) foi implementado para considerar a estrutura hierárquica dos dados (municípios aninhados em Unidades Federativas), o que, segundo Goldstein (2011), controla a heterocedasticidade. Por fim, um modelo não paramétrico, o Random Forest Regressor (RFR), foi treinado. Conforme Géron (2022), o RFR é um modelo de conjunto que constrói múltiplas árvores de decisão, capturando relações não lineares. A comparação do desempenho dos modelos baseou-se no coeficiente de determinação (R²), Erro Quadrático Médio (MSE) e sua raiz (RMSE).
A análise exploratória revelou profunda desigualdade na distribuição da violência letal no Brasil em 2010. A variável dependente apresentou forte assimetria positiva, com média de 31,6 mortes por 100.000 habitantes, superior à mediana de 25,3, e alta dispersão (desvio padrão de 22,59). Isso indica a existência de municípios com taxas extremas, chegando a um máximo de 113,67. A análise temporal de 2010 a 2021 mostrou uma tendência de alta até 2017, seguida por queda até 2020 e retomada em 2021, sugerindo dinâmicas complexas.
A desagregação dos dados por regiões e Unidades Federativas (UFs) confirmou a concentração geográfica da violência. As regiões Norte e Nordeste emergiram como epicentros, com as medianas mais altas. Estados como Alagoas, Bahia, Paraíba e Pará se destacaram negativamente. Em contrapartida, Santa Catarina e São Paulo exibiram medianas substancialmente mais baixas e distribuições mais compactas, indicando um cenário de segurança mais favorável.
A análise das variáveis independentes demonstrou uma convergência de vulnerabilidades. Os mesmos estados com as maiores taxas de violência apresentaram os piores indicadores de desenvolvimento, desigualdade, infraestrutura, pobreza e educação. O Índice de Desenvolvimento Humano Municipal (IDHM) mostrou uma correlação visual inversa com a violência. Similarmente, o Índice de Gini, o déficit de saneamento, a proporção de vulneráveis à pobreza, o analfabetismo e o desemprego seguiram o mesmo padrão geográfico, concentrando-se no Norte e Nordeste. Esta sobreposição de desvantagens forneceu base empírica para a hipótese de que a violência letal está associada a um complexo de fatores socioeconômicos.
O diagnóstico de multicolinearidade, com valores de VIF ultrapassando 8.000, confirmou a inviabilidade de usar as 18 variáveis originais nos modelos de regressão. A aplicação da Análise de Componentes Principais (PCA) mitigou o problema, criando cinco fatores ortogonais. O fator “População” capturou 99,99% da variância das variáveis populacionais. “Educação” explicou 84,10% da variância das variáveis de escolaridade. “Infraestrutura” condensou 66,86% da variância dos indicadores de serviços básicos. “Pobreza e Desigualdade” representou 68,73% da variância das medidas de renda. Por fim, “Emprego” sintetizou 50,21% da variância das variáveis do mercado de trabalho. Após a transformação, todas as novas variáveis apresentaram VIF inferior a 5.
Os resultados da modelagem paramétrica inicial (RLM, Log-RLM, RLM-BC) foram insatisfatórios, com baixo poder explicativo (R² entre 0,21 e 0,23) e violação do pressuposto de normalidade dos resíduos. Em contraste, o modelo de Regressão Multinível (RLMM-BC) representou um avanço, alcançando um Pseudo-R² de 0,617. O Coeficiente de Correlação Intraclasse (ICC) revelou que 36% da variação da violência letal podia ser atribuída ao nível das UFs, confirmando a importância da estrutura hierárquica. A análise dos coeficientes mostrou que os fatores “População” e “Emprego” foram os mais impactantes e estatisticamente significantes, com associação positiva com a violência. O fator “Educação” apresentou um efeito redutor marginal, enquanto “Infraestrutura” mostrou uma relação positiva marginal. Notavelmente, o fator “Pobreza e Desigualdade” não se mostrou estatisticamente significante neste modelo.
O modelo Random Forest Regressor (RFR) obteve o melhor desempenho preditivo, com R² de 0,706 para 2010 e 0,683 para 2011. Uma descoberta importante foi a robustez do modelo ao longo do tempo: os indicadores de 2010 mantiveram poder preditivo para explicar a violência até 2019, como sugerido por Ribeiro e Cano (2016), demonstrando a persistência dos efeitos das condições socioeconômicas. A análise da importância das variáveis no RFR revelou um cenário distinto do modelo multinível. Os fatores “Pobreza e Desigualdade” (22,92%) e “Infraestrutura” (21,98%) emergiram como os mais importantes, seguidos por “Educação” (19,56%) e “Emprego” (19,52%), com “População” (16,02%) tendo a menor, mas relevante, contribuição.
O contraste entre os resultados dos dois melhores modelos é um dos achados mais relevantes. Enquanto o modelo RLMM-BC, linear, destacou relações fortes e monotônicas, apontando densidade populacional e mercado de trabalho como principais vetores, o modelo RFR, não linear, sugeriu que a violência é melhor explicada pelo conjunto sinérgico de todos os fatores. A incapacidade do modelo linear de encontrar um efeito significante para “Pobreza e Desigualdade” e a alta importância deste mesmo fator no RFR indicam que a relação entre desigualdade e violência é complexa, não linear e dependente de interações com outras variáveis, algo que apenas modelos mais flexíveis conseguem capturar.
Os resultados validam a hipótese central de que a violência letal urbana no Brasil pode ser modelada como uma função de indicadores socioeconômicos. Os modelos RLMM-BC e RFR explicaram mais de 60% da variação das taxas de MVI, reforçando a importância desses indicadores. O modelo multinível aponta para a necessidade de políticas focadas na gestão do crescimento urbano e na geração de emprego. O modelo de florestas aleatórias, por sua vez, reforça a visão de que a violência é um fenômeno multifacetado, sublinhando a necessidade de abordagens integradas que combatam simultaneamente a pobreza, a desigualdade e os déficits de infraestrutura e educação.
É crucial reconhecer que os modelos foram treinados com dados de 2010, e a queda de desempenho em anos recentes sinaliza alterações nas dinâmicas da violência. A futura disponibilização dos dados do Censo de 2022 será fundamental para reavaliar os pesos e as interações desses fatores na década de 2020, permitindo o refinamento das estratégias de segurança pública. Conclui-se que o objetivo foi atingido: demonstrou-se que a violência letal urbana pode ser modelada como uma função de indicadores socioeconômicos, com os modelos multinível e de florestas aleatórias explicando mais de 60% de sua variação e oferecendo insights complementares sobre suas causas estruturais.
Referências:
Alves, L. G. A.; Ribeiro, H. V.; Rodrigues, F. A. 2018. Crime prediction through urban metrics and statistical learning. Physica A: Statistical Mechanics and its Applications 505: 435-443.
Cano, I.; Santos, N. 2001. Violência letal, renda e desigualdade no Brasil. 1ed. 7Letras, Rio de Janeiro, RJ, Brasil.
Cerqueira, D.; Bueno, S. (coord.). Atlas da violência 2024. Brasília: Ipea; FBSP. Disponível em: https://repositorio. ipea. gov. br/handle/11058/14031. Acesso em: 22 mar. 2025.
Coelho, D. S. C. 2024. Inteligência artificial em justiça e segurança pública: exemplos e recomendações para políticas públicas. Diest: Nota Técnica, 65. Disponível em: https://www. ipea. gov. br/atlasviolencia/arquivos/artigos/8191-pub-expressant-da-diest-65inteligencia-artificial-em-justica. pdf. Acesso em: 22 mar. 2025.
Favero, L. P.; Belfiore, P. 2024. Manual de Análise de Dados: estatística e Machine Learning com EXCEL, SPSS, STATA, R e Python. 2ed. LTC, Rio de Janeiro, RJ, Brasil.
Fórum Brasileiro de Segurança Pública. 2024. 18º Anuário Brasileiro de Segurança Pública. São Paulo, SP, Brasil. Disponível em: https://publicacoes. forumseguranca. org. br/handle/123456789/253. Acesso em: 24 mar. 2025.
Géron, A. 2022. Hands-On Machine Learning with Scikit-Learn, Keras, and Tensorflow: Concepts, Tools, and Techniques to Build Intelligent Systems. 3ed. O’Reilly. Sebastopol, CA, USA.
Herawati, N. D.; Nisa, K.; Setiawan, E.; Nusyirwan, N.; Tiryono, T. 2018. Regularized multiple regression methods to deal with severe multicollinearity. International Journal of Statistics and Applications, 8(4), 167-172.
James, G.; Witten, D.; Hastie, T.; Tibishirani, R.; Taylor, J. 2023. An Introduction to Statistical Learning: with Applications in Python. 1ed. Springer, New York, NY, USA. Disponível em: https://www. statlearning. com/. Acesso em: 22 mar. 2025.
Januzzi, P. 2001. Indicadores Sociais no Brasil: conceitos, fontes de dados e aplicações para formulação e avaliação de políticas públicas e elaboração de estudos socioeconômicos. 3ed. Alínea, Campinas, SP, Brasil.
Kellstedt, P. M.; Whitten, G. D. 2018. The fundamentals of political science research. Cambridge University Press.
Lombroso, C., L‘uomo delinquente. 1876. s/e, Roma, Itália.
Ludwig, J.; Mullainathan, S. 2021. In Fragile Algorithms and Fallible Decision-Makers: Lessons from the Justice System. Journal of Law & Economics 64(S1): 175-200.
Mandalapu, V.; Lavanya, E.; Vyas, P.; Roy, N. 2023. Crime Prediction Using Machine Learning and Deep Learning: A Systematic Review and Future Directions. IEEE Access 11: 10151873.
O’Neil, C. 2016. Weapons of Math Destruction: How Big Data Increases Inequality and Threatens Democracy. 1ed. Crown, New York, NY, USA.
Ribeiro, E.; Cano, I. 2016. Vitimização letal e desigualdade no Brasil: evidências em nível municipal. Civitas: Revista de Ciências Sociais, 16(2), 285-305.
Rodrigues, R. N. 2011 [1894]. As raças humanas e a responsabilidade penal no Brasil. CEPS, Rio de Janeiro, RJ, Brasil.
Shaw, C. R.; McKay, H. D. 1969. Juvenile Delinquency and Urban Areas: a study of rates of delinquency in relation to differential characteristics of local communities in american cities. 2ed. University of Chicago Press, Chicago, IL, USA.
Silva, T. 2022. Racismo Algorítmico: inteligência artificial e discriminação nas redes digitais. SESC, São Paulo, SP, Brasil.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































