
23 de janeiro de 2026
Aplicação de árvores de decisão para predição de ocorrências policiais em Araras/SP
Allan de Alencar Ramos; Diogo Alfieri Palma
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo desta pesquisa consiste no desenvolvimento de um modelo de aprendizado de máquina, com base em árvores de decisão, capaz de estimar a probabilidade de ocorrência de determinado tipo de crime em uma das regiões do município de Araras/SP, de forma a auxiliar os órgãos competentes na tomada de decisões em questões relacionadas à segurança pública. A investigação busca, por meio da aplicação de técnicas de ciência de dados, transformar dados históricos de ocorrências em insights acionáveis, permitindo uma alocação de recursos mais estratégica e proativa por parte das forças de segurança. A premissa central é que a análise de padrões passados pode fornecer uma base estatística robusta para antecipar eventos futuros, alinhando-se à crescente tendência de utilização de análise de dados para otimização de serviços públicos.
O avanço exponencial da ciência da computação tem redefinido paradigmas em múltiplos setores, incluindo saúde, finanças e segurança. A capacidade de processamento computacional, que antes exigia infraestruturas massivas como os mainframes, hoje está acessível em dispositivos móveis, seguindo a tendência observada pela Lei de Moore, que postula a duplicação da capacidade de processamento a custos decrescentes ao longo do tempo (Deitel e Deitel, 2011). Essa democratização tecnológica, combinada com a proliferação de dispositivos conectados, que já somavam 5 bilhões em 2010 (Manyika et al., 2011), gerou um volume de dados sem precedentes. Estima-se que a esfera global de dados atingirá 163 zettabytes até 2025 (Reinsel et al., 2017), um fenômeno conhecido como Big Data, que se tornou um ativo estratégico para organizações em busca de vantagem competitiva.
Nesse contexto, a análise de dados emergiu como uma disciplina fundamental, impulsionada pela disponibilidade massiva de informações, pelos avanços em hardware e por novas metodologias quantitativas, especialmente no campo da Inteligência Artificial (IA) (Fávero e Belfiore, 2024). Uma das aplicações mais impactantes da IA na esfera governamental é o policiamento preditivo. Este conceito, definido por Perry et al. (2013) como o uso de técnicas analíticas para identificar prováveis alvos, prever locais de crimes e auxiliar na resolução de casos, representa uma mudança de um modelo reativo para uma abordagem proativa na segurança pública. A análise de dados permite que as forças policiais transcendam o patrulhamento ostensivo tradicional, focando seus esforços em áreas e horários com maior probabilidade de incidentes.
A eficácia do policiamento preditivo já foi demonstrada em diversas iniciativas globais. Em Nova Orleans, a estratégia “Math and Murder” utilizou a identificação de “hotspots” criminais para implementar políticas socioeconômicas e de conscientização, resultando em uma redução de 21,9% nos índices de homicídios entre 2011 e 2014 (Araújo et al., 2023). No Brasil, o estado do Paraná foi pioneiro com o projeto Mapa do Crime, que visava organizar e dar transparência aos registros policiais. No entanto, a experiência paranaense também expôs um dos maiores desafios da área: a baixa qualidade dos dados. A falta de padronização e as falhas no preenchimento dos boletins de ocorrência exigiram um esforço significativo de retrabalho, comprometendo a agilidade e a precisão das análises (Bordin e Lima, 2012).
O aprendizado de máquina, um subcampo da IA, é central para o policiamento preditivo, pois se dedica a desenvolver algoritmos que identificam padrões em dados para gerar modelos de predição (Paixão et al., 2022). Dentre os diversos algoritmos disponíveis, a árvore de decisão se destaca por sua estrutura hierárquica e interpretável, que mapeia uma sequência de decisões e seus possíveis resultados (Grus, 2016). Este estudo adota a árvore de decisão como modelo base, mas também explora algoritmos mais complexos, como floresta aleatória e redes neurais artificiais, para fins comparativos, buscando determinar a abordagem mais eficaz para o contexto específico do município de Araras/SP, considerando os desafios inerentes à qualidade dos dados disponíveis.
A metodologia desta pesquisa foi estruturada em uma sequência lógica de etapas, iniciando com a coleta de dados e culminando na avaliação comparativa de modelos preditivos. O estudo, de natureza quantitativa e aplicada, foi realizado com base em um conjunto de dados históricos de ocorrências policiais registradas no município de Araras, São Paulo. Os dados, que abrangem o período de 1º de janeiro de 2017 a 31 de dezembro de 2024, foram obtidos de forma anonimizada por meio de um termo de anuência, garantindo a confidencialidade das informações. A base de dados original, exportada de um sistema gerenciador de banco de dados PostgreSQL 9.6, continha 36.868 registros e incluía variáveis como identificador, bairro, latitude, longitude, tipo e descrição da ocorrência, data, hora e instituição responsável pelo atendimento.
A fase de tratamento dos dados, conhecida como “Data Wrangling”, foi identificada como um processo crítico e de alta complexidade. Conforme aponta Wes (2012), a preparação dos dados brutos consome uma parcela significativa do tempo de um analista, e este estudo confirmou tal premissa. A variável “bairro” apresentava severas inconsistências, com ausência de padronização, incluindo nomes em diferentes capitalizações, uso de abreviações, presença de endereços completos e até nomes de outras cidades. Para mitigar esse problema, foi desenvolvido um algoritmo em Python para normalizar os textos, removendo acentos e caracteres especiais e convertendo todas as entradas para letras maiúsculas. Adicionalmente, a linguagem SQL foi empregada para manipular os dados e, utilizando as coordenadas geográficas (latitude e longitude), foi possível corrigir os registros com informações de bairro incorretas ou incompletas.
Para a etapa de modelagem, o estudo focou em um tipo específico de crime, o furto, que totalizou 3.679 ocorrências, criando um subconjunto de dados para o treinamento dos algoritmos. A variável alvo, “risco”, foi criada a partir da contagem de furtos por região e período, sendo segmentada em três classes (baixo, médio e alto) por meio da função “qcut” da biblioteca “pandas”. As variáveis preditoras categóricas (“região” e “período”) foram convertidas em formato numérico binário através do processo de “one-hot encoding”, uma etapa indispensável para a maioria dos algoritmos de aprendizado de máquina. O conjunto de dados foi então dividido na proporção de 70% para treinamento e 30% para teste. Foram implementados três modelos distintos: Árvore de Decisão, Floresta Aleatória e Redes Neurais Artificiais (Multi-Layer Perceptron – MLP). A avaliação de desempenho foi realizada com base em quatro métricas derivadas da matriz de confusão: acurácia, sensibilidade (recall), especificidade e precisão, calculadas conforme as formulações apresentadas por Schütze et al. (2009).
A análise exploratória dos dados revelou padrões significativos na distribuição das 36.868 ocorrências registradas. A região Central do município concentra a maior parte dos incidentes, um resultado esperado devido à maior circulação de pessoas e à concentração de comércios e serviços. A análise temporal também demonstrou uma tendência clara, com o período noturno apresentando um volume de registros aproximadamente 60% superior ao período da manhã, indicando uma janela de tempo de maior vulnerabilidade para a segurança pública. Essas descobertas iniciais já fornecem insights valiosos para o direcionamento de patrulhas e recursos, mesmo antes da aplicação dos modelos preditivos.
O primeiro modelo implementado, a Árvore de Decisão, foi configurado com uma profundidade máxima de quatro níveis para evitar o sobreajuste e manter a interpretabilidade, uma das principais vantagens dessa técnica (James et al., 2023). Nos dados de teste, o modelo alcançou uma acurácia de 77,40%, uma sensibilidade de 70,50% e uma precisão de 82,30%. A proximidade entre as métricas de treino e teste indicou que o modelo generalizou bem para dados não vistos, sem sofrer de “overfitting”. Embora funcional, o desempenho foi considerado moderado, servindo como uma linha de base para comparação com abordagens mais sofisticadas.
Em seguida, foi implementado o modelo de Floresta Aleatória, um método de “ensemble” que combina múltiplas árvores de decisão para melhorar a robustez e a precisão preditiva. A versão inicial, com dez árvores, já demonstrou uma melhoria substancial em relação ao modelo de árvore única. A acurácia no conjunto de teste saltou para 86,90%, com a sensibilidade e a precisão aumentando em aproximadamente 10 pontos percentuais. Este resultado corrobora a teoria de que agregar as predições de múltiplos modelos pode reduzir a variância e levar a um desempenho superior (James et al., 2023). A eficácia do modelo de Floresta Aleatória na identificação das diferentes classes de risco foi visivelmente superior, conforme observado nas matrizes de confusão.
Para refinar ainda mais o modelo de Floresta Aleatória, foram aplicadas as técnicas de “Grid Search” e “Cross-Validation”. O “Grid Search” testou sistematicamente diversas combinações de hiperparâmetros, identificando a configuração ótima como sendo 100 árvores, com profundidade máxima de cinco níveis e considerando duas variáveis preditoras em cada divisão. A aplicação desta configuração otimizada, validada com cinco “folds” de “Cross-Validation”, elevou a performance do modelo a um novo patamar. A acurácia no conjunto de teste atingiu 91,70%, com uma precisão de 95,90%. A análise da matriz de confusão mostrou uma melhora notável na classificação da classe de risco “médio”, que é frequentemente a mais difícil de distinguir.
O terceiro modelo avaliado foi uma Rede Neural Artificial do tipo Multi-Layer Perceptron (MLP), inspirada no funcionamento do cérebro humano (Nielsen, 2015). Foi implementada uma arquitetura relativamente simples, com duas camadas ocultas contendo 20 e 10 neurônios, respectivamente, utilizando a função de ativação ReLU e o otimizador Adam. Apesar de sua simplicidade, o modelo MLP superou todos os outros, alcançando um desempenho excepcional. A acurácia no conjunto de teste foi de 97,10%, e a sensibilidade atingiu 98,20%, indicando uma capacidade quase perfeita de identificar corretamente as ocorrências de alto risco. A matriz de confusão revelou um número mínimo de erros de classificação, com apenas 32 observações classificadas incorretamente em todo o conjunto de teste.
A discussão dos resultados evidencia uma clara hierarquia de desempenho entre os modelos testados para este problema específico. A transição da Árvore de Decisão para a Floresta Aleatória e, finalmente, para a Rede Neural MLP, demonstrou ganhos progressivos e significativos em todas as métricas de avaliação. O sucesso dos modelos, especialmente do MLP, está intrinsecamente ligado à qualidade da etapa de preparação dos dados. O agrupamento de bairros em regiões e de horas em períodos do dia simplificou o problema e permitiu que os algoritmos identificassem padrões de forma mais eficaz.
A aplicação prática do modelo treinado é direta. Ao fornecer como entrada uma combinação de região e período do dia (por exemplo, “Centro” e “Noite”, representados em formato binário), o modelo retorna a classe de risco associada (“alto”, neste caso). Essa capacidade de predição permite que os gestores de segurança pública aloquem patrulhas, implementem medidas preventivas e otimizem a vigilância de forma proativa, concentrando recursos onde e quando eles são mais necessários, com base em evidências estatísticas robustas.
Conclui-se que o objetivo foi atingido: demonstrou-se que é possível estimar a probabilidade de ocorrência de um delito em uma região específica do município, identificando a classe de risco correspondente por meio de modelos de aprendizado de máquina com alto grau de precisão. A pesquisa oferece uma ferramenta analítica poderosa que pode auxiliar os órgãos competentes a transitar de uma postura reativa para uma estratégia de segurança pública proativa e baseada em dados, otimizando a alocação de recursos e contribuindo para a redução da criminalidade local.
Referências:
Araújo, V. S.; Junior, J. J. A.; Albuquerque, L. F. 2023. Policiamento preditivo na era da vigilância: a busca de um modelo constitucional e democrático. Quaestio Iuris, 16(1): 313-337.
Bordin, M.; Lima, R. P. 2012. Mapeamento do crime e análise criminal: a experiência do Estado do Paraná. Geografares, 10.
Deitel, P.; Deitel, H. 2011. C Como Programar. 6ed. Pearson Education do Brasil, São Paulo, SP, Brasil.
Fávero, L. P.; Belfiore, P. 2024. Manual de análise de dados: estatística e machine learning com Excel, SPSS, Stata, R e Python. 2ed. LTC, Rio de Janeiro, RJ, Brasil.
Grus, J. 2016. Data science do zero. 1ed. Alta books, Rio de Janeiro, RJ, Brasil.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R.; Taylor, J. 2023. An Introduction to Statistical Learning: With Applications in Python. Springer Nature Switzerland AG, Cham, Suíça.
Manyika, J.; Chui, M.; Brown, B.; Bughin, J.; Dobbs, R.; Roxburgh, C.; Byers, A. H. 2011. Big data: The next frontier for innovation, competition and productivity. McKinsey Global Institute.
Nielsen, M. A. 2015. Neural Networks and Deep Learning. Determination Press.
Paixão, G. M. M.; Santos, B. C.; Araujo, R. M.; Ribeiro, M. H.; Moraes, J. L.; Ribeiro, A. L. 2022. Machine Learning na Medicina: Revisão e Aplicabilidade. Arquivos Brasileiros de Cardiologia, 118(1): 95–102.
Perry, W. L.; McInnis, B.; Price, C. C.; Smith, S. C.; Hollywood, J. S. 2013. Predictive policing: The role of crime forecasting in law enforcement operations. Rand Corporation.
Reinsel, D.; Gantz, J.; Rydning, J. 2017. Data Age 2025: The Evolution of Data to Life-Critical Don’t Focus on Big Data; Focus on the Data That’s Big. IDC.
Schütze, H.; Manning, C. D.; Raghavan, P. 2009. Introduction to information retrieval. 1ed. Cambridge University Press, Cambridge, Inglaterra.
Wes, M. 2012. Python for data analysis. 1ed. O’Reilly Media, Sebastopol, CA, EUA.
Resumo executivo oriundo de Trabalho de conclusão de Curso de Data Science e Analytics
Saiba mais sobre o curso, clique aqui.






































