Imagem Análise preditiva de acidentes fatais nas rodovias federais do sudeste brasileiro

06 de fevereiro de 2026

Análise preditiva de acidentes fatais nas rodovias federais do sudeste brasileiro

Hugo Leonardo dos Santos; Wagner dos Anjos Carvalho

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este trabalho aplica técnicas de aprendizado de máquina para analisar e predizer a letalidade de acidentes nas rodovias federais do Sudeste do Brasil, visando identificar fatores de risco e desenvolver um modelo preditivo para orientar ações preventivas. A complexidade dos acidentes de trânsito, que envolvem uma interação multifatorial entre o comportamento humano, as condições do veículo, a infraestrutura viária e o ambiente, torna a análise de dados uma ferramenta indispensável para a segurança pública. A segurança viária no Brasil é um grave problema de saúde pública, com impactos sociais e econômicos devastadores. Segundo a Organização Mundial da Saúde (OMS, 2023), o país possui um dos maiores índices de mortes no trânsito em escala global, uma realidade que impõe custos anuais bilionários ao sistema de saúde, à previdência social e às famílias das vítimas.

A perda de vidas produtivas, os danos materiais e os traumas psicológicos geram um ciclo vicioso que afeta o desenvolvimento nacional. Dados recentes do Portal do Trânsito (2025) indicam que os óbitos em rodovias federais aumentaram 10% em 2024, totalizando mais de 6 mil vítimas, o que representa uma média alarmante de 16 mortes diárias. Essa tendência ascendente, mesmo diante de campanhas de conscientização e melhorias pontuais na infraestrutura, reforça a necessidade urgente de estratégias de prevenção mais eficazes, proativas e tecnologicamente avançadas, que superem as abordagens reativas tradicionais. A OMS (2023) enfatiza o uso de tecnologias emergentes, como a inteligência artificial e a modelagem preditiva, como pilares para a nova geração de políticas de segurança viária. A aplicação de aprendizado de máquina, ou Machine Learning, surge como uma abordagem particularmente promissora nesse contexto. Conforme destacam Hee et al.

(2024), os algoritmos de aprendizado de máquina são extremamente eficazes na previsão da gravidade de acidentes e na identificação de fatores de risco ocultos a partir de grandes volumes de dados heterogêneos. Diferentemente de métodos estatísticos tradicionais, que muitas vezes se baseiam em premissas lineares, os modelos de Machine Learning são capazes de capturar relações complexas e não lineares entre as variáveis, oferecendo uma compreensão mais profunda e precisa da dinâmica dos acidentes. A mineração de dados (data mining) é o processo fundamental que permite extrair conhecimento útil e anteriormente desconhecido de grandes bases de dados (Han, Kamber & Pei, 2011). No contexto da segurança viária, isso significa transformar registros brutos de ocorrências, muitas vezes subutilizados, em insights acionáveis.

Este estudo emprega um conjunto de técnicas de ciência de dados para analisar o histórico de acidentes, com o objetivo de fornecer subsídios concretos para gestores públicos, concessionárias de rodovias e autoridades policiais. A identificação de padrões de risco pode orientar a alocação de recursos de fiscalização, a implementação de melhorias de engenharia em pontos críticos e o desenvolvimento de campanhas de comunicação direcionadas a públicos e comportamentos específicos. A abordagem metodológica adotada neste estudo é multifacetada e foi desenhada para responder a diferentes questões de pesquisa. Primeiramente, a análise de agrupamento (clustering), uma técnica de aprendizado não supervisionado, é utilizada para segmentar os acidentes fatais em subgrupos com características internas semelhantes, sem qualquer conhecimento prévio sobre suas classes. O objetivo é descobrir se existem “perfis” ou “arquétipos” de acidentes fatais, como, por exemplo, colisões noturnas em trechos de reta ou saídas de pista durante feriados chuvosos.

Em seguida, um modelo supervisionado interpretativo, utilizando a técnica SHapley Additive exPlanations (SHAP), é desenvolvido para quantificar a contribuição marginal de cada variável na classificação de um acidente como fatal. Esta etapa utiliza todos os dados disponíveis, incluindo informações conhecidas apenas após o acidente (como o tipo de colisão ou o estado da vítima), para construir um modelo explicativo robusto que revele os principais determinantes da letalidade. Por fim, um modelo estritamente preditivo é construído utilizando apenas variáveis disponíveis ex-ante, ou seja, informações conhecidas antes da ocorrência do acidente, como características espaciais e temporais. O propósito deste último modelo é avaliar a viabilidade de se antecipar cenários de alto risco e permitir a alocação proativa de recursos, como patrulhamento ostensivo ou alertas em painéis eletrônicos. Este estudo se caracteriza como uma pesquisa aplicada, de natureza quantitativa e exploratória.

A base de dados primária foi obtida junto à Agência Nacional de Transportes Terrestres (ANTT, 2025) em abril de 2025, contendo um total de 404.578 registros de acidentes ocorridos em rodovias federais concedidas. O recorte temporal abrange o período de 1º de janeiro de 2010 a 31 de dezembro de 2024, após a remoção de dados parciais e incompletos referentes ao ano de 2025. A base de dados original foi enriquecida com a inclusão de um calendário de feriados nacionais, criando uma variável binária para identificar se o acidente ocorreu em um feriado ou em sua véspera, fatores conhecidos por alterarem os padrões de tráfego.

Para a etapa de análise não supervisionada, o agrupamento (clustering), foi empregado o algoritmo K-Prototypes. A escolha deste algoritmo foi motivada pela natureza mista do conjunto de dados, que contém tanto variáveis numéricas (como o quilômetro da ocorrência) quanto categóricas (como o tipo de acidente, a condição climática ou o dia da semana). Conforme proposto por Huang et al. (1997), o K-Prototypes é uma extensão do popular K-Means, que combina a distância euclidiana para atributos numéricos com uma métrica de dissimilaridade baseada na contagem de correspondências para atributos categóricos, tornando-o ideal para este tipo de problema. Antes da aplicação do algoritmo, as variáveis numéricas foram normalizadas pelo método Min-Max, que reescala os dados para o intervalo [0, 1], garantindo que nenhuma variável domine o cálculo da distância apenas por sua escala.

A determinação do número ideal de agrupamentos (k) foi realizada por meio do método Elbow (Bholowalia & Kumar, 2014), que analisa a variação da soma dos quadrados das distâncias intra-cluster em função do número de clusters. Após a formação dos grupos, a análise de variância (ANOVA) foi utilizada para validar estatisticamente as diferenças entre os clusters, verificando se as médias das variáveis numéricas e as distribuições das variáveis categóricas eram significativamente distintas entre os grupos formados.

Para a segunda etapa, focada em interpretar os fatores associados à letalidade, desenvolveu-se um modelo supervisionado de classificação utilizando o algoritmo Extreme Gradient Boosting (XGBoost). Este algoritmo foi escolhido por sua reconhecida alta performance e robustez em competições de ciência de dados e aplicações práticas, conforme documentado por Zhang, Jia e Shang (2022). O XGBoost é um método de ensemble baseado em árvores de decisão que constrói modelos de forma sequencial; cada nova árvore corrige os erros da anterior, resultando em um poder preditivo superior. O SHAP (SHapley Additive exPlanations), fundamentado na teoria dos jogos cooperativos de Shapley (1953), é um método que atribui um valor de importância a cada variável para cada predição individual, permitindo uma interpretação local e global consistente e confiável da influência de cada fator (Antonini et al., 2024).

Para o treinamento e validação deste modelo, a base de dados foi dividida aleatoriamente em 80% para treino e 20% para teste. A etapa final da metodologia consistiu no desenvolvimento de um modelo estritamente preditivo, cujo propósito é simular uma aplicação em tempo real para prevenção de acidentes.

Para este modelo, foram utilizadas apenas informações que estariam disponíveis ex-ante, ou seja, antes da ocorrência de um potencial acidente. Essas variáveis incluem a localização (rodovia, quilômetro, município), o sentido da via e informações temporais (ano, mês, dia da semana, hora do dia, se é feriado). Variáveis como “tipo de acidente”, “condição climática no momento” ou “número de veículos envolvidos” foram deliberadamente excluídas, pois não são conhecidas a priori. O algoritmo XGBoost foi novamente empregado devido à sua performance superior. A divisão dos dados para este modelo foi feita de forma cronológica: o período de 2010 a 2023 foi utilizado para treinamento e validação do modelo, enquanto o ano completo de 2024 foi reservado como um conjunto de teste “cego”, simulando como o modelo se comportaria ao prever os riscos para um período futuro.

Esta abordagem evita o vazamento de dados (data leakage) e fornece uma estimativa mais realista do desempenho do modelo em um cenário de implantação. Os resultados da análise de agrupamento com o algoritmo K-Prototypes, após aplicação do método Elbow, sugeriram a formação de quatro clusters distintos de acidentes fatais. O primeiro grupo, denominado “Colisões Noturnas de Alta Energia”, foi caracterizado predominantemente por colisões frontais e transversais, ocorrendo em trechos de pista simples e reta, durante a madrugada e envolvendo veículos de carga. O segundo cluster, “Acidentes em Condições Adversas”, agrupou ocorrências marcadas por saídas de pista e capotamentos, com alta incidência em dias de chuva e em trechos de curva. O terceiro grupo, “Vulnerabilidade em Finais de Semana”, concentrou acidentes envolvendo motociclistas e pedestres, com picos de ocorrência nas tardes de sábado e domingo, em perímetros urbanos das rodovias.

A análise de variância confirmou que as diferenças entre esses grupos eram estatisticamente significativas, validando a segmentação.

A análise do modelo interpretativo com XGBoost e SHAP revelou os fatores de maior impacto na probabilidade de um acidente ser fatal. O valor SHAP global indicou que a variável “tipo de acidente” foi, de longe, a mais influente. Especificamente, “colisão frontal” apresentou o maior valor SHAP positivo, aumentando drasticamente a chance de letalidade. Em seguida, fatores como “atropelamento de pedestre” e “saída de leito carroçável” também mostraram forte contribuição positiva. Por outro lado, variáveis relacionadas a medidas de segurança tiveram impacto negativo na letalidade, como o “uso do cinto de segurança” e a “presença de dispositivos de retenção para crianças”. Fatores contextuais como “noite” e “pista simples” também aumentaram o risco, enquanto “dia” e “pista dupla com canteiro central” o reduziram.

A análise local do SHAP permitiu entender casos individuais, mostrando como a combinação de múltiplos fatores de risco (ex: noite, chuva, pista simples, colisão frontal) resulta em uma predição de alta probabilidade de fatalidade. O desempenho do modelo estritamente preditivo, treinado apenas com variáveis ex-ante, demonstrou a viabilidade de antecipar cenários de risco. Ao ser testado no conjunto de dados de 2024, o modelo alcançou uma Área Sob a Curva ROC (AUC-ROC) de 0.82, indicando uma boa capacidade de discriminar entre acidentes que seriam fatais e os que não seriam. A matriz de confusão revelou um Recall de 0.75 para a classe “com morte”, significando que o modelo foi capaz de identificar corretamente 75% de todos os acidentes fatais que ocorreram.

Embora a Precisão para essa classe tenha sido menor, o alto valor de Recall é crucial para aplicações de segurança, onde é preferível ter alguns falsos positivos (alertar para um risco que não se concretiza) a ter falsos negativos (não alertar para um acidente que se torna fatal). As variáveis mais importantes para este modelo preditivo foram a “hora do dia”, o “dia da semana”, a “localização geográfica (quilômetro e rodovia)” e a variável “feriado”, confirmando que padrões temporais e espaciais são fortes indicadores de risco. A partir da análise integrada dos resultados, foi possível extrair conclusões práticas. Os perfis de acidentes identificados pelo clustering sugerem a necessidade de políticas de segurança customizadas.

Para o cluster 1, por exemplo, ações como a duplicação de trechos de pista simples e o aumento da fiscalização noturna sobre veículos de carga seriam eficazes.

Para o cluster 3, campanhas de conscientização focadas em motociclistas e a construção de passarelas em trechos urbanizados são prioritárias. Os insights do modelo SHAP reforçam a importância crítica de políticas universais, como a obrigatoriedade e fiscalização rigorosa do uso do cinto de segurança. Finalmente, o sucesso do modelo preditivo abre caminho para o desenvolvimento de sistemas de gestão de tráfego dinâmicos, que poderiam, por exemplo, alocar viaturas de patrulhamento para trechos específicos em horários de maior risco previsto, ou exibir mensagens de alerta em painéis eletrônicos, informando os motoristas sobre o aumento do perigo em determinadas condições.

Conclui-se que o objetivo foi atingido, pois o estudo não apenas identificou os fatores de risco, mas também demonstrou a viabilidade de um modelo preditivo funcional e propôs uma segmentação de acidentes que pode orientar políticas públicas de forma mais eficiente e direcionada.

Referências:
Agência Nacional de Transportes Terrestres [ANTT]. 2025. Acidentes rodoviários – Dados abertos. Disponível em: https://dados. gov. br. Acesso em: 06 mar. 2025.
Ampomah, E. K.; Qin, Z.; Nyame, G. 2020. Evaluation of tree-based ensemble machine learning models in predicting stock price direction of movement. Information 11(6): 332.
Antonini, A. S.; Tanzola, J.; Asiain, L.; Ferracutti, G. R.; Castro, S. M.; Bjerg, E. A.; Ganuza, M. L. 2024. Machine learning model interpretability using SHAP values: application to igneous rock classification task. Heliyon 10(3): e25901.
Bholowalia, P.; Kumar, A. 2014. EBK-means: a clustering technique based on elbow method and k-means in WSN. International Journal of Computer Applications 105(9): 17-24.
Fávero, L. P.; Belfiore, P. 2024. Manual de análise de dados: estatística e machine learning com Excel®, SPSS®, Stata®, R® e Python®. 2ed. LTC, Rio de Janeiro, RJ, Brasil.
Han, J.; Kamber, M.; Pei, J. 2011. Data Mining: Concepts and Techniques. 3ed. Morgan Kaufmann, Waltham, MA, USA.
Hee, L. V.; Khamis, N.; Noor, R. M.; Abdul Karim, S. A.; Puspitasari, P. 2024. Predicting fatality in road traffic accidents: a review on techniques and influential factors. p. 381-400. In: Abdul Karim, S. A. Intelligent systems modeling and simulation III. v. 553. Springer, Cham, Switzerland.
Huang, Z.; Ng, M. K.; Heng, P. C.; Chiu, D. T.; Zarei, A. 1997. Clustering large data sets with mixed numeric and categorical values. In: Proceedings of the 1st Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD). p. 21-34.
Liu, X.; Hu, Y.; Li, X.; Du, R.; Xiang, Y.; Zhang, F. 2024. An interpretable model for salinity inversion assessment of the South Bank of the Yellow River based on Optuna hyperparameter optimization and XGBoost. Agronomy 15(1): 18.
Organização Mundial da Saúde. 2023. Global status report on road safety 2023. OMS, Genebra, Suíça. Disponível em: https://www. who. int/publications/i/item/9789240077614. Acesso em: 06 mar. 2025.
Portal do Trânsito. 2025. Número de mortes nas rodoviárias federais cresce 10% em 2024. Disponível em: <https://www. portaldotransito. com. br/noticias/fiscalizacao-e-legislacao/estatisticas/numero-de-mortes-nas-rodovias-federais-cresce-10-em-2024/>. Acesso em: 06 mar. 2025.
Shapley, L. S. 1953. A value for n-person games. p. 307-317. In: Kuhn, H. W.; Tucker, A. W. (Ed.). Contributions to the theory of games. v. 2. Princeton University Press, Princeton, NJ, USA.
Zhang, P.; Jia, Y.; Shang, Y. 2022. Research and application of XGBoost in imbalanced data. International Journal of Distributed Sensor Networks 18(6): 15501329221106935. DOI: 10.1177/15501329221106935.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade