Imagem Avaliação comportamental e classificação de motoristas com telemetria e inteligência artificial

20 de fevereiro de 2026

Avaliação comportamental e classificação de motoristas com telemetria e inteligência artificial

Maria Izabel Menossi; Ana Beatriz Pereira Sette

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Em 2024, rodovias federais registraram 73.114 acidentes e 6.153 mortes, um crescimento de 9,6% em relação ao ano anterior (Confederação Nacional do Transporte [CNT], 2025). Esses números representam um ônus substancial para os setores público e privado, abrangendo despesas médicas, indenizações e perdas de produtividade (Carvalho, 2020). A Organização Pan-Americana da Saúde (OPAS, 2025) defende a combinação de melhorias na infraestrutura, fiscalização e educação contínua para o trânsito. O foco na formação comportamental dos condutores é um pilar fundamental, contribuindo para a redução de acidentes e a preservação de vidas (Faria e Braga, 1999; Sacramento et al., 2023).

Iniciativas como campanhas da Secretaria Nacional de Trânsito (SENATRAN, 2025) e estratégias de autoescolas (Observatório Nacional de Segurança Viária [ONSV], 2023) são ferramentas eficazes na construção dessa cultura, mas seu impacto é maximizado quando reforçado por monitoramento e feedback contínuos no ambiente de trabalho (Dias e Menezes Júnior, 2023). A tecnologia é um aliado nesse esforço. A integração de sistemas de Internet das Coisas (IoT) em veículos se consolidou como solução para a segurança rodoviária (Rodrigues, 2023; Silva e Santos, 2024). Tecnologias como controle de velocidade, frenagem de emergência e detecção de fadiga previnem comportamentos de risco e aprimoram a gestão de frotas (Bonfati, 2021). Montadoras como Volvo (2024) e Scania (2024) já incorporam sistemas avançados, mas seus altos custos e a dependência de tecnologias proprietárias limitam a adoção em larga escala (Fernandes e Sousa, 2023).

Essa barreira de entrada é particularmente relevante para pequenas e médias empresas de transporte, que compõem uma parcela significativa da frota nacional e muitas vezes operam com margens de lucro reduzidas, impossibilitando grandes investimentos em renovação de frota. Como alternativa, a combinação de telemetria veicular com IA, usando dispositivos de baixo custo, é uma solução acessível e aplicável a múltiplas marcas. Essa abordagem democratiza o acesso a tecnologias de segurança avançada, permitindo que veículos mais antigos ou de diferentes fabricantes sejam equipados com sistemas de monitoramento inteligentes. A telemetria, obtida por meio de dispositivos OBD-II (On-Board Diagnostics) e smartphones, monitora parâmetros como velocidade e aceleração, gerando informações para treinamentos específicos (Silva, 2020). A IA analisa esses dados em tempo real, oferecendo feedback imediato e personalizado, podendo integrar gamificação para engajar condutores (Alyamani et al., 2023).

Essas análises auxiliam gestores na redução de acidentes, economia de combustível e otimização da manutenção (Harris, 2024; Cordeiro e Kuehne, 2024), promovendo uma mudança cultural duradoura no comportamento dos motoristas. Foi utilizado o banco de dados público “POLIDriving: A Public-Access Driving Dataset for Road Traffic Safety Analysis” (Marcillo et al., 2024), coletado pelo Laboratório de Inteligência Artificial da Escuela Politécnica Nacional do Equador (EPN-AIL, 2023). O conjunto de dados contém 61 mil registros de condução naturalística, coletados ao longo de 18 horas em ambientes urbanos de Quito. Os dados foram obtidos via sensores On-Board Diagnostics (OBD-II) e Global Positioning System (GPS), com motoristas utilizando um Smartwatch para dados fisiológicos. A coleta envolveu cinco motoristas reais e um sintético em rotas com altos índices de acidentes.

Informações complementares sobre clima, acidentes e geometria viária foram integradas de fontes como Weather Service API (WS-API, 2023), Traffic Accident Database (TAD, 2023) e Road Geometrics Database (RGD, 2023). A escolha se justifica pela representatividade e granularidade do dataset, favorecendo a reprodutibilidade. A riqueza do dataset POLIDriving reside em sua natureza naturalística, que captura o comportamento dos motoristas em condições reais de tráfego, sem a artificialidade de estudos em simuladores. A fusão de múltiplas fontes de dados, incluindo dados cinemáticos do veículo (velocidade, RPM), fisiológicos do condutor (frequência cardíaca) e contextuais do ambiente (clima, geometria da via), permite uma análise holística dos fatores que influenciam o risco. Essa abordagem multimodal é fundamental para entender as complexas interações entre o motorista, o veículo e o ambiente, superando as limitações de análises baseadas apenas em dados de telemetria veicular.

A disponibilidade pública do dataset também promove a transparência e permite que outros pesquisadores validem e expandam os resultados aqui apresentados. O conjunto de dados foi submetido a um pré-processamento rigoroso para garantir a qualidade e a consistência dos dados utilizados na modelagem. Foram excluídas variáveis com mais de 50% de valores ausentes (heartrate, bodytemperature, steeringangle), pois a imputação de uma quantidade tão grande de dados poderia introduzir vieses significativos e comprometer a validade do modelo. Registros com dados nulos em variáveis de telemetria essenciais (speed, rpm, acceleration, throttleposition) também foram removidos, pois representam o núcleo da análise comportamental. A variável isdaytime foi reconstruída a partir do tempo (1 para diurno, 0 para noturno), permitindo a imputação de valores faltantes.

Para as demais variáveis, adotou-se a imputação pela média (numéricas) e moda (categóricas), uma técnica padrão para lidar com ausências esparsas. Variáveis com baixa variabilidade (hasprecipitation, currentweather) foram excluídas, pois não possuíam poder discriminatório suficiente para contribuir com o modelo. Ao final, obteve-se um conjunto de dados com 48.328 registros e 28 variáveis. Como o dataset original não possuía variável alvo, foi criada a variável dependente driverrisklevel por meio de uma heurística baseada em critérios de risco. A abordagem classificou os motoristas em perfis de risco conservador e agressivo. Uma função em Python classificou um condutor como agressivo se atendesse a pelo menos um dos seguintes critérios: velocidade (speed) superior a 110% da velocidade projetada da via (designspeed); aceleração (acceleration) superior a 2,5 m/s²; ou posição do acelerador (throttleposition) superior a 80%.

A escolha desses limiares não foi arbitrária; eles se baseiam em estudos de engenharia de tráfego e segurança viária que identificam tais eventos como indicadores de manobras de alto risco, associadas a maior probabilidade de colisão e maior consumo de combustível (Sun et al., 2020; Boylan et al., 2024). Essa rotulagem binária, fundamentada na literatura, reduz o viés de uma classificação manual e garante transparência e reprodutibilidade ao processo de criação da variável alvo.

Para a classificação, foram selecionados os algoritmos de aprendizado supervisionado Modelo Logístico Binário e Random Forest, equilibrando interpretabilidade e capacidade de modelar relações complexas. A Regressão Logística (Christensen, 1997) foi escolhida por sua simplicidade e pela facilidade de interpretação dos coeficientes, que permitem quantificar o impacto de cada variável na probabilidade de um motorista ser classificado como de risco. O Random Forest (Breiman, 2001), por sua vez, é um algoritmo de ensemble que constrói múltiplas árvores de decisão, sendo robusto a overfitting e capaz de capturar interações não lineares entre as variáveis, geralmente alcançando maior acurácia preditiva.

Para tratar o desbalanceamento de classes, a técnica Synthetic Minority Oversampling Technique (SMOTE) foi aplicada aos dados para o modelo logístico, enquanto o Random Forest utilizou o parâmetro class_weight=”balanced”. A aplicação de SMOTE no modelo logístico envolve a criação de exemplos sintéticos da classe minoritária (agressiva), equilibrando a distribuição e forçando o modelo a aprender as características desse grupo.

A análise da matriz de correlação de Pearson revelou uma correlação forte e positiva entre speed e rpm (0,90), o que é esperado, pois a rotação do motor aumenta com a velocidade do veículo. Variáveis de esforço do motor, como throttleposition e engineloadvalue, mostraram correlações moderadas com rpm, indicando que são bons proxies para a intensidade da condução. As variáveis meteorológicas apresentaram correlações fracas com os indicadores de desempenho, justificando a exclusão de barometricpressure, que não demonstrou relação relevante com o comportamento de condução.

Observou-se uma correlação negativa entre accidents_onsite e speed (-0,45), sugerindo que velocidades mais baixas podem estar associadas a locais de maior risco, possivelmente devido a congestionamentos ou à presença de sinalização que induz à redução da velocidade em pontos críticos. A heurística de rotulagem resultou em uma distribuição desbalanceada: dos 48.328 registros, 7.759 (16%) foram classificados como agressivos e 40.569 (84%) como conservadores. Esse desequilíbrio, esperado em estudos de detecção de risco; eventos anômalos são naturalmente menos frequentes, pode induzir os modelos a favorecer a classe majoritária, comprometendo a identificação de casos de risco. Um modelo treinado com dados desbalanceados pode alcançar uma alta acurácia simplesmente ao prever a classe majoritária na maioria das vezes, mas falhará em seu objetivo principal, que é identificar os motoristas perigosos. Isso reforçou a necessidade de adotar estratégias de balanceamento para garantir a sensibilidade à classe minoritária, de maior interesse para a segurança viária.

Os resultados do Modelo Logístico Binário evidenciaram o impacto do balanceamento. O modelo treinado com dados desbalanceados alcançou alta especificidade (95,2%), mas baixa sensibilidade (36,8%), falhando em detectar a maioria dos motoristas agressivos. Após a aplicação do SMOTE, o modelo balanceado melhorou a sensibilidade para 85,1%, com uma redução na especificidade para 77,4%. Esse trade-off é preferível em aplicações de segurança, pois é melhor ter falsos positivos (classificar um motorista seguro como de risco e investigá-lo desnecessariamente) do que não identificar motoristas de risco (falsos negativos), o que poderia levar a acidentes evitáveis. O Pseudo R² aumentou de 0,3474 para 0,4264, indicando maior poder explicativo do modelo balanceado. Por outro lado, variáveis como a presença de acidentes no local (accidents_onsite) apresentaram um coeficiente negativo, alinhado com a análise de correlação, sugerindo que em locais historicamente perigosos, os motoristas tendem a adotar uma postura mais cautelosa.

Essa interpretabilidade é valiosa para gestores de frota, pois permite entender quais comportamentos específicos devem ser alvo de programas de treinamento e conscientização. As curvas ROC para os modelos logísticos confirmaram sua capacidade discriminativa, com valores de AUC de 0,8867 (desbalanceado) e 0,8868 (balanceado). Embora a diferença no AUC seja mínima, o ganho em sensibilidade reforça a superioridade do modelo balanceado. As matrizes de confusão mostraram que o modelo desbalanceado gerou muitos falsos negativos, enquanto o balanceado reduziu drasticamente esse erro, ao custo de mais falsos positivos.

Para um sistema de prevenção; o custo de um falso negativo (um acidente não previsto) é muito maior que o de um falso positivo (um alerta desnecessário), o modelo balanceado é a escolha mais adequada. O modelo Random Forest apresentou desempenho superior. Após um processo de ajuste de hiperparâmetros (RandomizedSearchCV e GridSearchCV), o modelo final, treinado com class_weight=”balanced”, demonstrou excelente capacidade preditiva. No conjunto de teste, com ponto de corte de 0,5, alcançou sensibilidade de 94,5%, especificidade de 97,2%, acurácia de 96,8% e F1-score de 0,906. A área sob a curva ROC foi de 0,993 no teste e 0,999 no treino, indicando poder discriminatório quase perfeito e ausência de sobreajuste. Esses resultados demonstram que o Random Forest foi capaz de aprender padrões mais complexos e não lineares nos dados, superando significativamente o modelo logístico em todas as métricas de avaliação relevantes para o problema.

A análise de importância das variáveis no Random Forest revelou que atributos de desempenho do motor foram os mais determinantes. A variável throttleposition foi a mais importante, seguida por rpm, acceleration e speed. Isso indica que a forma como o motorista interage diretamente com os controles do veículo (acelerador) é o principal preditor de um comportamento de risco. Variáveis contextuais, como o tipo de via (highway) e a velocidade projetada (designspeed), também mostraram relevância, mas em menor grau. Fatores ambientais, como temperatura e umidade, tiveram importância residual, sugerindo que, para este conjunto de dados, o estilo de condução individual prevalece sobre as condições externas na determinação do risco. Este estudo demonstrou com sucesso a aplicação de modelos de IA para classificar o risco de motoristas com base em dados de telemetria.

A comparação entre Regressão Logística e Random Forest destacou a superioridade do segundo em termos de poder preditivo, alcançando métricas de desempenho quase perfeitas. A importância de técnicas de balanceamento de dados, como SMOTE, foi crucial para garantir que os modelos fossem sensíveis à classe minoritária de motoristas de risco. Os resultados indicam que a análise de variáveis como posição do acelerador, rotação do motor e aceleração é fundamental para identificar comportamentos agressivos. A metodologia proposta oferece uma ferramenta de baixo custo e alta eficácia para gestores de frota, permitindo intervenções proativas e personalizadas.

Conclui-se que o objetivo foi atingido.

Referências:
Alyamani, H.; Alharbi, N.; Roboey, A.; Kavakli, M. 2023. The impact of gamifications and serious games on driving under unfamiliar traffic regulations. Applied Sciences 13(5): 1-14.
Bianchi, S. A.; Antunes, T. H.; Bannach, E. L.; de Melo, J. C. Z. L.; Weis., L. C. G. 2021. Promoção de comportamento seguro no trânsito: relato de uma Intervenção. Psicologia: Controle e Profissão 41: 1-15.
Bonfati, L. V. 2021. Análise do comportamento do motorista baseado em aquisição de dados veiculares e instrumentação adicional do veículo. Dissertação de Mestrado em Engenharia Elétrica. Universidade Tecnológica Federal do Paraná, Ponta Grossa, PR, Brasil.
Boylan, J.; Meyer, D.; Chen, W. S. 2024. A systematic review of the use of in-vehicle telematics in monitoring driving behaviours. Accident Analysis & Prevention 199: 107519.
Breiman, L. 2001. Random Forests. Machine Learning 45(1): 5-32.
Cabral, L. A.; Araújo, R. C. G.; Mendonça, G. S.; Pelazza, B. B.; Paula, C. R. 2021. Estratégia intersetorial de educação no trânsito: relato de experiência. Revista Em Extensão 20(1): 137-146.
Carvalho, C. H. R. 2020. Custos dos acidentes de trânsito no Brasil: estimativa simplificada com base na atualização das pesquisas do IPEA sobre custos de acidentes nos aglomerados urbanos e rodovias. Disponível em: <https://www. ipea. gov. br/atlasviolencia/arquivos/artigos/7018-td2565. pdf>. Acesso em: 31 mar. 2025.
Christensen, R. 1997. Log-Linear Models and Logistic Regression. 2ed. Springer New York, NY, EUA.
Confederação Nacional do Transporte [CNT]. 2025. Panorama CNT de acidentes rodoviários – principais dados 2024. Disponível em: <https://www. cnt. org. br/painel-acidente>. Acesso em: 31 mar. 2025.
Conselho Federal de Psicologia [CFP]. 2016. Psicologia do tráfego: características e desafio no contexto do MERCOSUL. Disponível em: <https://site. cfp. org. br/wp-content/uploads/2016/08/CFPLivroPsicologiaTrafegoweb12set16-2. pdf>. Acesso em: 31 mar. 2025.
Cordeiro, V. C.; Kuehne, B. T. 2024. Modelagem de comportamento de motoristas por meio de dados gerados por telemetria. In: VI Simpósio de Iniciação Científica, 2023, Itajubá, MG, Brasil. Anais do VI Simpósio de Iniciação Científica.
Dias, F. E.; Menezes Júnior, J. M. P. 2023. Aplicação de AutoML em técnicas de aprendizado de máquina para classificação de motoristas. In: XVI Congresso Brasileiro de Inteligência Computacional – CBIC, 2023, Salvador, BA, Brasil. Anais do XVI Congresso Brasileiro de Inteligência Computacional p. 1-7.
Ellison, A. B.; Greaves, S. P.; Bliemer, M. C. J. 2015. Driver behaviour profiles for road safety analysis. Accident Analysis & Prevention 76: 118-132.
Escuela Politécnica Nacional – Artificial Intelligence Lab [EPN-AIL]. 2023. Conjunto de dados coletado para o projeto POLIDriving. Dados não publicados formalmente. Acesso em: 6 mai. 2025.
Faria, E. de O.; Braga, M. G. de C. 1999. Propostas para minimizar os riscos de acidentes de trânsito envolvendo crianças e adolescentes. Ciência & Saúde Coletiva 4(1): 95-107.
Fávero, L. P. 2019. Machine Learning e modelos supervisionados: o uso correto do GLM na tomada de decisão. Disponível em: <https://itforum. com. br/colunas/machine-learning-e-modelos-supervisionados-o-uso-correto-do-glm-na-tomada-de-decisao>. Acesso em: 6 mai. 2025.
Fernandes, R.; Sousa, T. 2023. Desafios na adoção de tecnologias avançadas de segurança veicular: custos, interoperabilidade e capacitação. Revista Transporte & Tecnologia 12(1): 45-60.
Harris, L. 2024. Telematics and big data: revolutionizing fleet management in the automotive industry. ResearchGate. Disponível em: <https://www. researchgate. net/publication/386112807
TelematicsandBigDataRevolutionizingFleetManagementintheAutomotiveIndustry/>. Acesso em: 31 mar. 2025.
Lemos, F. G. H.; Pinto, I. M. B. S.; Santa Rita, L. P. 2019. Políticas públicas de redução dos acidentes de trânsito: análise multivariada na BR-101 em Alagoas. Revista de Políticas Públicas 23(1): 191-21.
Marcillo, P.; Arciniegas-Ayala, C.; Valdivieso Caraguay, a. L.; Sanchez-Gordon, S.; Hernández-Álvarez, M. 2024. POLIDriving: A Public Access Driving Dataset for Road Traffic Safety Analysis. Applied Sciences 14(4): 6300.
Medeiros, M. A. 2023. Abordagem para avaliar o comportamento do motorista em tempo real com TinyML. Trabalho de Conclusão de Curso em Engenharia de Computação. Universidade Federal do Rio Grande do Norte, Natal, RN, Brasil.
Observatório Nacional de Segurança Viária [ONSV]. 2023. Maio amarelo – “No trânsito, escolha a vida”. Disponível em: <https://www. onsv. org. br/maioamarelo/galeria-de-acoes/maio-amarelo-no-transito-escolha-a-vida-3? utm_source=chatgpt. com>. Acesso em: 6 mai. 2025.
Oliveira, L. M.; Gomes, D. R. 2023. Aplicações de inteligência artificial e sensores de baixo custo para segurança viária. Revista Brasileira de Engenharia de Transportes 29(2

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade