
12 de fevereiro de 2026
Aplicação de XGBoost para análise preditiva de sinistros em seguros automotivos
Victor Silva Tona de Abranches; José Erasmo Silva
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este estudo aplica o algoritmo de aprendizado de máquina XGBoost para desenvolver um modelo preditivo para a contagem de sinistros em seguros automotivos, usando dados abertos da Superintendência de Seguros Privados (SUSEP). O objetivo é identificar as variáveis mais determinantes na ocorrência de sinistros e avaliar o modelo com métricas de desempenho consagradas, visando otimizar a precificação de prêmios e a gestão de riscos. A análise busca superar as limitações de modelos estatísticos tradicionais, como a regressão de Poisson, ao lidar com um grande volume de dados caracterizado por complexidade, superdispersão e excesso de zeros, demonstrando a eficácia do gradient boosting em cenários atuariais.
A precisão na avaliação de riscos é crítica para a sustentabilidade das seguradoras automotivas (Hosein, 2024), pois a precificação de apólices e as provisões técnicas dependem da estimativa acurada da frequência e severidade dos sinistros. A disponibilidade de grandes volumes de dados impulsionou a transição de modelos estatísticos convencionais para abordagens de aprendizado de máquina (Hanafy & Ming, 2021), que capturam padrões não lineares e interações complexas entre variáveis, frequentemente não modeladas por métodos tradicionais.
Tradicionalmente, seguradoras utilizaram Modelos Lineares Generalizados (GLM), como a regressão de Poisson e a Binomial Negativa, para modelar a frequência de sinistros (Gao et al., 2019). Contudo, esses modelos possuem premissas, como a equidispersão (média igual à variância), que dados reais frequentemente não atendem. Estudos demonstram que algoritmos de ensemble, como o XGBoost, superam abordagens tradicionais em precisão preditiva e generalização (McDonnell et al., 2023; Staudt & Wagner, 2021), por sua capacidade de lidar com alta dimensionalidade, valores ausentes e relações complexas sem transformações manuais extensivas das variáveis.
Além da acurácia, a interpretabilidade é crucial. Ferramentas como SHapley Additive exPlanations (SHAP) são indispensáveis para explicar modelos “caixa-preta” como o XGBoost, permitindo a compreensão do impacto de cada variável na previsão (Soriano-Gonzalez et al., 2024). A literatura também explora a incorporação de novas fontes de dados, como informações telemáticas e geoespaciais, para enriquecer os modelos e personalizar a precificação, alinhando-a ao comportamento do condutor e às condições ambientais (Alfiero et al., 2022; Adland et al., 2021).
Este trabalho investiga a aplicação do XGBoost em um grande conjunto de dados públicos do mercado brasileiro. O estudo busca não apenas construir um modelo de alta performance, mas também interpretar seus resultados para aprofundar a compreensão dos fatores de sinistralidade. A análise das variáveis, desde características do veículo e do condutor até a importância segurada, visa oferecer uma contribuição prática para uma gestão de portfólio mais eficiente e uma precificação mais justa, refletindo desafios contemporâneos do setor, como as mudanças de comportamento observadas durante a pandemia de COVID-19 (Costa & Yukie, 2024; Monteiro et al., 2024).
A metodologia é quantitativa e aplicada, baseada na modelagem preditiva de dados secundários. A fonte foi o banco de dados aberto da SUSEP, especificamente o arquivo arqcascocomp do sistema AUTOSEG, referente ao segundo semestre de 2020. O conjunto de dados inicial continha 3.390.758 registros e 22 variáveis, agregados por uma chave composta de “Categoria Tarifária/Região/Modelo/Ano/Sexo/Faixa Etária”, fornecendo uma base empírica robusta.
A preparação dos dados incluiu a remoção de colunas nulas (EXPOSICAO2, PREMIO2) e de registros sem ocorrência de sinistro, focando a análise nos grupos que contribuíram para a sinistralidade. Na variável SEXO, as categorias “J – pessoa jurídica” e “0 – sem informação” foram consolidadas, mantendo-se apenas “M – masculino” e “F – feminino” para simplificar o modelo e focar em condutores individuais.
O algoritmo XGBoost foi escolhido por sua eficiência e performance (Chen & Guestrin, 2016). Modelos clássicos como a regressão de Poisson foram considerados inviáveis devido a limitações computacionais com o volume de dados (mais de 2 milhões de linhas após a limpeza) e pela presença de superdispersão e excesso de zeros, que violam suas premissas. O XGBoost, baseado em gradient boosting, é mais robusto para tais cenários, pois treina árvores de decisão sequencialmente; cada árvore corrige os erros da anterior (Khusna & Murfi, 2020). Para a modelagem, as colunas de frequência (FREQSIN1 a FREQSIN9) foram somadas na variável-alvo FREQ_TOTAL. Variáveis categóricas foram convertidas para o formato dummy (one-hot encoding) para compatibilidade com o algoritmo e para a análise SHAP.
O desempenho do modelo foi avaliado com quatro métricas. O Erro Absoluto Médio (MAE) mediu o erro médio absoluto da previsão. A Raiz do Erro Quadrático Médio (RMSE) foi usada para penalizar erros maiores, sendo sensível a outliers. O Coeficiente de Determinação (R²) avaliou a proporção da variância explicada pelo modelo. Por fim, a Mean Tweedie Deviance (MTD) foi selecionada por sua adequação teórica a problemas de contagem em contextos atuariais, medindo o ajuste do modelo à distribuição esperada dos dados, sendo robusta em cenários com excesso de zeros e assimetria (Dunn & Smyth, 2005).
A análise exploratória da variável SEXO mostrou predominância de sinistros registrados por condutores masculinos (1.494.225 ocorrências) sobre os femininos (1.087.647). O resultado pode refletir maior exposição ao risco ou maior representatividade masculina na frota segurada, indicando que o gênero permanece um fator de segmentação relevante.
A distribuição de sinistros por categoria tarifária (COD_TARIF) demonstrou concentração na categoria “1 – Passeio nacional”, com 1.558.919 sinistros (aproximadamente 65% do total), o que é esperado pela dominância desses veículos na frota brasileira. Em seguida, destacaram-se as categorias “3 – Pick-up” (591.995) e “2 – Passeio importado” (248.018). Veículos de uso comercial, como “4 – Veículo de carga” (45.839) e “6 – Ônibus” (2.036), apresentaram frequências menores.
A análise por modelo de veículo (COD_MODELO) indicou que a categoria “Outros” liderou em ocorrências (16.301), sinalizando a necessidade de maior padronização nos dados. Entre os modelos específicos, o Toyota Corolla (5.881) apresentou a maior frequência, consistente com sua popularidade e histórico de roubo e furto. Modelos como Chevrolet Montana (5.341), Honda Fit (5.276) e Fiat Strada (5.159) também figuraram entre os mais frequentes, correlacionando a popularidade do modelo à sua exposição ao risco.
A análise da variável IDADE revelou que a faixa etária com maior número de sinistros foi a de “Maior que 55 anos” (638.087), seguida por “Entre 36 e 45 anos” (622.766). A faixa mais jovem, “Entre 18 e 25 anos” (153.023), apresentou a menor frequência. Este resultado sugere que, embora jovens possam ter uma taxa de sinistralidade por quilômetro rodado mais alta, a maior quantidade de veículos segurados e a maior exposição ao risco concentram-se nas faixas etárias mais avançadas.
A análise por ano do modelo do veículo (ANO_MODELO) mostrou uma concentração de sinistros em veículos mais recentes. O ano de 2019 liderou com 209.942 ocorrências, seguido por 2014 (207.606) e 2018 (206.566). Este padrão pode ser explicado pelo maior valor de mercado dos veículos novos, tornando-os alvos atrativos para roubo e furto, e pela sua maior presença nas ruas, que aumenta a probabilidade de acidentes.
O modelo XGBoost apresentou um desempenho preditivo robusto, com R² de 0,7830, explicando 78,3% da variabilidade na contagem de sinistros. O MAE foi de 0,8244, indicando que o modelo erra, em média, menos de um sinistro por grupo. O RMSE de 2,473, superior ao MAE, aponta a existência de previsões com erros maiores em agrupamentos específicos, sugerindo dificuldade em prever eventos de cauda ou grupos de altíssimo risco. A Mean Tweedie Deviance de 2,3438 corrobora a adequação geral do modelo, mas indica espaço para refinamentos.
A interpretabilidade via análise SHAP revelou a Importância Segurada Média (ISMEDIA) e o ANOMODELO como os fatores de maior impacto. O gráfico SHAP demonstrou que valores altos de ISMEDIA estão fortemente associados a um aumento na previsão de sinistros. Este resultado é alinhado à prática atuarial, pois veículos de maior valor representam maior risco financeiro, são alvos de roubo e têm custos de reparo mais elevados. A ISMEDIA atua como proxy para o nível socioeconômico e o valor do bem, sendo um preditor fundamental (Wu et al., 2020). O ANO_MODELO exibiu um impacto significativo e complexo: veículos mais antigos tendem a ter contribuições negativas para a previsão, enquanto os mais novos apresentam maior dispersão. Isso sugere um equilíbrio; veículos antigos podem ter mais falhas mecânicas, mas seu menor valor desincentiva a comunicação de sinistros, e veículos novos, apesar de mais seguros, têm maior exposição e valor agregado. A análise SHAP visualizou essa dinâmica, fornecendo insights que superam a correlação linear.
Este estudo demonstrou a eficácia do XGBoost para modelar a frequência de sinistros com dados da SUSEP. O modelo apresentou desempenho preditivo superior ao de abordagens tradicionais, capturando relações complexas. A análise de interpretabilidade via SHAP validou os resultados e confirmou a Importância Segurada Média e o ano do modelo do veículo como os principais determinantes da sinistralidade, reforçando práticas de mercado com uma compreensão quantificada do impacto de cada variável.
As implicações práticas para as seguradoras incluem uma segmentação de risco mais refinada, resultando em precificação mais justa e competitiva. A identificação precisa de perfis de risco otimiza a alocação de capital para provisões técnicas e melhora as estratégias de subscrição. A interpretabilidade do modelo garante que as decisões de negócio sejam baseadas em evidências transparentes. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação do algoritmo XGBoost sobre dados da SUSEP permite a criação de um modelo preditivo robusto para a contagem de sinistros, identificando a Importância Segurada Média e o ano do modelo do veículo como as variáveis de maior impacto.
Referências:
Adland, R., Jia, H., Lode, T., & Skontorp, J. (2021). The value of meteorological data in marine risk assessment. Reliability Engineering and System Safety, 209. https://doi. org/10.1016/j. ress.2021.107480
Alfiero, S., Battisti, E., & Ηadjielias, E. (2022). Black box technology, usage-based insurance, and prediction of purchase behavior: Evidence from the auto insurance sector. Technological Forecasting and Social Change, 183. https://doi. org/10.1016/j. techfore.2022.121896
Chen, T, & Guestrin, C. (2016). XGBoost: A Scalable Tree Boosting System. KDD ’16 Proceedings of the 22th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 785-794. https://doi. org/10.1145/2939672.2939785
Costa, R. E., & Yukie, D. (2024). Sinistralidade no mercado de seguros de automóvel: CAFI, 7(2), 209– 228. https://doi. org/10.23925/cafi.72.68113
Dunn, P. K., & Smyth, G. K. (2005). Series evaluation of Tweedie exponential dispersion model densities. Stat Comput, 15, 267– 280. https://doi. org/10.1007/s11222-005-4070-y
Gao, G., Meng, S., & Wüthrich, M. V. (2019). Claims frequency modeling using telematics car driving data. Scandinavian Actuarial Journal, 2019(2), 143– 162. https://doi. org/10.1080/03461238.2018.1523068
Gschlößl, S., & Czado, C. (2007). Spatial modelling of claim frequency and claim size in non-life insurance. Scandinavian Actuarial Journal, 2007(3), 202– 225. https://doi. org/10.1080/03461230701414764
Hanafy, M., & Ming, R. (2021). Machine learning approaches for auto insurance big data. Risks, 9(2), 1– 23. https://doi. org/10.3390/risks9020042
Hosein, P. (2024). A data science approach to risk assessment for automobile insurance policies. International Journal of Data Science and Analytics, 17(1), 127– 138. https://doi. org/10.1007/s41060-023-00392-x
Khusna, W. & Murfi, H. (2020). An analysis of the proportion of feature subsampling on XGBoost – A case study of claim prediction in car insurance. AIP Conference Proceedings, 2296, 020058. https://doi. org/10.1063/5.0031366
Li, M., Sun, Y., Wang, X., & Shi, Y. (2021). Research on the Model of UBI Car Insurance Rates Rating Based on CNN-Softmax Algorithm. IOP Conference Series: Earth and Environmental Science, 1802(3). https://doi. org/10.1088/1742-6596/1802/3/032071
McDonnell, K., Murphy, F., Sheehan, B., Masello, L., & Castignani, G. (2023). Deep learning in insurance: Accuracy and model interpretability using TabNet. Expert Systems with Applications, 217. https://doi. org/10.1016/j. eswa.2023.119543
Monteiro, A. C. da S., Dantas, W. L. dos R., Andrade, M. O. de, & Santos, E. M. dos. (2024). Impacto da pandemia da COVID-19 nos sinistros de trânsito e mortalidade nas rodovias federais brasileiras. Caderno Pedagógico, 21(6), e4612. https://doi. org/10.54033/cadpedv21n6-163
Soriano-Gonzalez, R., Tsertsvadze, V., Osorio, C., Fuster, N., Juan, A. A., & Perez-Bernabeu, E. (2024). Balancing Risk and Profit: Predicting the Performance of Potential New Customers in the Insurance Industry. Information, 15(9), 546. https://doi. org/10.3390/info15090546
Staudt, Y., & Wagner, J. (2021). Assessing the performance of random forests for modeling claim severity in collision car insurance. Risks, 9(3). https://doi. org/10.3390/risks9030053
Wu, W. J., Li, C. S., & Peng, S. C. (2020). The relationships between vehicle characteristics and automobile accidents. Risk Management and Insurance Review, 23(4), 331– 377. https://doi. org/10.1111/rmir.12163
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































