Imagem Previsão de sinistros automotivos com modelos de contagem inflados em zero

04 de março de 2026

Previsão de sinistros automotivos com modelos de contagem inflados em zero

Bruno Baptista Guerra; Patrícia Belfiore Fávero

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

A busca por proteção do patrimônio, especialmente no que tange aos veículos automotores, tornou-se uma prioridade crescente diante da escalada de riscos urbanos, como colisões e furtos. Esse cenário impulsiona o mercado de seguros no Brasil, que apresenta taxas de crescimento consistentes, conforme apontado pela Confederação Nacional das Seguradoras (Confederação Nacional das Seguradoras, 2024). A precificação correta dos prêmios de seguro é o pilar de sustentação das seguradoras, exigindo modelos que equilibrem a competitividade comercial com a solvência financeira. Segundo a Superintendência de Seguros Privados, o contrato de seguro permite a transferência de riscos mediante o pagamento de um prêmio, mas a exatidão desse cálculo depende da capacidade de prever a frequência e a severidade dos sinistros (Superintendência de Seguros Privados, 2006). A incerteza inerente aos eventos futuros exige o uso de ferramentas estatísticas robustas que considerem não apenas o perfil do segurado, mas também as características do veículo e o contexto geográfico (Bernstein, 1997).

Na gestão de seguros não vida, a aplicação de modelos lineares generalizados e técnicas de aprendizado de máquina tem se consolidado como o padrão para a segmentação de riscos (Spedicato et al., 2018). No entanto, um desafio estatístico persistente na modelagem de sinistros automotivos é a distribuição das contagens, que frequentemente apresenta um excesso de zeros. Isso ocorre porque a grande maioria das apólices vigentes não registra nenhum sinistro durante o período de cobertura. Para lidar com essa assimetria e com a sobredispersão dos dados, surgem os modelos de contagem inflados em zero, como o Poisson inflado em zero e o binomial negativa inflado em zero (Lambert, 1992). Esses modelos permitem tratar separadamente a probabilidade de não ocorrência do evento e a frequência esperada quando o sinistro ocorre, ajustando-se melhor à realidade das carteiras de seguros (Lawless, 1987).

A literatura acadêmica demonstra que a escolha do modelo impacta diretamente a precisão das provisões técnicas. Pesquisas anteriores utilizaram análise discriminante para identificar variáveis de incidência (Filho e Lugon, 2004) e redes neurais bayesianas para a detecção de fraudes (Viaene et al., 2005). Em estudos comparativos, a distribuição binomial negativa frequentemente supera a de Poisson ao lidar com a variância superior à média (Delgado, 2011). Mais recentemente, abordagens bayesianas têm sido aplicadas para perfilar riscos em ambientes de dados desbalanceados, reforçando a necessidade de métodos que segmentem veículos com maior probabilidade de acionamento (Pala et al., 2022). O objetivo central desta análise reside em definir qual modelo estatístico capta com maior fidelidade o risco de sinistros, avaliando o desempenho das especificações infladas em zero em bases com alta proporção de nenhuma ocorrência, além de investigar a influência de fatores humanos e contratuais na sinistralidade (Martins, 2012).

O processo metodológico fundamenta-se na extração e tratamento de dados do sistema de estatísticas de automóveis da Superintendência de Seguros Privados, especificamente do repositório gratuito denominado Autoseg (Superintendência de Seguros Privados, 2021). O conjunto de dados selecionado compreende os registros do segundo semestre de 2020, representando o intervalo mais recente e completo disponível no momento da coleta. A estrutura dos dados é organizada por meio de variáveis que descrevem o perfil do segurado, as características técnicas do veículo e a região de circulação. A tabela principal utilizada, identificada como arquivo de casco e componentes, consolida informações de exposição, prêmios, frequência de sinistros e importância segurada para a cobertura de casco. Esses dados são indexados por uma chave composta que une categoria tarifária, região, modelo, ano do veículo, sexo e faixa etária do condutor.

A preparação da base de dados envolveu etapas rigorosas de limpeza e agregação para garantir a integridade das análises. Inicialmente, o conjunto contava com 1.324.882 registros. Foram selecionadas apenas as combinações com exposição superior a zero, resultando em 1.263.803 observações. Após a remoção de registros com valores ausentes, obteve-se uma base depurada com 957.945 linhas. Para mitigar distorções causadas por valores extremos, aplicou-se um filtro baseado no percentil 95, excluindo carteiras que registrassem dez ou mais sinistros no período. A amostra final para a modelagem totalizou 896.713 registros. A variável dependente de interesse foi definida como o total de sinistros registrados, abrangendo roubo, furto, colisão parcial, perda total e incêndio. Cada linha da base representa, portanto, uma carteira específica caracterizada pela combinação única das variáveis categóricas.

A ferramenta computacional adotada para o processamento e modelagem foi a linguagem Python, seguindo a lógica de transformação de dados em conhecimento para suporte à decisão (Fávero, 2017). A modelagem estatística percorreu quatro especificações principais: Poisson, binomial negativa, Poisson inflada em zero e binomial negativa inflada em zero. O modelo de Poisson inflado em zero assume que o excesso de zeros provém de dois processos distintos: um que gera zeros estruturais com probabilidade p e outro que segue uma distribuição de Poisson para as contagens positivas (Johnson e Kotz, 1969). Essa estrutura é formalizada por uma função de probabilidade composta que permite ao modelo ajustar a massa de probabilidade no valor zero de forma independente da média da distribuição (Heilbron, 1994).

Para a especificação da binomial negativa inflada em zero, a lógica conceitual é análoga, mas a distribuição de contagem permite acomodar a sobredispersão por meio de um parâmetro de dispersão adicional (Lawless, 1987). No contexto deste estudo, a probabilidade de não ocorrência de sinistro é estimada por um componente logístico, enquanto o número esperado de eventos é modelado por um componente de contagem com ligação logarítmica. As variáveis qualitativas passaram por um processo de redistribuição baseado no critério de entropia, utilizando árvores de decisão de única divisão para agrupar categorias com comportamentos de risco semelhantes. Esse procedimento otimiza o ganho de informação e favorece o desempenho preditivo dos modelos subsequentes. A seleção final das variáveis explicativas nos modelos inflados seguiu o método de eliminação retroativa, mantendo apenas os preditores com significância estatística ao nível de 10 %.

A análise descritiva dos resultados revela transformações profundas no perfil da frota segurada quando comparada a períodos anteriores. Observou-se uma renovação expressiva, com veículos fabricados entre 2010 e 2020 representando 71,8 % da amostra, um salto considerável em relação aos 12 % registrados em levantamentos de uma década atrás (Zaniboni e Montini, 2015). No que tange à categoria tarifária, os veículos de passeio nacional dominam o cenário com 49,9 % de participação, enquanto os importados recuaram para 15 %. O perfil demográfico também apresentou mudanças, com as mulheres passando a representar 48,9 % dos condutores, evidenciando a necessidade de recalibragem constante dos modelos de risco para refletir a nova realidade social e econômica.

Os dados financeiros indicam uma tendência de pulverização do risco. O número médio de veículos expostos por carteira recuou de 3,70 para 2,88, sugerindo uma base de clientes mais fragmentada. Embora a importância segurada média tenha se elevado, refletindo a valorização dos ativos automotivos, o prêmio pago médio apresentou queda, o que pode ser atribuído a estratégias comerciais mais agressivas ou a uma melhor seleção de riscos pelas companhias. A distribuição da variável dependente confirmou a predominância de zeros, com 72,06 % das carteiras sem registro de sinistros no semestre analisado. A média de sinistros por carteira fixou-se em 0,82, mas, nos casos onde houve ocorrência, a média subiu para 2,95, com uma variância de 5,02, o que justifica tecnicamente a adoção de modelos que tratam a sobredispersão.

Na avaliação dos modelos de contagem clássicos, a regressão de Poisson apresentou um pseudo coeficiente de determinação de 0,474. Variáveis como idade do condutor e idade do veículo mostraram-se estatisticamente significativas, elevando a frequência esperada de sinistros. Por outro lado, a importância segurada média apresentou uma associação inversa, indicando que veículos de maior valor unitário tendem a registrar menos acionamentos por unidade de exposição. O modelo binomial negativa superou a especificação de Poisson com um pseudo coeficiente de determinação de 0,509, confirmando que a inclusão do parâmetro de dispersão melhora a capacidade explicativa diante da variabilidade dos dados de seguros.

A transição para os modelos inflados em zero proporcionou ganhos substanciais de ajuste. O modelo de Poisson inflado em zero atingiu um pseudo coeficiente de determinação de 0,8439, um valor significativamente superior às versões não infladas. Esse resultado demonstra que a separação entre o regime de zeros estruturais e o regime de contagem é fundamental para descrever o comportamento da sinistralidade. Na etapa logística desse modelo, identificou-se que condutores na faixa etária entre 18 e 25 anos possuem menor probabilidade de pertencer ao grupo de zero sinistros, reforçando o perfil de maior risco associado à juventude. Veículos mais antigos também foram associados a uma menor probabilidade de ausência de sinistros, contrastando com padrões observados em estudos de anos anteriores (Zaniboni e Montini, 2015).

O modelo binomial negativa inflado em zero apresentou o maior poder explicativo teórico, com um pseudo coeficiente de determinação de 0,89. Esta especificação conseguiu capturar simultaneamente o excesso de zeros e a sobredispersão residual no componente de contagem. Na fase discreta, que ajusta a contagem esperada para casos com sinistros positivos, a variável de exposição mostrou um coeficiente positivo e robusto, indicando que o volume de apólices na carteira é o principal preditor da frequência absoluta de eventos. A região de circulação também manteve relevância, embora com menor intensidade do que em décadas passadas, sugerindo uma maior homogeneização dos riscos geográficos no território brasileiro.

A comparação final entre as especificações utilizou o erro quadrático médio como métrica de desempenho prático. Surpreendentemente, apesar do maior coeficiente de determinação da versão binomial negativa, o modelo de Poisson inflado em zero apresentou o menor erro quadrático médio, com valor de 1,1338 contra 1,1341 da versão binomial negativa. Ambos superaram drasticamente os modelos clássicos, cujos erros foram de 1.584.320 para Poisson e 12,0962 para binomial negativa. A assertividade na etapa de ocorrência foi de 75,56 % para o modelo de Poisson inflado em zero e 77,97 % para o binomial negativa inflado em zero. Esses indicadores sustentam a conclusão de que a estrutura inflada em zero é a mais adequada para a modelagem de frequências em seguros automotivos na realidade brasileira atual.

A discussão dos resultados aponta que a idade do condutor permanece como um dos fatores mais críticos para a precificação. Motoristas jovens não apenas apresentam maior frequência de sinistros, mas também uma probabilidade significativamente menor de passarem um semestre sem acionamentos. A variável sexo, embora incluída inicialmente, perdeu significância em algumas especificações ou apresentou coeficientes de baixa magnitude, sugerindo que outros fatores, como a categoria tarifária e a idade do veículo, absorvem melhor a variabilidade do risco. A redução do impacto relativo das variáveis regionais, quando comparada a estudos de 2010, indica que as transformações no mercado segurador e na infraestrutura urbana podem estar equalizando os riscos entre diferentes localidades.

As limitações deste estudo residem na natureza transversal dos dados, restritos a um único semestre de 2020. A ausência de variáveis de telemetria, como quilometragem percorrida e hábitos de condução, limita a profundidade da segmentação individual. No entanto, a robustez da amostra de quase 900 mil registros confere alta confiabilidade às inferências estatísticas realizadas. A aplicação prática desses modelos permite que as seguradoras identifiquem com precisão as carteiras que exigem prêmios mais elevados e aquelas que podem receber descontos por baixo risco, promovendo uma justiça atuarial superior. A estabilidade dos sinais dos coeficientes entre os diferentes modelos reforça a validade das variáveis explicativas selecionadas.

Conclui-se que o objetivo foi atingido ao demonstrar que os modelos de contagem inflados em zero, especialmente o Poisson inflado em zero, apresentam desempenho superior na previsão de sinistros automotivos devido à sua capacidade de tratar o elevado volume de apólices sem ocorrências. A análise evidenciou que fatores como a exposição, a idade do condutor e a idade do veículo são os principais determinantes da frequência de sinistros, enquanto a importância segurada atua como um fator moderador de risco. A superioridade estatística dessas especificações em relação aos modelos tradicionais de Poisson e binomial negativa justifica sua adoção em processos de precificação e segmentação de mercado, garantindo maior assertividade na estimativa de custos futuros e contribuindo para a sustentabilidade financeira do setor de seguros.

Referências Bibliográficas:

Bernstein, P. L. (1997). Desafio aos deuses: a fascinante história do risco. Gulf Professional Publishing.
Confederação Nacional das Seguradoras [CNseg]. (2025). Setor segurador crescerá acima de 10% em 2025. Disponível em: <https://cnseg.org.br/noticias/setor-segurador-crescera-acima-de-10-em-2025>.
Delgado, M. M. (2011). Projecto Solvência II: modelação do risco de subscrição numa companhia de seguros não vida. Dissertação (Mestrado). Universidade NOVA de Lisboa, Lisboa, Portugal.
Fávero, L. P.; Belfiore, P. (2017). Manual de análise de dados: estatística e modelagem multivariada com Excel®, SPSS® e Stata®. Elsevier, Rio de Janeiro, RJ, Brasil.
Filho, H. Z.; Lugon, V. B. P. (2004). Modelo para gestão do risco nas propostas de seguro de automóvel, com base no perfil socioeconômico e cultural do segurado, utilizando análise discriminante. XXVIII Encontro da Associação Nacional de Pós-Graduação e Pesquisa em Administração (EnANPAD), Curitiba, PR, Brasil.
Heilbron, D. (1994). Zero-altered and other regression models for count data with added zeros. Biometrical Journal 36(5): 531-547.
Johnson, N.; Kotz, S. (1969). Distributions in statistics: discrete distributions. Wiley/Houghton-Mifflin, Boston, MA, EUA.
Lambert, D. (1992). Zero-inflated Poisson regression, with an application to defects in manufacturing. Technometrics 34(1): 1-14.
Lawless, J. F. (1987). Negative binomial and mixed Poisson regression. The Canadian Journal of Statistics 15(3): 209-225.
Martins, S. (2012). Modelo de avaliação de risco em acidentes no ramo automóvel. Universidade Nova de Lisboa, Lisboa, Portugal.
Pala, L. O. O.; Gonçalves, D. O.; Silva, B. C. (2022). Modelagem da ocorrência de sinistros de veículos para o Estado de Minas Gerais via inferência bayesiana. Redeca, Revista Eletrônica do Departamento de Ciências Contábeis & Departamento de Atuária e Métodos Quantitativos 9(e58647): e58647–e58647.
Spedicato, G. A.; Dutang, C.; Petrini, L. (2018). Machine learning methods to perform pricing optimization. A comparison with standard GLMs. Variance 12(1): 69-89.
Superintendência de Seguros Privados [SUSEP]. (2006). Guia de orientação e defesa do segurado. Superintendência de Seguros Privados, Rio de Janeiro, RJ, Brasil.
Superintendência de Seguros Privados [SUSEP]. (2021). Sistema de Estatísticas de Automóveis da SUSEP. Disponível em: <https://dados.gov.br/dados/conjuntos-dados/dados-estatisticos-do-seguro-de-automoveis-autoseg>.
Viaene, S.; Dedene, G.; Derrig, R. (2005). Auto claim fraud detection using Bayesian learning neural networks. Expert Systems with Applications 29(3): 653-666.
Zaniboni, N.; Montini, A. (2015). Modelos de Poisson inflada de zeros e binomial negativa inflada de zeros na previsão de sinistro de automóveis. Revista Economia & Gestão 15(41): 159-180.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em MBA em Data Science, Inteligência Artificial e Analytics

Saiba mais sobre o curso, clique aqui

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade