Imagem Regressão logística para estimação do volume de produção em montadoras de veículos

03 de fevereiro de 2026

Regressão logística para estimação do volume de produção em montadoras de veículos

Caio Guilherme Rezende Silva; Elisa Morandé Sales

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este trabalho desenvolve uma ferramenta de apoio à decisão para auxiliar analistas no controle da produção e na previsão de volumes futuros, visando reduzir o esforço manual e aumentar a confiabilidade das informações com base em métodos estatísticos. A ferramenta estima o volume de veículos a serem produzidos e disponibilizados para faturamento, calculando a probabilidade de cada unidade ser entregue dentro do mês vigente. O sistema também fornece previsões segmentadas por mercado, modelo e versão, informações essenciais para subsidiar o planejamento de vendas, a logística e o marketing, alinhando a capacidade produtiva com as metas comerciais da organização.

A solução se insere no contexto do competitivo setor automobilístico latino-americano; o Brasil é o principal consumidor (Mordor Intelligence, 2024). Com mais de cinquenta marcas disputando o mercado de veículos de passeio e comerciais leves, a agilidade e a precisão no planejamento estratégico são diferenciais cruciais (Sindicato dos Metalúrgicos, 2023). As montadoras enfrentam o desafio de adaptar seus planos de venda para manter ou ampliar sua participação de mercado. Para isso, necessitam de uma visão clara e antecipada sobre a disponibilidade de seus produtos.

Uma das informações mais críticas de se obter com precisão é o volume exato de veículos disponíveis para faturamento em uma data específica, com detalhamento por modelo, versão e país. A dificuldade reside nas múltiplas variáveis que influenciam o processo produtivo, como o ritmo da linha de montagem, a data de programação, a complexidade dos componentes, os processos de verificação de qualidade e potenciais atrasos. A incerteza gerada por esses fatores impacta a capacidade da empresa de se comprometer com prazos e otimizar estratégias comerciais, que em 2024 registraram 536.604 comerciais leves emplacados no Brasil (G1, 2025).

Diante desse cenário, o estudo propõe responder qual será o volume produtivo disponível para venda em uma data futura, utilizando técnicas de machine learning. A abordagem analisa um conjunto de variáveis do ciclo produtivo para prever a probabilidade de cada unidade estar disponível para faturamento antes do fechamento contábil do mês. A escolha da regressão logística binária como modelo se justifica por sua eficácia em problemas de classificação, sendo um método robusto e consolidado em áreas como o setor financeiro para análise de risco de inadimplência, calculando a probabilidade de um evento ocorrer com base em características observadas (Araújo & Carmona, 2007).

A aplicação de um modelo preditivo representa uma evolução significativa em relação aos métodos tradicionais, baseados na experiência subjetiva dos analistas e em planilhas complexas. Ao automatizar e fundamentar a análise em um modelo estatístico, a ferramenta aumenta a acurácia das previsões e libera os profissionais para se concentrarem em atividades de maior valor agregado. A capacidade de simular diferentes cenários produtivos, ajustando variáveis como o plano de produção, permite uma gestão mais proativa e adaptável, alinhada às dinâmicas de um mercado que exige decisões rápidas e bem-informadas.

O método empregado foi a regressão logística binária, uma técnica de aprendizado supervisionado do campo do machine learning (Blum, n. d.). A escolha é justificada pela natureza da variável resposta: determinar se um veículo será entregue dentro do mês (evento) ou não (não evento), uma classificação dicotômica. O aprendizado supervisionado utiliza dados históricos rotulados para treinar um algoritmo, permitindo que ele identifique padrões e relações matemáticas entre as variáveis (Monard & Baranauskas, n. d.). Uma vez treinado, o modelo aplica esse conhecimento a novos dados para predizer o resultado. A regressão logística binária classifica cada indivíduo com base em uma probabilidade, que varia de 0 a 1, de o evento de interesse ocorrer (Gonçalves et al., 2013).

A base de dados foi extraída dos sistemas de controle de produção, compreendendo os últimos três meses de produção e o plano para o mês vigente. Este período foi definido para treinar o modelo com dados recentes, refletindo os padrões operacionais atuais. As variáveis coletadas para cada veículo incluíram a data de programação da produção, o tempo (em dias) no pátio para conferências de qualidade, e características como modelo, motorização, câmbio e país de destino. A variável dependente foi a informação binária indicando se o veículo foi produzido e disponibilizado para venda no mesmo mês. A linguagem de programação Python foi adotada para o tratamento de dados e desenvolvimento do algoritmo, devido à sua versatilidade e bibliotecas para análise de dados e machine learning (Virtanen & Gommers, 2019).

O pré-processamento dos dados foi uma etapa fundamental. A variável “Dias até o fechamento” foi calculada de forma dinâmica, dependendo do status do veículo: para carros já entregues, era a diferença entre o último dia útil do mês e a data de disponibilização; para carros em conferência, a diferença entre o último dia útil e a data da análise; e para carros com produção futura, a diferença entre o último dia útil e a data programada. Variáveis qualitativas, como modelo e motor, foram transformadas em variáveis booleanas (dummies). A base de dados foi dividida em uma de treino (dados históricos) e uma de predição (veículos em processo ou futuros). A formulação matemática do modelo segue a equação da probabilidade logística, que transforma uma combinação linear das variáveis em uma probabilidade entre 0 e 1 (Fávero & Belfiore, 2023).

Para a implementação, foi utilizada a biblioteca statsmodels do Python, com a função glm (Generalized Linear Models) (Statsmodels, 2024). O modelo foi treinado com a base de dados retroativa, gerando coeficientes que representam a influência de cada variável. A qualidade do ajuste foi avaliada por métricas como o Log-Likelihood e o Pseudo R² (Aprender estática fácil, 2025; Psicometria. online, 2025). A significância estatística de cada variável foi verificada através do P-valor, considerando-se relevantes aquelas com valor inferior a 0,05 (Medium, 2024). Após o treinamento, o modelo foi validado com uma matriz de confusão para o cálculo da eficiência global (EGM), da sensibilidade e da especificidade, além da análise da curva ROC para aferir a performance de classificação.

Os resultados obtidos demonstraram a alta capacidade preditiva do modelo. Durante um período de testes de três meses (fevereiro, março e abril), as previsões foram comparadas com os resultados reais ao final de cada mês. A análise consolidada revelou uma acurácia média de 97,5%, indicando uma discrepância média de apenas 2,5% entre o volume previsto e o efetivamente realizado. Este nível de precisão representa um avanço substancial em relação às metodologias anteriores, fornecendo à equipe comercial e de supply chain uma base de dados mais confiável para o planejamento.

A análise detalhada dos parâmetros gerados pelo modelo estatístico confirmou a relevância das variáveis. “Dias na qualidade” e “Dias até o fechamento” apresentaram os menores P-valores e os maiores valores absolutos na estatística Z, confirmando-as como os preditores de maior impacto. A investigação gráfica revelou uma correlação inversamente proporcional entre os dias em conferência de qualidade e a probabilidade de entrega. Por outro lado, a variável “Dias até o fechamento” mostrou uma correlação positiva, indicando que veículos programados para o início do mês possuem maior probabilidade de serem finalizados a tempo.

Um aspecto crucial foi a definição do ponto de corte (cutoff), o limiar de probabilidade para classificar um veículo como “entregue”. Foram realizados testes com diferentes cutoffs, de 0,4 a 0,9, e para cada um foi calculada a eficiência global do modelo (EGM). A análise demonstrou que o EGM máximo de 93,5% foi alcançado com um cutoff de 0,55 na base de treino. A análise da curva de sensibilidade e especificidade, juntamente com a curva ROC, corroborou a robustez do modelo. Para a aplicação final, foi adotado um cutoff de 0,7, uma decisão que equilibra a maximização de acertos com uma postura mais conservadora, alinhada à estratégia da empresa.

A performance do modelo por mercado e veículo, detalhada na Tabela 7 do estudo original, mostrou resultados para o mercado brasileiro excepcionalmente precisos, com variações que oscilaram entre -3,1% e 0,6%. Para mercados de exportação como Argentina, Chile e Colômbia, embora a precisão geral tenha se mantido alta, observou-se uma variabilidade ligeiramente maior. Por exemplo, em fevereiro, a predição para o Modelo A na Argentina teve um desvio de 12,9%, enquanto em abril, para o Modelo A na Colômbia, o desvio foi de 11,2%. Essas discrepâncias pontuais não comprometeram o resultado agregado, que apresentou um delta total de apenas 1,4% em fevereiro, 0,2% em março e 0,7% em abril, demonstrando a consistência do modelo.

Além da acurácia, um dos ganhos mais significativos foi a redução no tempo de análise. O processo, que antes demandava em média cinco horas de trabalho manual, passou a ser executado em aproximadamente dois minutos. Essa otimização de tempo aumentou a produtividade e permitiu que as análises passassem de semanais para diárias, oferecendo uma visão sempre atualizada do status da produção e permitindo reações mais rápidas a desvios no plano.

A ferramenta transcendeu sua função de previsão e se consolidou como um instrumento para a construção de cenários. A capacidade de ajustar parâmetros, como o volume da programação futura, e obter em tempo real uma nova estimativa de entregas, tornou-se valiosa. A gestão passou a utilizar o modelo para simular o impacto de medidas como a implementação de horas extras ou turnos de trabalho aos sábados, quantificando o ganho potencial no volume de faturamento e permitindo uma análise de custo-benefício mais precisa.

O sucesso da implementação na planta piloto motivou a expansão do projeto. O modelo foi adaptado e implementado em outras três plantas do grupo automotivo, com o objetivo de padronizar o processo de previsão de volume e disseminar uma cultura de gestão orientada por dados. Essa expansão reforça a escalabilidade da solução e seu potencial para substituir análises baseadas em intuição por um processo sistemático, transparente e estatisticamente robusto.

A discussão dos resultados evidencia que a aplicação de machine learning, por meio da regressão logística, oferece uma solução poderosa para um desafio crítico na indústria automotiva. A capacidade do modelo de aprender com dados históricos e identificar padrões sutis permite gerar previsões que superam a precisão dos métodos manuais. A ferramenta desenvolvida não é apenas um preditor de volumes, mas um sistema de apoio à decisão que fornece insights sobre gargalos de produção e o impacto de decisões operacionais, capacitando a empresa a navegar com maior segurança em um mercado competitivo.

Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de um modelo de regressão logística binária é uma ferramenta viável e de alto impacto para estimar com precisão o volume de produção disponível para faturamento em montadoras de veículos, subsidiando a tomada de decisão estratégica com base em dados. A implementação bem-sucedida valida a metodologia como uma solução eficaz para otimizar o planejamento de vendas, logística e marketing. Os benefícios quantitativos foram expressivos, destacando-se o aumento da precisão das previsões para uma média de 97,5% e a redução do tempo de análise de cinco horas para dois minutos. Essa eficiência permitiu uma gestão mais dinâmica, transformando a ferramenta em um pilar para a construção de cenários e para a tomada de decisões estratégicas, como a avaliação do retorno sobre o investimento em horas extras. O sucesso do projeto culminou na sua expansão para outras três plantas do grupo, consolidando uma abordagem de gestão baseada em dados e reforçando a aplicabilidade de técnicas de machine learning para resolver problemas complexos e gerar valor tangível no setor automotivo.

Referências:
Aprender estática fácil. 2025. O que é: Log-Likelihood. Disponível em: https://estatisticafacil. org/glossario/o-que-e-log-likelihood/. Acesso em: 14 jun. 2025.
Araújo, E.; Carmona, C. 2007. Desenvolvimento de Modelos Credit Scoring com Abordagem de Regressão Logística para a Gestão da Inadimplência de uma Instituição de Microcrédito. Revista Contabilidade Vista & Revista: 107-131.
Blum, A. n. d. Machine Learning Theory. Department of computer Science, Carnegie Mellon University… p. 1-4.
Fávero, L. Belfiore, P. 2023. Manual de análise de dados. 2ed. GEN. RJ, Brasil.
G1. Venda de veículo novos no Brasil tem alta de 14,1% em 2024.2025. Disponível em: https://g1. globo. com/carros/noticia/2025/01/08/venda-de-veiculos-novos-no-brasil-tem-alta-de-141percent-em-2024. ghtml. Acesso em: 28 mar. 2025.
Gonçalves, E.; Gouvêa, M.; Mantovani, D. 2013. Análise de risco de crédito com o uso de regressão logística. Revista contemporânea de contabilidade: 140-160.
Medium. 2024. Inferência na regressão logística. Disponível em: https://medium. com/@paulinhomagno/infer%C3%AAncia-na-regress%C3%A3o-log%C3%ADstica-792475201c38. Acesso em: 15 jun. 2025.
Monard, M. Baranauskas, J. n. d. Conceitos sobre Aprendizado de Máquina.
Mordor Intelligence. 2024. Tamanho do mercado de automóveis de passageiros na América Latina. Disponível em: https://www. mordorintelligence. com/pt/industry-reports/latin-america-passenger-car-market-outlook. Acesso em: 28 mar. 2025.
Psicometria. online. 2025. Regressão logística: pseudo R². Disponível em: https://www. blog. psicometriaonline. com. br/regressao-logistica-pseudo-r2/. Acesso em: 14 jun. 2025.
Sindicato dos Metalúrgicos. 2023. Brasil já tem 50 marcas de carros. Disponível em: https://smabc. org. br/brasil-ja-tem-50-marcas-de-carros/. Acesso em: 28 mar. 2025.
Statsmodels. 2024. Statistical models, hypothesis tests, and data exploration. Disponível em: https://www. statsmodels. org/stable/index. html. Acesso em: 14 jun. 2025.
Virtanen, P. Gommers, R., J. 2019. Fundamental Algorithms for Scientific Computing in Python, University of Jyväskylä.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade