
03 de fevereiro de 2026
Regressão logística para estimação do volume de produção em montadoras de veículos
Caio Guilherme Rezende Silva; Elisa Morandé Sales
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este trabalho desenvolve uma ferramenta de apoio à decisão para auxiliar analistas no controle da produção e na previsão de volumes futuros, visando reduzir o esforço manual e aumentar a confiabilidade das informações com base em métodos estatísticos. A ferramenta estima o volume de veículos a serem produzidos e disponibilizados para faturamento, calculando a probabilidade de cada unidade ser entregue dentro do mês vigente. O sistema também fornece previsões segmentadas por mercado, modelo e versão, informações essenciais para subsidiar o planejamento de vendas, a logística e o marketing, alinhando a capacidade produtiva com as metas comerciais da organização.
A solução se insere no contexto do competitivo setor automobilístico latino-americano; o Brasil é o principal consumidor (Mordor Intelligence, 2024). Com mais de cinquenta marcas disputando o mercado de veículos de passeio e comerciais leves, a agilidade e a precisão no planejamento estratégico são diferenciais cruciais (Sindicato dos Metalúrgicos, 2023). As montadoras enfrentam o desafio de adaptar seus planos de venda para manter ou ampliar sua participação de mercado. Para isso, necessitam de uma visão clara e antecipada sobre a disponibilidade de seus produtos.
Uma das informações mais críticas de se obter com precisão é o volume exato de veículos disponíveis para faturamento em uma data específica, com detalhamento por modelo, versão e país. A dificuldade reside nas múltiplas variáveis que influenciam o processo produtivo, como o ritmo da linha de montagem, a data de programação, a complexidade dos componentes, os processos de verificação de qualidade e potenciais atrasos. A incerteza gerada por esses fatores impacta a capacidade da empresa de se comprometer com prazos e otimizar estratégias comerciais, que em 2024 registraram 536.604 comerciais leves emplacados no Brasil (G1, 2025).
Diante desse cenário, o estudo propõe responder qual será o volume produtivo disponível para venda em uma data futura, utilizando técnicas de machine learning. A abordagem analisa um conjunto de variáveis do ciclo produtivo para prever a probabilidade de cada unidade estar disponível para faturamento antes do fechamento contábil do mês. A escolha da regressão logística binária como modelo se justifica por sua eficácia em problemas de classificação, sendo um método robusto e consolidado em áreas como o setor financeiro para análise de risco de inadimplência, calculando a probabilidade de um evento ocorrer com base em características observadas (Araújo & Carmona, 2007).
A aplicação de um modelo preditivo representa uma evolução significativa em relação aos métodos tradicionais, baseados na experiência subjetiva dos analistas e em planilhas complexas. Ao automatizar e fundamentar a análise em um modelo estatístico, a ferramenta aumenta a acurácia das previsões e libera os profissionais para se concentrarem em atividades de maior valor agregado. A capacidade de simular diferentes cenários produtivos, ajustando variáveis como o plano de produção, permite uma gestão mais proativa e adaptável, alinhada às dinâmicas de um mercado que exige decisões rápidas e bem-informadas.
O método empregado foi a regressão logística binária, uma técnica de aprendizado supervisionado do campo do machine learning (Blum, n. d.). A escolha é justificada pela natureza da variável resposta: determinar se um veículo será entregue dentro do mês (evento) ou não (não evento), uma classificação dicotômica. O aprendizado supervisionado utiliza dados históricos rotulados para treinar um algoritmo, permitindo que ele identifique padrões e relações matemáticas entre as variáveis (Monard & Baranauskas, n. d.). Uma vez treinado, o modelo aplica esse conhecimento a novos dados para predizer o resultado. A regressão logística binária classifica cada indivíduo com base em uma probabilidade, que varia de 0 a 1, de o evento de interesse ocorrer (Gonçalves et al., 2013).
A base de dados foi extraída dos sistemas de controle de produção, compreendendo os últimos três meses de produção e o plano para o mês vigente. Este período foi definido para treinar o modelo com dados recentes, refletindo os padrões operacionais atuais. As variáveis coletadas para cada veículo incluíram a data de programação da produção, o tempo (em dias) no pátio para conferências de qualidade, e características como modelo, motorização, câmbio e país de destino. A variável dependente foi a informação binária indicando se o veículo foi produzido e disponibilizado para venda no mesmo mês. A linguagem de programação Python foi adotada para o tratamento de dados e desenvolvimento do algoritmo, devido à sua versatilidade e bibliotecas para análise de dados e machine learning (Virtanen & Gommers, 2019).
O pré-processamento dos dados foi uma etapa fundamental. A variável “Dias até o fechamento” foi calculada de forma dinâmica, dependendo do status do veículo: para carros já entregues, era a diferença entre o último dia útil do mês e a data de disponibilização; para carros em conferência, a diferença entre o último dia útil e a data da análise; e para carros com produção futura, a diferença entre o último dia útil e a data programada. Variáveis qualitativas, como modelo e motor, foram transformadas em variáveis booleanas (dummies). A base de dados foi dividida em uma de treino (dados históricos) e uma de predição (veículos em processo ou futuros). A formulação matemática do modelo segue a equação da probabilidade logística, que transforma uma combinação linear das variáveis em uma probabilidade entre 0 e 1 (Fávero & Belfiore, 2023).
Para a implementação, foi utilizada a biblioteca statsmodels do Python, com a função glm (Generalized Linear Models) (Statsmodels, 2024). O modelo foi treinado com a base de dados retroativa, gerando coeficientes que representam a influência de cada variável. A qualidade do ajuste foi avaliada por métricas como o Log-Likelihood e o Pseudo R² (Aprender estática fácil, 2025; Psicometria. online, 2025). A significância estatística de cada variável foi verificada através do P-valor, considerando-se relevantes aquelas com valor inferior a 0,05 (Medium, 2024). Após o treinamento, o modelo foi validado com uma matriz de confusão para o cálculo da eficiência global (EGM), da sensibilidade e da especificidade, além da análise da curva ROC para aferir a performance de classificação.
Os resultados obtidos demonstraram a alta capacidade preditiva do modelo. Durante um período de testes de três meses (fevereiro, março e abril), as previsões foram comparadas com os resultados reais ao final de cada mês. A análise consolidada revelou uma acurácia média de 97,5%, indicando uma discrepância média de apenas 2,5% entre o volume previsto e o efetivamente realizado. Este nível de precisão representa um avanço substancial em relação às metodologias anteriores, fornecendo à equipe comercial e de supply chain uma base de dados mais confiável para o planejamento.
A análise detalhada dos parâmetros gerados pelo modelo estatístico confirmou a relevância das variáveis. “Dias na qualidade” e “Dias até o fechamento” apresentaram os menores P-valores e os maiores valores absolutos na estatística Z, confirmando-as como os preditores de maior impacto. A investigação gráfica revelou uma correlação inversamente proporcional entre os dias em conferência de qualidade e a probabilidade de entrega. Por outro lado, a variável “Dias até o fechamento” mostrou uma correlação positiva, indicando que veículos programados para o início do mês possuem maior probabilidade de serem finalizados a tempo.
Um aspecto crucial foi a definição do ponto de corte (cutoff), o limiar de probabilidade para classificar um veículo como “entregue”. Foram realizados testes com diferentes cutoffs, de 0,4 a 0,9, e para cada um foi calculada a eficiência global do modelo (EGM). A análise demonstrou que o EGM máximo de 93,5% foi alcançado com um cutoff de 0,55 na base de treino. A análise da curva de sensibilidade e especificidade, juntamente com a curva ROC, corroborou a robustez do modelo. Para a aplicação final, foi adotado um cutoff de 0,7, uma decisão que equilibra a maximização de acertos com uma postura mais conservadora, alinhada à estratégia da empresa.
A performance do modelo por mercado e veículo, detalhada na Tabela 7 do estudo original, mostrou resultados para o mercado brasileiro excepcionalmente precisos, com variações que oscilaram entre -3,1% e 0,6%. Para mercados de exportação como Argentina, Chile e Colômbia, embora a precisão geral tenha se mantido alta, observou-se uma variabilidade ligeiramente maior. Por exemplo, em fevereiro, a predição para o Modelo A na Argentina teve um desvio de 12,9%, enquanto em abril, para o Modelo A na Colômbia, o desvio foi de 11,2%. Essas discrepâncias pontuais não comprometeram o resultado agregado, que apresentou um delta total de apenas 1,4% em fevereiro, 0,2% em março e 0,7% em abril, demonstrando a consistência do modelo.
Além da acurácia, um dos ganhos mais significativos foi a redução no tempo de análise. O processo, que antes demandava em média cinco horas de trabalho manual, passou a ser executado em aproximadamente dois minutos. Essa otimização de tempo aumentou a produtividade e permitiu que as análises passassem de semanais para diárias, oferecendo uma visão sempre atualizada do status da produção e permitindo reações mais rápidas a desvios no plano.
A ferramenta transcendeu sua função de previsão e se consolidou como um instrumento para a construção de cenários. A capacidade de ajustar parâmetros, como o volume da programação futura, e obter em tempo real uma nova estimativa de entregas, tornou-se valiosa. A gestão passou a utilizar o modelo para simular o impacto de medidas como a implementação de horas extras ou turnos de trabalho aos sábados, quantificando o ganho potencial no volume de faturamento e permitindo uma análise de custo-benefício mais precisa.
O sucesso da implementação na planta piloto motivou a expansão do projeto. O modelo foi adaptado e implementado em outras três plantas do grupo automotivo, com o objetivo de padronizar o processo de previsão de volume e disseminar uma cultura de gestão orientada por dados. Essa expansão reforça a escalabilidade da solução e seu potencial para substituir análises baseadas em intuição por um processo sistemático, transparente e estatisticamente robusto.
A discussão dos resultados evidencia que a aplicação de machine learning, por meio da regressão logística, oferece uma solução poderosa para um desafio crítico na indústria automotiva. A capacidade do modelo de aprender com dados históricos e identificar padrões sutis permite gerar previsões que superam a precisão dos métodos manuais. A ferramenta desenvolvida não é apenas um preditor de volumes, mas um sistema de apoio à decisão que fornece insights sobre gargalos de produção e o impacto de decisões operacionais, capacitando a empresa a navegar com maior segurança em um mercado competitivo.
Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de um modelo de regressão logística binária é uma ferramenta viável e de alto impacto para estimar com precisão o volume de produção disponível para faturamento em montadoras de veículos, subsidiando a tomada de decisão estratégica com base em dados. A implementação bem-sucedida valida a metodologia como uma solução eficaz para otimizar o planejamento de vendas, logística e marketing. Os benefícios quantitativos foram expressivos, destacando-se o aumento da precisão das previsões para uma média de 97,5% e a redução do tempo de análise de cinco horas para dois minutos. Essa eficiência permitiu uma gestão mais dinâmica, transformando a ferramenta em um pilar para a construção de cenários e para a tomada de decisões estratégicas, como a avaliação do retorno sobre o investimento em horas extras. O sucesso do projeto culminou na sua expansão para outras três plantas do grupo, consolidando uma abordagem de gestão baseada em dados e reforçando a aplicabilidade de técnicas de machine learning para resolver problemas complexos e gerar valor tangível no setor automotivo.
Referências:
Aprender estática fácil. 2025. O que é: Log-Likelihood. Disponível em: https://estatisticafacil. org/glossario/o-que-e-log-likelihood/. Acesso em: 14 jun. 2025.
Araújo, E.; Carmona, C. 2007. Desenvolvimento de Modelos Credit Scoring com Abordagem de Regressão Logística para a Gestão da Inadimplência de uma Instituição de Microcrédito. Revista Contabilidade Vista & Revista: 107-131.
Blum, A. n. d. Machine Learning Theory. Department of computer Science, Carnegie Mellon University… p. 1-4.
Fávero, L. Belfiore, P. 2023. Manual de análise de dados. 2ed. GEN. RJ, Brasil.
G1. Venda de veículo novos no Brasil tem alta de 14,1% em 2024.2025. Disponível em: https://g1. globo. com/carros/noticia/2025/01/08/venda-de-veiculos-novos-no-brasil-tem-alta-de-141percent-em-2024. ghtml. Acesso em: 28 mar. 2025.
Gonçalves, E.; Gouvêa, M.; Mantovani, D. 2013. Análise de risco de crédito com o uso de regressão logística. Revista contemporânea de contabilidade: 140-160.
Medium. 2024. Inferência na regressão logística. Disponível em: https://medium. com/@paulinhomagno/infer%C3%AAncia-na-regress%C3%A3o-log%C3%ADstica-792475201c38. Acesso em: 15 jun. 2025.
Monard, M. Baranauskas, J. n. d. Conceitos sobre Aprendizado de Máquina.
Mordor Intelligence. 2024. Tamanho do mercado de automóveis de passageiros na América Latina. Disponível em: https://www. mordorintelligence. com/pt/industry-reports/latin-america-passenger-car-market-outlook. Acesso em: 28 mar. 2025.
Psicometria. online. 2025. Regressão logística: pseudo R². Disponível em: https://www. blog. psicometriaonline. com. br/regressao-logistica-pseudo-r2/. Acesso em: 14 jun. 2025.
Sindicato dos Metalúrgicos. 2023. Brasil já tem 50 marcas de carros. Disponível em: https://smabc. org. br/brasil-ja-tem-50-marcas-de-carros/. Acesso em: 28 mar. 2025.
Statsmodels. 2024. Statistical models, hypothesis tests, and data exploration. Disponível em: https://www. statsmodels. org/stable/index. html. Acesso em: 14 jun. 2025.
Virtanen, P. Gommers, R., J. 2019. Fundamental Algorithms for Scientific Computing in Python, University of Jyväskylä.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































