
16 de janeiro de 2026
Análise preditiva de atrasos na cadeia de suprimentos com regressão logística binária
Autor(a): Marcelo Augusto Romanine Teberga — Orientador(a): José Erasmo Silva
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Globalmente, as cadeias de suprimentos enfrentam desafios como incerteza da demanda e volatilidade de mercado, afetando a previsibilidade do fluxo logístico (Panova & Hilletofth, 2018). A gestão eficaz desses fluxos é um pilar para a resiliência operacional, permitindo reduzir atrasos e prevenir falhas no abastecimento (Eddine et al., 2021). Modelos de previsão e estratégias de mitigação de riscos, como simulação e modelagem dinâmica, apoiam a tomada de decisões em ambientes com demanda variável e tempos de entrega incertos (Michna et al., 2018). Atrasos nesta etapa podem causar um efeito cascata, impactando estoques de segurança, cronogramas de produção e a entrega final ao cliente (Panova & Hilletofth, 2018).
Incertezas nos prazos de entrega e atrasos no pagamento a fornecedores aumentam os riscos financeiros e operacionais, podendo deteriorar o relacionamento comercial e limitar o acesso a fornecedores estratégicos no futuro (Eddine et al., 2021).
Para mitigar esses riscos, estratégias como a diversificação de fornecedores, o desenvolvimento de parcerias estratégicas e a implementação de modelos preditivos são cada vez mais reconhecidas como eficazes para aprimorar a resiliência do processo de aquisição (Michna et al., 2018). Contudo, toda estratégia de mitigação de riscos implica custos e pode introduzir novos desafios, criando um complexo balanço entre resiliência e eficiência (Chopra, 2019). A relevância da pontualidade é historicamente validada: um estudo da Shycon Associates identificou o atraso na entrega como um dos principais problemas para executivos de compras, respondendo por quase metade das queixas registradas (Baritz & Zissman, 1983), um insight que permanece verdadeiro décadas depois. A importância da consistência nos prazos de entrega é corroborada por pesquisas sobre os elementos de serviço mais valorizados pelos clientes corporativos.
Um estudo com 254 compradores de 25 empresas destacou a consistência no tempo de entrega como o fator mais crucial da distribuição física, superando até mesmo a velocidade da entrega (Jackson et al., 1986). A previsibilidade permite que as empresas planejem suas operações com maior confiança, otimizem seus estoques e cumpram seus próprios compromissos com os clientes. Elementos como entrega pontual, índice de atendimento de pedidos, condições do produto na chegada e exatidão da documentação são essenciais para a construção de uma relação de confiança e para a satisfação do cliente. A complexidade moderna exige abordagens mais sofisticadas, como a previsão dinâmica de “lead time” com o uso de aprendizado de máquina, que demonstram maior acurácia que modelos estatísticos tradicionais ao capturar padrões não lineares e interações complexas entre variáveis (Alnahhal et al., 2021).
Pesquisas recentes, como a de Rathi (2024), reforçam essa tendência ao comparar modelos como Regressão Logística e Random Forest para prever atrasos no e-commerce, identificando variáveis como dias para envio, tipo modal e região do fornecedor como as de maior influência preditiva.
Para a condução deste estudo, utilizou-se uma base de dados extraída diretamente do sistema de Planejamento de Recursos Empresariais (ERP) de uma empresa de Óleo e Gás localizada em Taubaté, São Paulo. O sistema ERP centraliza as informações operacionais da empresa, garantindo a integridade e a consistência dos dados de compras, logística e produção. O conjunto de dados, abrangendo o período de janeiro de 2021 a dezembro de 2023, continha um total de 2953 registros de pedidos de compra, cada um com suas respectivas datas planejadas e datas reais de entrega. Os dados foram exportados em formato . xlsx para análise em software estatístico. O tratamento e a preparação dos dados foram etapas cruciais da metodologia. Inicialmente, foi realizada uma limpeza da base para identificar e tratar dados ausentes ou inconsistentes. Registros com informações críticas faltantes, como datas de entrega, foram removidos da análise.
A variável resposta, que é o foco do modelo, foi criada de forma binária a partir das datas. Um pedido foi classificado como “atrasado” (valor 1) se a data real de entrega excedesse em mais de três dias a data prevista no sistema MRP. Essa tolerância de três dias foi definida em conjunto com os gestores da área para refletir a prática operacional, que considera pequenas variações como aceitáveis e não disruptivas. Pedidos entregues na data prevista ou com até três dias de atraso foram classificados como “no prazo” (valor 0). Variáveis categóricas, como “local do fornecedor” e “incoterms”, foram transformadas em variáveis dummy para serem incluídas no modelo de regressão. A seleção das variáveis preditoras foi guiada tanto pela literatura quanto pelo conhecimento prático dos especialistas da empresa.
A variável “lead time do pedido” foi incluída por se acreditar que prazos de entrega mais longos estão expostos a um maior número de potenciais pontos de falha. A “localização do fornecedor” (nacional vs. internacional) foi considerada fundamental, pois fornecedores internacionais envolvem processos de importação, desembaraço aduaneiro e transporte de longa distância, fatores que historicamente contribuem para a variabilidade dos prazos. O “modal de transporte” (aéreo, marítimo, rodoviário) também foi analisado como um potencial preditor, dado que cada modal possui características distintas de velocidade, custo e confiabilidade. Os “incoterms” foram selecionados por definirem o ponto de transferência de risco e responsabilidade entre comprador e vendedor, o que pode influenciar o incentivo de cada parte para garantir a pontualidade. Por fim, o “preço padrão” foi testado sob a hipótese de que itens de maior valor poderiam receber tratamento prioritário, ou, alternativamente, poderiam ser mais complexos e, portanto, mais propensos a atrasos.
A regressão logística binária foi o método estatístico escolhido para esta análise. Trata-se de um modelo de classificação que estima a probabilidade de um evento dicotômico ocorrer com base em um conjunto de variáveis preditoras, ajustando uma função logit aos dados. É particularmente adequada para variáveis dependentes com apenas dois resultados possíveis, como “atraso” ou “não atraso”, sendo amplamente utilizada em diversas áreas. Sua aplicação é valiosa em análise de risco de crédito para prever a probabilidade de inadimplência (Gonçalves et al., 2013), em estudos de saúde para modelar a probabilidade de um paciente desenvolver uma doença, e em marketing para prever a probabilidade de um cliente aderir a uma campanha. A principal vantagem do modelo é a interpretabilidade de seus coeficientes, que podem ser convertidos em razões de chances (odds ratios), facilitando a compreensão do impacto de cada variável na probabilidade do resultado.
Para a construção do modelo, o conjunto de dados foi dividido aleatoriamente em duas amostras: 70% para treinamento do modelo e 30% para teste e validação, uma prática padrão para evitar superajuste (overfitting) e garantir que o desempenho do modelo seja generalizável para novos dados. A avaliação do desempenho do modelo foi realizada utilizando um conjunto de métricas de classificação padrão. A acurácia geral, que mede a proporção de previsões corretas, foi a primeira métrica analisada. No entanto, em casos de classes desbalanceadas (onde um resultado é muito mais frequente que o outro), a acurácia pode ser enganosa. Por isso, foram também calculadas a precisão e o recall. A precisão mede, de todas as previsões de “atraso”, quantas estavam de fato corretas, sendo importante para evitar falsos alarmes que poderiam levar a intervenções desnecessárias.
O recall (ou sensibilidade) mede, de todos os atrasos reais, quantos o modelo conseguiu identificar corretamente, sendo crucial para garantir que o modelo não falhe em alertar sobre riscos importantes. A F1-Score, que é a média harmônica entre precisão e recall, foi usada como uma métrica de equilíbrio. Adicionalmente, foi gerada a curva ROC (Receiver Operating Characteristic) e calculada a Área Sob a Curva (AUC), que mede a capacidade geral do modelo de discriminar entre as classes “atrasado” e “no prazo”. Um valor de AUC próximo de 1.0 indica um excelente poder discriminatório, enquanto um valor de 0.5 sugere um desempenho não melhor que o acaso.
A análise descritiva dos dados revelou que, dos 2953 pedidos analisados no período, 974 (aproximadamente 33%) foram classificados como atrasados de acordo com o critério de três dias de tolerância. Essa taxa de atraso já indica um desafio operacional significativo para a empresa. A distribuição dos fornecedores mostrou que 65% dos pedidos eram de origem nacional, enquanto 35% eram de fornecedores internacionais. O modal de transporte predominante foi o rodoviário para entregas nacionais e o marítimo para as internacionais.
A análise inicial já sugeria uma correlação entre a origem do fornecedor e a ocorrência de atrasos, com pedidos internacionais apresentando uma taxa de atraso de 48%, em comparação com 25% para os pedidos nacionais. A variável “local do fornecedor” foi a de maior impacto. A razão de chances (odds ratio) associada a fornecedores internacionais foi de 2.8, indicando que, mantendo as outras variáveis constantes, um pedido de um fornecedor internacional tem chances 180% maiores de atrasar em comparação com um pedido de um fornecedor nacional. O “lead time do pedido” também se mostrou um preditor relevante, com uma razão de chances de 1.05 para cada semana adicional, sugerindo que prazos mais longos aumentam sistematicamente a probabilidade de atraso. Curiosamente, a variável “Std_Price” não apresentou significância estatística, refutando a hipótese inicial de que o valor do item influenciaria a pontualidade.
O desempenho do modelo, avaliado no conjunto de dados de teste, foi considerado robusto. A acurácia geral alcançada foi de 81%. A precisão do modelo para a classe “atrasado” foi de 76%, o que significa que, quando o modelo previa um atraso, ele estava correto em 76% das vezes. O recall foi de 70%, indicando que o modelo foi capaz de identificar 70% de todos os atrasos que de fato ocorreram. A F1-Score resultante foi de 0.73, demonstrando um bom equilíbrio entre precisão e recall. A Área Sob a Curva ROC (AUC) foi de 0.84, um valor que confirma o forte poder discriminatório do modelo para distinguir entre pedidos que chegarão no prazo e os que sofrerão atraso. Esses resultados validam o modelo como uma ferramenta útil e confiável para a gestão de riscos na cadeia de suprimentos da empresa.
A discussão dos resultados permite conectar os achados estatísticos com a realidade operacional e a literatura. A forte influência da variável “local do fornecedor” está alinhada com as expectativas, refletindo a complexidade inerente às cadeias de suprimentos globais, que envolvem múltiplos modais, barreiras alfandegárias e maior exposição a eventos disruptivos. O impacto do “lead time” corrobora a ideia de que processos mais longos acumulam mais incerteza e pontos de falha potenciais, como defendido por Panova & Hilletofth (2018). A significância de certos “incoterms” sugere que a estrutura contratual e a definição clara de responsabilidades logísticas desempenham um papel importante na mitigação de atrasos. A não significância do preço pode indicar que, na prática, a criticidade do item para a operação é um fator mais determinante do que seu valor monetário, ou que a empresa já aplica medidas de controle rigorosas para todos os itens, independentemente do custo.
A aplicação prática deste modelo permite que a equipe de compras, ao avaliar cotações, não se baseie apenas em preço e prazo, mas também na probabilidade de atraso calculada pelo modelo. Um fornecedor com preço menor, mas com alta probabilidade de atraso, pode acabar gerando um custo total maior para a empresa devido a paradas de produção ou necessidade de fretes emergenciais.
Conclui-se que o objetivo foi atingido, pois o estudo desenvolveu e validou com sucesso um modelo de regressão logística binária capaz de prever a probabilidade de atrasos na entrega de fornecedores com base em dados históricos do ERP. O modelo identificou fatores de risco chave, como a origem internacional do fornecedor e o lead time estendido, fornecendo à empresa uma ferramenta quantitativa para apoiar a tomada de decisões estratégicas e táticas. As implicações práticas são diretas: o modelo pode ser integrado ao processo de seleção e avaliação de fornecedores, permitindo uma gestão de risco mais proativa e informada. Como limitações, o estudo se baseou em dados de uma única empresa e não incluiu variáveis externas, como indicadores macroeconômicos ou dados sobre congestionamento logístico global.
Pesquisas futuras poderiam expandir o modelo incorporando essas variáveis externas e testando algoritmos de aprendizado de máquina mais complexos, como Random Forest ou Gradient Boosting, para potencialmente capturar relações não lineares e melhorar ainda mais a acurácia preditiva.
Referências:
Alnahhal, M. 2021. Dynamic Lead-Time Forecasting Using Machine Learning. Applied Sciences 11(21): 10105.
Baritz, S. G.; Zissman, L. 1983. Researching Customer Service: The Right Way. In: The National Council of Physicial Distribution Management, 1983, New Orleans, LA, EUA. Anais… p. 608-619.
Chopra, S. 2019. Supply Chain Management Strategy, Planning, and Operation. 7ed. Pearson Education Limited, Harlow, UK.
Eddine, M. H. S.; Tarik, T.; Berrado, A. 2021. Modelling the impact of payment delays on the performance of multi-echelon supply chains: the case of grocery distribution in Morocco. Production Planning and Control 34(5): 407-422.
Fávero, L. P.; Belfiore, P. 2023. Manual de Análise de Dados – Estatística e Machine Learning com Excel®, SPSS®, Stata®, R® e Python®. 2ed. LTC Editora, Rio de Janeiro, RJ, Brasil.
Gonçalves, E. B.; Gouvêa, M. A.; Mantovani, D. M. N. 2013. Análise de risco de crédito com o uso de regressão logística. Revista Contemporânea de Contabilidade 10(20): 139-160.
Jackson, D. W.; Keith, J. E.; Burdick, R. K. 1986. Examining the Relative Importance of Physical Distribution Service Elements. Journal of Business Logistics 7(2): 14-32.
Michna, Z.; Nielsen, P.; Nielsen, I. E. 2018. The impact of stochastic lead times on the bullwhip effect–a theoretical insight. Production and Manufacturing Research 6(1): 190–200.
Nasri, A. L. X. G.; Masset, G. G. 2024. Desenvolvimento de modelos de regressão logística para classificação binária de Covid-19 e previsão estatística de óbitos. Research, Society and Development 13(4): e011344-e011344.
Panova, Y.; Hilletofth, P. 2018. Managing supply chain risks and delays in construction project. Industrial Management and Data Systems 118(7): 1413-1431.
Prearo, L. C.; Gouvêa, M. A.; Monari, C. 2009. Avaliação do emprego da técnica de análise de regressão logística em teses e dissertações de algumas instituições de ensino superior. Semina: Ciências Sociais e Humanas 30(2): 37-52.
Rathi, A. 2024. Optimising Supply Chain Performance with Machine Learning for Predicting Late Deliveries. Dissertação (Mestrado) em Data Analytics. National College of Ireland, Dublin, Irlanda.
Rokach, L.; Maimon, O. Z. 2014. Data Mining with Decision Trees: Theory and Applications. 2ed. World Scientific Publishing Company, Singapore, Singapore.
Sathyanarayanan, S.; Tantri, B. R. 2024. Confusion Matrix-Based Performance Evaluation Metrics. African Journal of Biomedical Research 27(4s): 4023-4031.
Vieira, D. G.; Lima, G. B. A.; Sant’anna, A. P. 2015. Método de solução de problemas na gestão de suprimentos: utilização de regressão logística para análise das causas de atrasos no recebimento de materiais. Exacta – EP 13(1): 115-131.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































