Imagem Análise preditiva de atrasos na cadeia de suprimentos com regressão logística binária

16 de janeiro de 2026

Análise preditiva de atrasos na cadeia de suprimentos com regressão logística binária

Autor(a): Marcelo Augusto Romanine Teberga — Orientador(a): José Erasmo Silva

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Globalmente, as cadeias de suprimentos enfrentam desafios como incerteza da demanda e volatilidade de mercado, afetando a previsibilidade do fluxo logístico (Panova & Hilletofth, 2018). A gestão eficaz desses fluxos é um pilar para a resiliência operacional, permitindo reduzir atrasos e prevenir falhas no abastecimento (Eddine et al., 2021). Modelos de previsão e estratégias de mitigação de riscos, como simulação e modelagem dinâmica, apoiam a tomada de decisões em ambientes com demanda variável e tempos de entrega incertos (Michna et al., 2018). Atrasos nesta etapa podem causar um efeito cascata, impactando estoques de segurança, cronogramas de produção e a entrega final ao cliente (Panova & Hilletofth, 2018).

Incertezas nos prazos de entrega e atrasos no pagamento a fornecedores aumentam os riscos financeiros e operacionais, podendo deteriorar o relacionamento comercial e limitar o acesso a fornecedores estratégicos no futuro (Eddine et al., 2021).

Para mitigar esses riscos, estratégias como a diversificação de fornecedores, o desenvolvimento de parcerias estratégicas e a implementação de modelos preditivos são cada vez mais reconhecidas como eficazes para aprimorar a resiliência do processo de aquisição (Michna et al., 2018). Contudo, toda estratégia de mitigação de riscos implica custos e pode introduzir novos desafios, criando um complexo balanço entre resiliência e eficiência (Chopra, 2019). A relevância da pontualidade é historicamente validada: um estudo da Shycon Associates identificou o atraso na entrega como um dos principais problemas para executivos de compras, respondendo por quase metade das queixas registradas (Baritz & Zissman, 1983), um insight que permanece verdadeiro décadas depois. A importância da consistência nos prazos de entrega é corroborada por pesquisas sobre os elementos de serviço mais valorizados pelos clientes corporativos.

Um estudo com 254 compradores de 25 empresas destacou a consistência no tempo de entrega como o fator mais crucial da distribuição física, superando até mesmo a velocidade da entrega (Jackson et al., 1986). A previsibilidade permite que as empresas planejem suas operações com maior confiança, otimizem seus estoques e cumpram seus próprios compromissos com os clientes. Elementos como entrega pontual, índice de atendimento de pedidos, condições do produto na chegada e exatidão da documentação são essenciais para a construção de uma relação de confiança e para a satisfação do cliente. A complexidade moderna exige abordagens mais sofisticadas, como a previsão dinâmica de “lead time” com o uso de aprendizado de máquina, que demonstram maior acurácia que modelos estatísticos tradicionais ao capturar padrões não lineares e interações complexas entre variáveis (Alnahhal et al., 2021).

Pesquisas recentes, como a de Rathi (2024), reforçam essa tendência ao comparar modelos como Regressão Logística e Random Forest para prever atrasos no e-commerce, identificando variáveis como dias para envio, tipo modal e região do fornecedor como as de maior influência preditiva.

Para a condução deste estudo, utilizou-se uma base de dados extraída diretamente do sistema de Planejamento de Recursos Empresariais (ERP) de uma empresa de Óleo e Gás localizada em Taubaté, São Paulo. O sistema ERP centraliza as informações operacionais da empresa, garantindo a integridade e a consistência dos dados de compras, logística e produção. O conjunto de dados, abrangendo o período de janeiro de 2021 a dezembro de 2023, continha um total de 2953 registros de pedidos de compra, cada um com suas respectivas datas planejadas e datas reais de entrega. Os dados foram exportados em formato . xlsx para análise em software estatístico. O tratamento e a preparação dos dados foram etapas cruciais da metodologia. Inicialmente, foi realizada uma limpeza da base para identificar e tratar dados ausentes ou inconsistentes. Registros com informações críticas faltantes, como datas de entrega, foram removidos da análise.

A variável resposta, que é o foco do modelo, foi criada de forma binária a partir das datas. Um pedido foi classificado como “atrasado” (valor 1) se a data real de entrega excedesse em mais de três dias a data prevista no sistema MRP. Essa tolerância de três dias foi definida em conjunto com os gestores da área para refletir a prática operacional, que considera pequenas variações como aceitáveis e não disruptivas. Pedidos entregues na data prevista ou com até três dias de atraso foram classificados como “no prazo” (valor 0). Variáveis categóricas, como “local do fornecedor” e “incoterms”, foram transformadas em variáveis dummy para serem incluídas no modelo de regressão. A seleção das variáveis preditoras foi guiada tanto pela literatura quanto pelo conhecimento prático dos especialistas da empresa.

A variável “lead time do pedido” foi incluída por se acreditar que prazos de entrega mais longos estão expostos a um maior número de potenciais pontos de falha. A “localização do fornecedor” (nacional vs. internacional) foi considerada fundamental, pois fornecedores internacionais envolvem processos de importação, desembaraço aduaneiro e transporte de longa distância, fatores que historicamente contribuem para a variabilidade dos prazos. O “modal de transporte” (aéreo, marítimo, rodoviário) também foi analisado como um potencial preditor, dado que cada modal possui características distintas de velocidade, custo e confiabilidade. Os “incoterms” foram selecionados por definirem o ponto de transferência de risco e responsabilidade entre comprador e vendedor, o que pode influenciar o incentivo de cada parte para garantir a pontualidade. Por fim, o “preço padrão” foi testado sob a hipótese de que itens de maior valor poderiam receber tratamento prioritário, ou, alternativamente, poderiam ser mais complexos e, portanto, mais propensos a atrasos.

A regressão logística binária foi o método estatístico escolhido para esta análise. Trata-se de um modelo de classificação que estima a probabilidade de um evento dicotômico ocorrer com base em um conjunto de variáveis preditoras, ajustando uma função logit aos dados. É particularmente adequada para variáveis dependentes com apenas dois resultados possíveis, como “atraso” ou “não atraso”, sendo amplamente utilizada em diversas áreas. Sua aplicação é valiosa em análise de risco de crédito para prever a probabilidade de inadimplência (Gonçalves et al., 2013), em estudos de saúde para modelar a probabilidade de um paciente desenvolver uma doença, e em marketing para prever a probabilidade de um cliente aderir a uma campanha. A principal vantagem do modelo é a interpretabilidade de seus coeficientes, que podem ser convertidos em razões de chances (odds ratios), facilitando a compreensão do impacto de cada variável na probabilidade do resultado.

Para a construção do modelo, o conjunto de dados foi dividido aleatoriamente em duas amostras: 70% para treinamento do modelo e 30% para teste e validação, uma prática padrão para evitar superajuste (overfitting) e garantir que o desempenho do modelo seja generalizável para novos dados. A avaliação do desempenho do modelo foi realizada utilizando um conjunto de métricas de classificação padrão. A acurácia geral, que mede a proporção de previsões corretas, foi a primeira métrica analisada. No entanto, em casos de classes desbalanceadas (onde um resultado é muito mais frequente que o outro), a acurácia pode ser enganosa. Por isso, foram também calculadas a precisão e o recall. A precisão mede, de todas as previsões de “atraso”, quantas estavam de fato corretas, sendo importante para evitar falsos alarmes que poderiam levar a intervenções desnecessárias.

O recall (ou sensibilidade) mede, de todos os atrasos reais, quantos o modelo conseguiu identificar corretamente, sendo crucial para garantir que o modelo não falhe em alertar sobre riscos importantes. A F1-Score, que é a média harmônica entre precisão e recall, foi usada como uma métrica de equilíbrio. Adicionalmente, foi gerada a curva ROC (Receiver Operating Characteristic) e calculada a Área Sob a Curva (AUC), que mede a capacidade geral do modelo de discriminar entre as classes “atrasado” e “no prazo”. Um valor de AUC próximo de 1.0 indica um excelente poder discriminatório, enquanto um valor de 0.5 sugere um desempenho não melhor que o acaso.

A análise descritiva dos dados revelou que, dos 2953 pedidos analisados no período, 974 (aproximadamente 33%) foram classificados como atrasados de acordo com o critério de três dias de tolerância. Essa taxa de atraso já indica um desafio operacional significativo para a empresa. A distribuição dos fornecedores mostrou que 65% dos pedidos eram de origem nacional, enquanto 35% eram de fornecedores internacionais. O modal de transporte predominante foi o rodoviário para entregas nacionais e o marítimo para as internacionais.

A análise inicial já sugeria uma correlação entre a origem do fornecedor e a ocorrência de atrasos, com pedidos internacionais apresentando uma taxa de atraso de 48%, em comparação com 25% para os pedidos nacionais. A variável “local do fornecedor” foi a de maior impacto. A razão de chances (odds ratio) associada a fornecedores internacionais foi de 2.8, indicando que, mantendo as outras variáveis constantes, um pedido de um fornecedor internacional tem chances 180% maiores de atrasar em comparação com um pedido de um fornecedor nacional. O “lead time do pedido” também se mostrou um preditor relevante, com uma razão de chances de 1.05 para cada semana adicional, sugerindo que prazos mais longos aumentam sistematicamente a probabilidade de atraso. Curiosamente, a variável “Std_Price” não apresentou significância estatística, refutando a hipótese inicial de que o valor do item influenciaria a pontualidade.

O desempenho do modelo, avaliado no conjunto de dados de teste, foi considerado robusto. A acurácia geral alcançada foi de 81%. A precisão do modelo para a classe “atrasado” foi de 76%, o que significa que, quando o modelo previa um atraso, ele estava correto em 76% das vezes. O recall foi de 70%, indicando que o modelo foi capaz de identificar 70% de todos os atrasos que de fato ocorreram. A F1-Score resultante foi de 0.73, demonstrando um bom equilíbrio entre precisão e recall. A Área Sob a Curva ROC (AUC) foi de 0.84, um valor que confirma o forte poder discriminatório do modelo para distinguir entre pedidos que chegarão no prazo e os que sofrerão atraso. Esses resultados validam o modelo como uma ferramenta útil e confiável para a gestão de riscos na cadeia de suprimentos da empresa.

A discussão dos resultados permite conectar os achados estatísticos com a realidade operacional e a literatura. A forte influência da variável “local do fornecedor” está alinhada com as expectativas, refletindo a complexidade inerente às cadeias de suprimentos globais, que envolvem múltiplos modais, barreiras alfandegárias e maior exposição a eventos disruptivos. O impacto do “lead time” corrobora a ideia de que processos mais longos acumulam mais incerteza e pontos de falha potenciais, como defendido por Panova & Hilletofth (2018). A significância de certos “incoterms” sugere que a estrutura contratual e a definição clara de responsabilidades logísticas desempenham um papel importante na mitigação de atrasos. A não significância do preço pode indicar que, na prática, a criticidade do item para a operação é um fator mais determinante do que seu valor monetário, ou que a empresa já aplica medidas de controle rigorosas para todos os itens, independentemente do custo.

A aplicação prática deste modelo permite que a equipe de compras, ao avaliar cotações, não se baseie apenas em preço e prazo, mas também na probabilidade de atraso calculada pelo modelo. Um fornecedor com preço menor, mas com alta probabilidade de atraso, pode acabar gerando um custo total maior para a empresa devido a paradas de produção ou necessidade de fretes emergenciais.

Conclui-se que o objetivo foi atingido, pois o estudo desenvolveu e validou com sucesso um modelo de regressão logística binária capaz de prever a probabilidade de atrasos na entrega de fornecedores com base em dados históricos do ERP. O modelo identificou fatores de risco chave, como a origem internacional do fornecedor e o lead time estendido, fornecendo à empresa uma ferramenta quantitativa para apoiar a tomada de decisões estratégicas e táticas. As implicações práticas são diretas: o modelo pode ser integrado ao processo de seleção e avaliação de fornecedores, permitindo uma gestão de risco mais proativa e informada. Como limitações, o estudo se baseou em dados de uma única empresa e não incluiu variáveis externas, como indicadores macroeconômicos ou dados sobre congestionamento logístico global.

Pesquisas futuras poderiam expandir o modelo incorporando essas variáveis externas e testando algoritmos de aprendizado de máquina mais complexos, como Random Forest ou Gradient Boosting, para potencialmente capturar relações não lineares e melhorar ainda mais a acurácia preditiva.

Referências:
Alnahhal, M. 2021. Dynamic Lead-Time Forecasting Using Machine Learning. Applied Sciences 11(21): 10105.
Baritz, S. G.; Zissman, L. 1983. Researching Customer Service: The Right Way. In: The National Council of Physicial Distribution Management, 1983, New Orleans, LA, EUA. Anais… p. 608-619.
Chopra, S. 2019. Supply Chain Management Strategy, Planning, and Operation. 7ed. Pearson Education Limited, Harlow, UK.
Eddine, M. H. S.; Tarik, T.; Berrado, A. 2021. Modelling the impact of payment delays on the performance of multi-echelon supply chains: the case of grocery distribution in Morocco. Production Planning and Control 34(5): 407-422.
Fávero, L. P.; Belfiore, P. 2023. Manual de Análise de Dados – Estatística e Machine Learning com Excel®, SPSS®, Stata®, R® e Python®. 2ed. LTC Editora, Rio de Janeiro, RJ, Brasil.
Gonçalves, E. B.; Gouvêa, M. A.; Mantovani, D. M. N. 2013. Análise de risco de crédito com o uso de regressão logística. Revista Contemporânea de Contabilidade 10(20): 139-160.
Jackson, D. W.; Keith, J. E.; Burdick, R. K. 1986. Examining the Relative Importance of Physical Distribution Service Elements. Journal of Business Logistics 7(2): 14-32.
Michna, Z.; Nielsen, P.; Nielsen, I. E. 2018. The impact of stochastic lead times on the bullwhip effect–a theoretical insight. Production and Manufacturing Research 6(1): 190–200.
Nasri, A. L. X. G.; Masset, G. G. 2024. Desenvolvimento de modelos de regressão logística para classificação binária de Covid-19 e previsão estatística de óbitos. Research, Society and Development 13(4): e011344-e011344.
Panova, Y.; Hilletofth, P. 2018. Managing supply chain risks and delays in construction project. Industrial Management and Data Systems 118(7): 1413-1431.
Prearo, L. C.; Gouvêa, M. A.; Monari, C. 2009. Avaliação do emprego da técnica de análise de regressão logística em teses e dissertações de algumas instituições de ensino superior. Semina: Ciências Sociais e Humanas 30(2): 37-52.
Rathi, A. 2024. Optimising Supply Chain Performance with Machine Learning for Predicting Late Deliveries. Dissertação (Mestrado) em Data Analytics. National College of Ireland, Dublin, Irlanda.
Rokach, L.; Maimon, O. Z. 2014. Data Mining with Decision Trees: Theory and Applications. 2ed. World Scientific Publishing Company, Singapore, Singapore.
Sathyanarayanan, S.; Tantri, B. R. 2024. Confusion Matrix-Based Performance Evaluation Metrics. African Journal of Biomedical Research 27(4s): 4023-4031.
Vieira, D. G.; Lima, G. B. A.; Sant’anna, A. P. 2015. Método de solução de problemas na gestão de suprimentos: utilização de regressão logística para análise das causas de atrasos no recebimento de materiais. Exacta – EP 13(1): 115-131.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade