Imagem Otimização da previsão de chegada de embarcações com machine learning

26 de fevereiro de 2026

Otimização da previsão de chegada de embarcações com machine learning

Gabriel Barbarossa Silva; Luana Candaten

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este trabalho desenvolve e valida um modelo de machine learning para prever a data estimada de chegada (ETA) de embarcações com alta acurácia, utilizando dados do Sistema de Identificação Automática (AIS). A pesquisa visa superar as limitações das previsões de agentes marítimos, que são frequentemente imprecisas e carecem de atualizações em tempo real, impactando a cadeia logística portuária. A proposta demonstra que algoritmos de regressão, como Decision Tree e Random Forest, podem reduzir os erros de previsão, oferecendo uma ferramenta robusta para o planejamento de operações em terminais. O estudo se insere no contexto do transporte marítimo, um pilar da economia global onde a previsibilidade das operações é um desafio crítico.

O comércio marítimo global enfrenta uma demanda crescente, com projeções de crescimento anual de 2,4% entre 2025 e 2029 (Asariotis et al., 2024). Esse volume intensifica a pressão sobre a infraestrutura portuária. Fatores como instabilidades geopolíticas, mudanças climáticas e congestionamentos geram atrasos que se propagam pela cadeia de suprimentos. A literatura aponta que apenas entre 55% e 89% dos navios cumprem seus cronogramas, evidenciando a escala do problema (Park et al., 2021). A imprecisão nas previsões de chegada, portanto, é uma fonte direta de prejuízos financeiros e operacionais.

Os custos associados a esses atrasos são substanciais. Um aumento de três dias no tempo de viagem pode elevar os custos operacionais em dezenas de milhares de dólares (Vernimmen et al., 2007). A imprevisibilidade afeta também a logística terrestre, podendo causar falta de materiais e aumento dos custos de armazenamento. A dependência de atualizações manuais, comunicadas por e-mail ou telefone com 24 a 48 horas de antecedência, agrava a incerteza, especialmente durante finais de semana e feriados (Evmides et al., 2024). Essa lacuna informacional dificulta um planejamento logístico eficiente.

Nesse cenário, os dados do Sistema de Identificação Automática (AIS) surgem como uma oportunidade. O AIS transmite automaticamente informações como identificação, posição, velocidade e rumo das embarcações (IMO, 2015). O vasto volume de dados históricos gerado pelo sistema constitui uma base rica para a aplicação de machine learning, permitindo a construção de modelos preditivos robustos para a trajetória e o tempo de chegada dos navios (Zhang et al., 2020).

Iniciativas recentes na literatura exploram esse potencial. Arbabkhah et al. (2024) propuseram um modelo XGBoost para prever o ETA no porto de Houston, alcançando um erro de 5% com dados do AIS. Evmides et al. (2024) testaram algoritmos como redes neurais e Random Forest para prever o ETA no Mar Mediterrâneo, concluindo que modelos de ensemble, como o Random Forest, tiveram desempenho superior. Alinhado a essas pesquisas, este estudo aplica e compara Decision Tree e Random Forest para avaliar seu impacto na acurácia da previsão, utilizando um conjunto de dados recente de águas costeiras dos Estados Unidos.

A metodologia quantitativa e aplicada foi estruturada em etapas, da coleta à validação dos modelos. A base de dados consiste em registros públicos do AIS da marinha dos Estados Unidos, de 1º de janeiro a 29 de fevereiro de 2024. Os dados, totalizando 12,5 GB em 58 arquivos, foram convertidos para o formato Parquet por sua eficiência de compressão e leitura. O desenvolvimento foi realizado em Python, com bibliotecas como Pandas, GeoPandas e Scikit-learn.

O pré-processamento dos dados foi uma fase fundamental. Uma análise exploratória identificou e mitigou inconsistências como dados faltantes, duplicados e outliers, especialmente em latitude e longitude. Foi realizada a correta tipagem das variáveis, como o identificador do navio (MMSI), data e hora (BaseDateTime), velocidade (SOG) e tipo de embarcação (VesselType). A partir dos dados brutos, foram criadas novas variáveis para enriquecer o modelo. A variável true_heading foi criada para priorizar o rumo reportado pelo navio (Heading) e, na sua ausência, utilizar o rumo sobre o solo (COG). Adicionalmente, foi estimada a taxa de giro aproximada (rot), calculada como a variação do COG entre registros consecutivos de um mesmo navio.

A detecção de viagens foi implementada com base na análise geoespacial. Utilizando GeoPandas, os pontos AIS foram convertidos em um GeoDataFrame. Uma “viagem” foi definida como o deslocamento de uma embarcação entre a saída de uma zona portuária e a entrada em outra. Para identificar a proximidade dos portos, os pontos AIS foram cruzados com uma base georreferenciada de portos dos EUA. Um buffer de 4 milhas náuticas foi aplicado ao redor de cada porto para definir uma “zona portuária”, abordagem inspirada em Arbabkhah et al. (2024). Essa técnica permitiu criar variáveis como DentroPorto (booleana), ETAEntrada (timestamp da entrada) e SaidaUltimoPorto (timestamp da saída). A transição do estado “fora do porto” para “dentro do porto” marcou o fim de uma viagem, enquanto a transição inversa sinalizou o início de uma nova.

Para a modelagem, a variável alvo foi definida como actualetainmin, o tempo restante em minutos até a chegada, calculada pela diferença entre o timestamp de entrada no porto de destino e o timestamp do registro atual. Como linha de base (baseline), foi usada a previsão do agente marítimo, representada por agentetainminref, que é o tempo total de viagem estimado no momento da saída. A seleção de atributos focou em variáveis numéricas com alto potencial preditivo, incluindo posição (LAT, LON), velocidade e rumo (SOG, COG, trueheading), taxa de giro (rot), características do navio (Length, Width, Draft), distância ao porto (DistPorto) e a própria previsão do agente. Foram testados os algoritmos Decision Tree e Random Forest. A otimização dos hiperparâmetros foi realizada com Grid Search e a validação com k-fold. A avaliação de desempenho baseou-se em métricas como Erro Médio Absoluto (MAE), Raiz do Erro Quadrático Médio (RMSE) e Coeficiente de Determinação (R²), conforme Bruce e Bruce (2019).

A análise exploratória dos dados, após filtragem para embarcações de carga (tipo 73), identificou 44 navios distintos em 188 viagens. A diversidade de trajetos, com navios realizando entre uma e 14 viagens, enriqueceu a base com diferentes cenários de navegação. A metodologia de detecção de eventos, com buffers de 4 milhas náuticas, permitiu identificar com precisão as entradas e saídas das zonas portuárias. A análise da trajetória do navio YM TRUTH ilustrou o processo, registrando sua entrada no Port of Roberts Bank em 17 de fevereiro de 2024 e em Tacoma, WA, em 22 de fevereiro de 2024.

A otimização de hiperparâmetros via Grid Search revelou que, para ambos os algoritmos, o parâmetro max_depth (profundidade máxima) foi otimizado para None, indicando a necessidade de uma estrutura profunda para capturar os padrões nos dados. No Random Forest, a profundidade média das árvores atingiu 45 níveis. Embora uma profundidade elevada possa sugerir sobreajuste em uma única árvore, a natureza de ensemble do Random Forest mitiga esse risco ao agregar as previsões de múltiplas árvores, resultando em um modelo mais robusto. A comparação de desempenho mostrou vantagem para o Random Forest, que alcançou um MAE médio de 58,51 minutos, uma melhoria de 6% sobre o Decision Tree (MAE de 62,02 minutos).

A avaliação final do modelo Random Forest, com validação cruzada, produziu resultados expressivos. O modelo de machine learning alcançou um Erro Médio Absoluto (MAE) de 58,51 minutos e uma Raiz do Erro Quadrático Médio (RMSE) de 217,45 minutos. Em contraste, a previsão dos agentes apresentou um MAE de 1.538,43 minutos e um RMSE de 2.035,86 minutos. Essa disparidade demonstra a alta precisão do modelo. O Coeficiente de Determinação (R²) do modelo foi de 0,97, indicando que ele explica 97% da variabilidade nos dados. O R² da previsão do agente foi de -1,31, um valor negativo que significa que seu desempenho foi pior do que uma previsão baseada na média histórica, reforçando a ineficácia da abordagem tradicional.

Convertendo as métricas, o erro médio absoluto do modelo foi de 0,98 horas, e o RMSE foi de 3,62 horas. Esses valores representam um nível de precisão útil para o planejamento portuário, reduzindo a janela de incerteza. A análise da importância das variáveis (feature importance) revelou que o modelo depende de uma combinação de atributos. As variáveis geoespaciais foram as mais influentes: longitude (LON) com 18,17%, latitude (LAT) com 16,07%, e distância ao porto (DistPorto) com 10,51%. Juntas, responderam por 45% da capacidade preditiva do modelo, o que é intuitivo, pois a localização e a distância são determinantes diretos do tempo restante.

Outras variáveis relevantes incluíram o calado do navio (Draft), com 15,20% de importância, e a previsão inicial do agente (agentetainminref), com 12,29%, indicando que a estimativa inicial contém informação útil que o modelo refina. Velocidade (SOG) e rumo (COG, true_heading) também foram significativos. Esses resultados estão alinhados com a literatura, que aponta atributos de posição e deslocamento como fatores críticos para a previsão do ETA (Evmides et al., 2024; Arbabkhah et al., 2024), reforçando a validade do modelo.

Uma validação aplicada, usando um ponto da trajetória do navio YM TRUTH, demonstrou a funcionalidade prática do modelo. Para um registro em 16 de fevereiro de 2024, com destino ao Port of Roberts Bank, o tempo real restante era de 1.306 minutos. O modelo previu 1.302 minutos, uma diferença de apenas 4 minutos. Em contrapartida, a previsão de referência do agente era de 2.179 minutos, gerando um erro de mais de 870 minutos (14,5 horas). Este exemplo pontual ilustra o ganho de precisão e a capacidade do modelo de fornecer estimativas acuradas e dinâmicas.

Os resultados deste estudo demonstram conclusivamente que a aplicação de machine learning, especificamente o modelo Random Forest, sobre dados AIS, oferece uma solução robusta e mais precisa para a previsão do ETA de embarcações. A superioridade do modelo em relação às estimativas tradicionais foi quantificada por uma redução drástica no MAE, de mais de 1.500 minutos para menos de 60 minutos. Este avanço representa uma ferramenta para aumentar a visibilidade operacional, mitigar custos de atrasos e apoiar uma tomada de decisão proativa. A análise da importância das variáveis confirmou o papel central dos dados geoespaciais, validando a abordagem metodológica.

O trabalho contribui para a evolução de soluções preditivas na logística portuária, otimizando processos como agendamento de atracação e planejamento de recursos. No entanto, há espaço para aprimoramentos. Recomenda-se a incorporação de fatores externos como condições climáticas e dados de congestionamento portuário, que poderiam refinar a acurácia das previsões. Adicionalmente, a exploração de algoritmos mais avançados, como redes neurais (LSTMs) e outros métodos de ensemble como XGBoost, poderia revelar ganhos de desempenho. A aplicação do modelo em um ambiente de produção, com atualizações em tempo real, seria o próximo passo para validar sua aplicabilidade prática. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de modelos de machine learning, especificamente o Random Forest, otimiza significativamente a previsão de chegada de embarcações em comparação com as estimativas tradicionais.

Referências:
Arbabkhah, H.; Sedaghat, A.; Jafari Kang, M.; Hamidi, M. 2024. Automatic Identification System-Based Prediction of Tanker and Cargo Estimated Time of Arrival in Narrow Waterways. Journal of Marine Science and Engineering 12(215): 1-17.
Asariotis, R.; Assaf, M.; Bacrot, C.; Benamara, H.; Flour, L. R.; Hansen, P.; Hoffmann, J.; Hoffmeister, O.; Kulaga, T.; Rodríguez, L.; Struempfler, C.; Tokuda, H.; Youssef, F. 2024. Review of Maritime Transport – Navigating Maritime Chokepoints. United Nations Conference on Trade and Development. Periodic Guidance 1(57): 1-166.
Bruce, P.; Bruce, A. 2019. Estatística Prática para Cientistas de Dados: 50 Conceitos Essenciais. 1ed. Alta Books, Rio de Janeiro, RJ, Brasil.
Evmides, N.; Aslam, S.; Ramez, T. T.; Michaelides, M. P.; Herodotou, H. 2024. Enhancing Prediction Accuracy of Vessel Arrival Times Using Machine Learning. Journal of Marine Science and Engineering 12(1362): 1-17.
International Maritime Organization [IMO]. 2015. Revised Guidelines for the Onboard Operational Use of Shipborne Automatic Identification Systems (AIS). World Maritime Day 2015 – Maritime Education & Training 29(1106): 1-17.
Park, K.; Sim, S.; Bae, H. 2021. Vessel Estimated Time of Arrival Prediction System based on a Path-finding Algorithm. Maritime Transport Research 2(100012): 1-14.
Vernimmen, B.; Dullaert, W.; Engelen, S. 2007. Schedule Unreliability in Liner Shipping Origins and Consequences for the Hinterland Supply Chain. Maritime Economics & Logistics 9(1479): 193-213.
Zhang, C.; Bin, J.; Wang, W.; Peng, X.; Wang, R.; Halldearn, R.; Liu, Z. 2020. AIS Data Driven General Vessel Destination Prediction: A Random Forest Based Approach. Transportation Reserarch Part C 118(102729): 1-19.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade