Imagem Análise da viabilidade de classificadores de marcadores para odometria visual

04 de fevereiro de 2026

Análise da viabilidade de classificadores de marcadores para odometria visual

Carlos Dietrich Halmann; Ricardo Janes

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Esta pesquisa investigou a viabilidade de um classificador de marcadores visuais, baseado em aprendizado de máquina, para aprimorar o sistema de odometria visual ORB-SLAM. A proposta foi criar um modelo para prever e descartar, a priori, marcadores (keypoints) que geram maiores erros de reprojeção, alimentando o algoritmo de localização com pontos mais estáveis para obter uma estimativa de pose mais acurada e robusta em sistemas de navegação autônoma.

A navegação precisa é fundamental para a automação de veículos, especialmente no setor agrícola; operações como plantio e colheita demandam acurácia centimétrica. Sistemas de posicionamento global por satélite (GNSS) são a tecnologia predominante (Molin et al., 2015), mas sua eficácia é vulnerável a obstruções físicas, interferências de rádio e fenômenos atmosféricos como a cintilação ionosférica, que podem degradar ou interromper o sinal (Moraes et al., 2018; Spogli et al., 2013). Tais interrupções comprometem a continuidade das operações agrícolas, gerando perdas operacionais e financeiras (Hall et al., 2024).

Para mitigar a dependência do GNSS, sistemas de navegação por estimativa (dead reckoning), como unidades de medição inercial (IMUs) e odometria visual, calculam a posição com base em medições de movimento relativo. Embora imunes às perturbações do GNSS, sua principal desvantagem é o acúmulo de erros ao longo do tempo, um fenômeno conhecido como deriva (drift). A solução mais eficaz para um sistema de navegação contínuo reside na fusão de sensores, combinando sistemas absolutos (GNSS) e relativos (inerciais) por meio de algoritmos como o filtro de Kalman (Reitbauer, 2022; Nistér et al., 2006).

Nesse contexto, a odometria visual é uma tecnologia promissora. Utilizar as câmeras já presentes em veículos autônomos para navegação otimiza recursos. A odometria visual estima o movimento do veículo ao rastrear marcadores em quadros de imagem sequenciais. O desafio, em ambientes agrícolas, é a natureza do cenário, que difere dos ambientes urbanos ricos em feições distintas para os quais muitos algoritmos foram desenvolvidos (Bai, 2023; Masaki, 2012). Benchmarks públicos como os do Karlsruhe Institute of Technology (Geiger et al., 2012) e da Technical University of Munich (Schubert, 2018) impulsionam o desenvolvimento de novos algoritmos.

Dentre os sistemas disponíveis, o ORB-SLAM (Oriented FAST and Rotated BRIEF – Simultaneous Localization and Mapping), proposto por Mur-Artal et al. (2015), destaca-se pelo equilíbrio entre acurácia e eficiência computacional, sendo adequado para sistemas embarcados. O ORB-SLAM utiliza uma seleção inicial de marcadores baseada na intensidade de resposta do detector FAST, um método que não garante a estabilidade do marcador a longo prazo. A hipótese deste trabalho foi que um classificador mais sofisticado, treinado para identificar características de marcadores de baixa qualidade (alto erro de reprojeção), poderia aprimorar o desempenho do sistema. A revisão da literatura não identificou trabalhos com essa abordagem específica, configurando uma investigação original.

A metodologia iniciou com a geração de um conjunto de dados utilizando a implementação de código aberto pySLAM (Freda, 2025), modificada para extrair variáveis internas do rastreamento do ORB-SLAM. Os dados foram gerados a partir do processamento de sequências de imagens dos datasets KITTI (Geiger et al., 2012), de cenários urbanos, e Marulan (Peynot et al., 2010), de ambiente rural (espectro visível e infravermelho). As modificações no código permitiram a coleta de atributos detalhados para cada marcador que participou do ajustamento conjunto local (Local Bundle Adjustment – LBA).

Os atributos coletados foram divididos em três categorias: 1) dados geométricos, como posição na imagem (coordenadas u, v), intensidade de resposta do detector FAST (kpresponse), ângulo do descritor (kpdesangle) e a oitava da pirâmide de imagens (kpoctave); 2) dados fotométricos, representados pelo descritor binário ORB de 256 bits; e 3) uma mancha de imagem de 16×16 pixels (256 valores de intensidade) ao redor de cada ponto. A variável alvo para o treinamento foi o erro de reprojeção (kppreproj_err), a distância em pixels entre a posição 2D original de um marcador e a projeção 2D de sua posição 3D estimada, um indicador chave da qualidade do marcador e da consistência do mapa.

A fase de modelagem foi incremental, partindo de modelos simples para complexos, considerando a viabilidade em sistemas embarcados. A primeira abordagem utilizou árvores de decisão (simples e um ensemble com gradient boosting) por sua interpretabilidade. Em seguida, a investigação progrediu para redes neurais, com maior capacidade de aprender padrões complexos. A arquitetura da rede foi projetada com múltiplas entradas: um Perceptron Multicamadas (MLP) para dados geométricos, uma rede convolucional unidimensional (1D CNN) para o descritor ORB, e uma rede convolucional bidimensional (2D CNN) para as manchas de imagem. Para aprimorar o aprendizado, foram incorporados blocos residuais, inspirados na ResNet (He et al., 2016), para facilitar o fluxo do gradiente. A saúde do modelo foi monitorada com normalização em lotes (Batch Normalization) (Ioffe and Szegedy, 2015) e regularização (L1, L2, dropout) para prevenir sobreajuste. A análise de pesos e métricas como perda e R² guiaram os ajustes. A modelagem com árvores foi realizada com scikit-learn, e as redes neurais foram implementadas em TensorFlow/Keras.

A análise exploratória dos dados revelou um desafio fundamental: a matriz de correlação mostrou coeficientes extremamente baixos entre as variáveis geométricas e o erro de reprojeção, indicando pouca capacidade preditiva linear. Gráficos de pares confirmaram visualmente essa falta de estrutura, com marcadores de erros altos e baixos distribuídos de forma indistinguível. Essa constatação sugeriu que a previsão do erro dependeria de informações mais sutis contidas nos dados fotométricos.

Uma análise de componentes principais (PCA) foi realizada nos descritores ORB e nas manchas de imagem. Para os descritores binários de 256 bits, a PCA indicou que seriam necessárias 205 componentes para reter 95% da variância, uma redução modesta. Para as manchas de imagem, a reconstrução a partir de poucas componentes resultava em perda de detalhes de alta frequência, cruciais para a detecção de pontos salientes. Diante disso, optou-se por prosseguir com os dados brutos em sua dimensionalidade original para não descartar informações potencialmente valiosas.

Os resultados dos modelos de aprendizado de máquina confirmaram a dificuldade prevista. A árvore de decisão simples apresentou sobreajuste, com um R² elevado no conjunto de treinamento, mas um R² negativo no conjunto de teste, indicando desempenho pior que a média. O modelo de Gradient Boosting, embora mais robusto, também falhou em generalizar, com R² próximo de zero no teste. Ambos os modelos baseados em árvores foram incapazes de extrair um sinal preditivo útil.

A transição para as redes neurais não alterou o resultado. O modelo de duas cabeças, combinando um MLP para dados geométricos e uma 1D CNN para os descritores, não conseguiu aprender a relação, resultando em um R² consistentemente baixo. A adição de uma terceira cabeça, uma 2D CNN para processar as manchas de imagem, também não produziu melhorias significativas. Mesmo com uma arquitetura complexa, incluindo blocos residuais e ajuste de hiperparâmetros, o modelo não convergiu para uma solução preditiva. A análise dos pesos das camadas mostrou que a rede estava aprendendo, mas a informação de entrada simplesmente não continha um padrão correlacionado com o erro de reprojeção.

Para garantir que a falha não era um erro de implementação, foi realizado um experimento de controle. Um conjunto de dados sintético foi criado onde o “erro de reprojeção” era uma função determinística das entradas, com distribuição estatística semelhante à do erro real. Ao treinar o mesmo modelo de três cabeças com esses dados emulados, a rede neural aprendeu a relação com sucesso, alcançando R² elevado tanto no treinamento quanto no teste. Este resultado demonstrou que a arquitetura do modelo era capaz de aprender relações complexas, mas que o erro de reprojeção real no ORB-SLAM não possuía uma relação aprendível com os atributos de entrada disponíveis.

A etapa final da modelagem converteu o regressor em um classificador binário para separar marcadores em “erro baixo” e “erro alto”. Utilizando transferência de aprendizado, a última camada do modelo foi substituída e retreinada. O classificador treinado com dados reais apresentou desempenho equivalente a uma escolha aleatória, com uma curva ROC (Receiver Operating Characteristic) próxima à linha diagonal. Em contraste, o classificador treinado com dados emulados demonstrou alta capacidade de discriminação, reforçando a conclusão anterior.

A discussão dos resultados converge para a hipótese de que o erro de reprojeção, após a otimização rigorosa pelo ajustamento conjunto (BA) no ORB-SLAM, não representa uma falha sistemática previsível. Em vez disso, assemelha-se a um ruído residual, estocástico e de natureza gaussiana. A distribuição dos erros de reprojeção observados mostrou forte semelhança com uma distribuição qui-quadrado (chi-squared), que é a distribuição da soma dos quadrados de variáveis aleatórias normais. Isso sugere que o algoritmo de otimização já extrai toda a informação sistemática disponível para refinar a pose e a posição dos pontos 3D, deixando para trás apenas um erro aleatório que, por sua natureza, é imprevisível.

Em suma, a investigação, embora não tenha alcançado o objetivo prático de construir um classificador funcional, forneceu um resultado científico valioso. A experimentação com uma gama de modelos demonstrou consistentemente a ausência de um padrão previsível no erro de reprojeção de um sistema SLAM bem otimizado. Os desafios permitiram uma exploração de arquiteturas de redes neurais avançadas, técnicas de regularização e métodos para diagnosticar a saúde do processo de treinamento. Para trabalhos futuros, uma abordagem alternativa poderia focar em características temporais, analisando como a aparência de um marcador evolui ao longo de múltiplos quadros.

Conclui-se que o objetivo foi atingido: demonstrou-se que os modelos de aprendizado de máquina testados, desde árvores de decisão a redes neurais convolucionais complexas, não possuem capacidade preditiva para classificar marcadores visuais com base no erro de reprojeção, indicando que este erro, após o processo de otimização do ORB-SLAM, se assemelha a um ruído estocástico. Esta constatação sugere que a estratégia de seleção de marcadores do ORB-SLAM, baseada na resposta do detector e na distribuição espacial, pode já ser uma abordagem próxima do ótimo, e que melhorias adicionais na acurácia da odometria visual devem ser buscadas em outras frentes, como a fusão com outros sensores ou o aprimoramento do próprio algoritmo de otimização.

Referências:
Bai, Y., Zhang, B., Xu, N., Zhou, J., Shi, J. and Diao, Z., 2023. Vision-based navigation and guidance for agricultural autonomous vehicles and robots: A review. Computers and Electronics in Agriculture, 205, p.107584.
Freda, L., 2025. pySLAM: An open-source, modular, and extensible framework for SLAM. arXiv preprint arXiv:2502.11955.
Fu, Q., Yu, H., Wang, X., Yang, Z., He, Y., Zhang, H. and Mian, A., 2021. Fast ORB-SLAM without keypoint descriptors. IEEE transactions on image processing, 31, p.1433-1446.
Geiger, A., Lenz, P. and Urtasun, R., 2012, June. Are we ready for autonomous driving? the kitti vision benchmark suite. In.: 2012 IEEE conference on computer vision and pattern recognition, 2012, Providence, RI, USA. Anais p. 3354-3361.
Hall, J., Ehrlich, A., Bergamini, A. and Marquez, M., 2024, August. Brazil Space Weather: Assessment of Space Weather Impact on Precision Agriculture Using the Global Navigation Satellite System in Brazilian Farms. In DEVELOP Summer 2024 Closeout.
Hartley, R. and Zisserman, A., 2003. Multiple view geometry in computer vision. Cambridge university press.
He, K., Zhang, X., Ren, S. and Sun, J., 2016. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).
Ioffe, S. and Szegedy, C., 2015, June. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In International conference on machine learning (pp. 448-456).
Li, Z., Liu, F., Yang, W., Peng, S. and Zhou, J., 2021. A survey of convolutional neural networks: analysis, applications, and prospects. IEEE transactions on neural networks and learning systems.
Masaki, I. ed., 2012. Vision-based vehicle guidance. Springer Science & Business Media.
Molin, J. P., do Amaral, L. R. and Colaço, A., 2015. Agricultura de precisão. Oficina de textos.
Monico, J. F. G., 2007. Posicionamento pelo GNSS: descrição, fundamentos e aplicações. Editora Unesp.
Moraes, A. D. O., Vani, B. C., Costa, E., Abdu, M. A., de Paula, E. R., Sousasantos, J., Monico, J. F., Forte, B., de Siqueira Negreti, P. M. and Shimabukuro, M. H., 2018. GPS availability and positioning issues when the signal paths are aligned with ionospheric plasma bubbles. Gps Solutions, 22, pp.1-12.
Mur-Artal, R., Montiel, J. M. M. and Tardos, J. D., 2015. ORB-SLAM: A versatile and accurate monocular SLAM system. IEEE transactions on robotics, 31(5), pp.1147-1163.
Nistér, D., Naroditsky, O. and Bergen, J., 2006. Visual odometry for ground vehicle applications. Journal of Field Robotics, 23(1), pp.3-20.
Peynot, T., Scheding, S. and Terho, S., 2010. The marulan data sets: Multi-sensor perception in a natural environment with challenging conditions. The International Journal of Robotics Research, 29(13), pp.1602-1607.
Reitbauer, E. M., 2022. Multi-Sensor Positioning for the Automatic Steering of Tracked Agricultural Vehicles. Verlag der Technischen Universität Graz, Graz, Áustria.
Schubert, D., Goll, T., Demmel, N., Usenko, V., Stückler, J. and Cremers, D., 2018, October. The TUM VI benchmark for evaluating visual-inertial odometry. In.: 2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2018, Madrid, Spain. Anais p. 1680-1687.
Spogli, L., Alfonsi, L., Romano, V., De Franceschi, G., Francisco, G. M. J., Shimabukuro, M. H., Bougard, B. and Aquino, M., 2013. Assessing the GNSS scintillation climate over Brazil under increasing solar activity. Journal of Atmospheric and Solar-Terrestrial Physics, 105, pp.199-206.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade