
19 de fevereiro de 2026
Detecção e contagem de frutas e legumes com YOLO11 para gestão doméstica
Rafael da Silva Lauton Santana; Diego Pedroso dos Santos
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este trabalho desenvolve e avalia um sistema de visão computacional, baseado na arquitetura You Only Look Once (YOLO), para identificar e quantificar frutas e legumes em ambientes domésticos como geladeiras, despensas e fruteiras. A pesquisa enfrenta os desafios intrínsecos de variabilidade de iluminação, oclusão parcial ou total e disposição desordenada de itens, condições comuns em cenários não controlados. O objetivo central é estabelecer uma base tecnológica robusta que possa ser integrada a sistemas de gerenciamento de estoque alimentar e aplicações de casas inteligentes. O desperdício alimentar é um desafio global com implicações econômicas, sociais e ambientais profundas e interconectadas. Dados do Programa das Nações Unidas para o Meio Ambiente [PNUMA] (2024) revelam que, em 2022, foram gerados 132 quilos de resíduos alimentares por pessoa, com 60% desse volume alarmante originado no ambiente doméstico.
No contexto familiar, as causas são multifatoriais e incluem a falta de planejamento de compras, o armazenamento inadequado que acelera a perecibilidade e a dificuldade em gerenciar ingredientes de forma eficiente, como aponta o estudo de Deliberador (2023) sobre o comportamento do consumidor brasileiro, que destaca a desconexão entre a intenção de consumir e a prática diária. Tecnologias de visão computacional emergem como uma ferramenta promissora para automatizar a gestão de alimentos em casa, oferecendo uma solução escalável para um problema complexo. A arquitetura YOLO, em particular, destaca-se pela sua capacidade de realizar a detecção de objetos em tempo real com alta performance, um requisito fundamental para aplicações interativas e de baixo custo. Desde sua concepção, os modelos YOLO apresentaram uma evolução notável em precisão, velocidade e versatilidade.
Arquiteturas como YOLOv3 introduziram a detecção em múltiplas escalas, enquanto versões mais recentes, como YOLOv8 e a utilizada neste trabalho, refinaram a eficiência computacional e a precisão, tornando-os adequados para uma vasta gama de aplicações práticas, desde a vigilância autônoma até a análise de imagens médicas (Alif e Hussain, 2024). A implementação de sistemas baseados em YOLO no ambiente doméstico pode, portanto, fornecer os dados precisos e contínuos necessários para um gerenciamento de estoque mais consciente e eficaz. A aplicação de sistemas que identificam e contabilizam frutas e legumes pode fornecer a base de dados para ecossistemas de gestão alimentar mais complexos e integrados.
Pesquisas anteriores exploraram o potencial dessa tecnologia para o monitoramento de despensas e geladeiras inteligentes, demonstrando a viabilidade de alcançar alta precisão em ambientes controlados, com iluminação e posicionamento de itens padronizados (Abel et al., 2022; Cruz et al., 2022; B et al., 2024; Naseem et al., 2025). Tais sistemas podem evoluir para além da simples contagem, integrando-se a assistentes virtuais e aplicativos móveis. A relevância desta pesquisa reside na sua contribuição direta para o campo da visão computacional aplicada a contextos cotidianos, um domínio que apresenta desafios únicos e significativos. O estudo investiga sistematicamente os desafios de ambientes domésticos, que são caracterizados pela extrema variabilidade na disposição dos produtos, iluminação inconstante e frequentemente inadequada, e altos níveis de oclusão; os itens se sobrepõem e se escondem mutuamente. A metodologia adotada foi de natureza experimental, conduzida em um ambiente computacional configurado para tarefas de aprendizado de máquina.
O hardware consistiu em um processador AMD Ryzen 7 5700X, 32 GB de memória RAM DDR4 e uma placa de vídeo Nvidia GeForce RTX 3060 com 8 GB de VRAM, operando sob o sistema Windows 11 Pro.
Para contornar as limitações de memória da GPU durante o treinamento com lotes de imagens de alta resolução, o arquivo de paginação do sistema foi expandido para 16 GB, uma medida que permitiu a alocação de memória virtual adicional. Uma tentativa inicial de utilizar uma GPU AMD RX 6700XT foi abortada devido à ausência de suporte oficial e estável ao framework ROCm™ no sistema operacional Windows, reforçando a escolha pela plataforma Nvidia, que possui um ecossistema de software mais maduro e amplamente documentado para inteligência artificial, incluindo bibliotecas como CUDA e cuDNN. O desenvolvimento foi realizado em Python 3.12, utilizando um conjunto de bibliotecas padrão da indústria: PyTorch 2.7.0 como framework de deep learning, CUDA 12.8 para aceleração por GPU, a biblioteca Ultralytics 8.3 para a implementação do YOLO, e OpenCV e Numpy para pré-processamento e manipulação de imagens.
A seleção do modelo YOLOv11m resultou de uma análise comparativa de precisão, velocidade de inferência e simplicidade de uso, com testes preliminares confirmando sua adequação ao hardware disponível e aos objetivos do projeto (Khanam e Hussain, 2024; Zijian He et al., 2024).
Para o treinamento e a avaliação do modelo, foi construído um dataset customizado, denominado LVIS_OIDv7, a partir da fusão estratégica de subconjuntos dos repositórios públicos Large Vocabulary Instance Segmentation (LVIS) e Open Images Dataset v7 (OIDv7). A escolha por combinar datasets visou aumentar a diversidade e o volume de dados, fatores cruciais para a generalização do modelo. O subconjunto do LVIS foi cuidadosamente filtrado para 15 classes de interesse (abacaxi, alface, banana, batata, brócolis, cebola, cenoura, cogumelo, laranja, limão, maçã, morango, pimentão, tomate e uva), resultando em um total de 7.658 imagens. O subconjunto do OIDv7, por sua vez, contribuiu com 10.058 imagens para 10 classes complementares, enriquecendo a variabilidade visual. A unificação, que envolveu a padronização de rótulos (por exemplo, unificando “lime” e “lemon” sob uma única classe) e a reestruturação de diretórios, resultou em um conjunto de dados final com 17.716 imagens e 208.986 anotações de caixas delimitadoras.
Durante este processo de curadoria, observou-se que o OIDv7 possui uma particularidade na anotação de grupos de objetos; um único rótulo pode abranger múltiplos itens, uma característica que é perdida na conversão para o formato YOLO, que exige uma anotação por instância. Adicionalmente, a classe “Cogumelo” apresentava variações semânticas significativas entre os datasets, com imagens de cogumelos culinários e silvestres; essa característica foi mantida intencionalmente, pois não interferia no objetivo primário de detecção e contagem (Gupta et al., 2019; Kuznetsova et al., 2020). A distribuição de instâncias por classe no dataset LVIS_OIDv7 revelou um desequilíbrio significativo, seguindo uma distribuição Zipfiana, um padrão comum em datasets de grande escala onde poucas classes são muito frequentes e a maioria das classes é rara. A classe “banana”, por exemplo, era a mais representada, com mais de 50 mil anotações, enquanto “abacaxi” possuía apenas cerca de 2 mil (Gupta et al., 2019).
Este desequilíbrio representa um desafio, pois o modelo pode desenvolver um viés em favor das classes majoritárias.
Para a divisão dos dados, manteve-se a separação original proposta pelos datasets de origem, resultando em uma proporção de 80% para treino (14.037 imagens), 10% para validação (1.861 imagens) e 10% para teste (1.818 imagens). O treinamento do modelo empregou a técnica de aprendizado por transferência (transfer learning), utilizando os pesos do modelo YOLOv11m pré-treinado no dataset COCO (Common Objects in Context). O COCO é um repositório de referência com milhões de objetos em 80 categorias (Lin et al., 2014), o que permite que o modelo já possua um conhecimento prévio sobre características visuais de baixo nível, como bordas, texturas e cores. Este processo acelera a convergência do treinamento e melhora a capacidade de generalização do modelo para o novo domínio de frutas e legumes (Géron, 2023). Os resultados do treinamento demonstram um comportamento típico de modelos de aprendizado profundo.
O desempenho do modelo no conjunto de validação, medido principalmente pela perda de validação (val_loss) e pela Média de Precisão Média (mAP), convergiu por volta da época 150, atingindo seu ponto ótimo na época 144. A partir desse platô, o modelo não apresentou melhorias significativas nessas métricas, indicando que havia aprendido os padrões generalizáveis presentes nos dados de validação. Consequentemente, o mecanismo de parada antecipada (early stopping), configurado para monitorar a estagnação do desempenho, encerrou o treinamento na época 194. Em contraste, as métricas de perda no conjunto de treinamento continuaram a decrescer de forma consistente. Essa divergência entre as curvas de treinamento e validação é um indicador clássico do início do sobreajuste (overfitting), um fenômeno no qual o modelo começa a memorizar os ruídos e as particularidades dos dados de treino em detrimento da sua capacidade de generalizar para dados novos e não vistos (Goodfellow et al., 2016).
O desempenho final do modelo, avaliado no ponto ótimo da época 144, alcançou uma Média de Precisão Média com um limiar de Interseção sobre União de 0.5 (mAP@0.5) de 0,471. Este valor agregado, no entanto, esconde uma heterogeneidade considerável no desempenho entre as diferentes classes, uma nuance revelada pela análise da Curva de Precisão versus Revocação (Precision-Recall Curve) por classe. Classes com características visuais distintas, formas consistentes e boa representação no dataset, como “Brócolis” (AP de 0,688) e “Maçã” (AP de 0,643), demonstraram robustez, mantendo alta precisão mesmo com o aumento da revocação. Por outro lado, classes com formas mais amorfas, grande variabilidade de aparência ou menor número de exemplos, como “Alface” (AP de 0,219) e “Batata” (AP de 0,255), apresentaram desempenho inferior. Suas curvas de PR decaem abruptamente, mostrando que a precisão é rapidamente sacrificada para se obter mais detecções (maior revocação).
Essa inconsistência sugere que a capacidade de generalização do modelo foi diretamente impactada pela qualidade, quantidade e variabilidade das anotações no dataset (Chollet, 2021; Géron, 2023). A Matriz de Confusão Normalizada oferece um diagnóstico ainda mais detalhado dos padrões de acerto e erro do modelo. A diagonal principal, que representa a taxa de revocação (recall) para cada classe, confirma o bom desempenho em categorias visualmente salientes como “Brócolis” (72% de detecções corretas), “Maçã” (66%) e “Banana” (64%). Contudo, a matriz também expõe a principal fraqueza do modelo: uma alta taxa de confusão com o cenário (background), representada pela última coluna da matriz. Essa dificuldade em distinguir objetos de interesse de trechos de fundo visualmente semelhantes, conhecidos na literatura como negativos difíceis (hard negatives), resulta em um número expressivo de falsos positivos.
Por exemplo, uma toalha de mesa com padrão texturizado pode ser confundida com uma alface, ou um objeto vermelho no fundo pode ser erroneamente classificado como um tomate. Este é um desafio sistêmico na área de detecção de objetos, especialmente em ambientes desordenados (Lin et al., 2018; Liu et al., 2024).
A análise das células fora da diagonal principal revela dificuldades na distinção entre classes semanticamente próximas ou visualmente similares. Confusões esperadas, como entre “limão” e “laranja” ou “pimentão” e “tomate”, foram observadas, provavelmente devido à sobreposição de cor e forma. De forma mais surpreendente, observou-se uma confusão não trivial entre “abacaxi” e “batata”, possivelmente devido a semelhanças na textura da casca e na coloração marrom-amarelada sob certas condições de iluminação. Essas confusões interclasses, embora menos frequentes que os erros de fundo, têm implicações diretas na usabilidade de um sistema de gerenciamento de estoque. Um erro entre frutas cítricas pode ser tolerável, mas a falha em detectar consistentemente um item ou a sua troca por outro completamente diferente compromete a confiabilidade do inventário gerado.
Em suma, a avaliação quantitativa e qualitativa dos resultados indica que o modelo YOLOv11m, treinado no dataset LVIS_OIDv7, demonstrou uma capacidade moderada de identificar e localizar frutas e legumes em cenários complexos. As limitações observadas, como o sobreajuste, o desequilíbrio de desempenho entre classes e a confusão com o fundo, são consistentes com os desafios conhecidos da visão computacional em ambientes não controlados. As análises apontam para a necessidade de estratégias de mitigação, como o enriquecimento do dataset com mais exemplos de classes raras, o uso de técnicas de aumento de dados (data augmentation) mais agressivas para simular variações de iluminação e oclusão, e a exploração de arquiteturas de modelos mais avançadas ou técnicas de treinamento focadas em negativos difíceis. Apesar das limitações, o desempenho alcançado valida a abordagem como um ponto de partida viável.
Conclui-se que o objetivo foi atingido, pois o sistema desenvolvido representa uma prova de conceito funcional e estabelece uma base sólida sobre a qual futuras pesquisas e desenvolvimentos podem ser construídos para criar soluções mais precisas e robustas para a gestão inteligente de alimentos no ambiente doméstico.
Referências:
Abel, L. A. J.; Oconer, T. C. N.; Dela Cruz, J. C. 2022. Realtime Object Detection of Pantry Objects Using YOLOv5 Transfer Learning in Varying Lighting and Orientation. In: 2022 2nd International Conference on Innovative Research in Applied Science, Engineering and Technology, 2022, Mequinez, Marrocos. Anais… p. 1–7.
Alif, M. A. R.; Hussain, M. 2024. YOLOv1 to YOLOv10: A comprehensive review of YOLO variants and their application in the agricultural domain. Department of Computer Science, Huddersfield University, Queensgate, Huddersfield, Reino Unido.
B, K.; Yadav, D. K.; Dalvi, O. S.; Bin, D. S.; N, R. 2024. IoT Based Smart Refrigerator for Food Management System. In: 2024 International Conference on Emerging Research in Computational Science, 2024, Coimbatore, Índia. Anais… p. 1–7.
Chollet, F. 2021. Deep Learning with Python, Second Edition. Manning, Shelter Island.
Cruz, J. C. D.; Guzman, C. D. J.; Javier, P. C. 2022. Pantry Monitoring at Various Light Conditions Using Object Detection Algorithm. In: 2022 IEEE 13th Control and System Graduate Research Colloquium, 2022, Shah Alam, Malásia. Anais… p. 126–131.
Deliberador, L. R. 2023. O Comportamento do Consumidor no Desperdício de Alimentos em Domicílios Brasileiros. Tese de Doutorado em Engenharia de Produção. Universidade Federal de São Carlos. São Carlos, SP, Brasil.
Géron, A. 2023. Hands-On Machine Learning with Scikit-Learn, Keras & TensorFlow. 3ed. 2rev. O’Reilly Media, Estados Unidos da América.
Goodfellow, I.; Bengio, Y.; Courville, A. 2016. Deep Learning. The MIT Press, Cambridge, Massachusetts.
Gupta, A.; Dollar, P.; Girshick, R. 2019. LVIS: A Dataset for Large Vocabulary Instance Segmentation. In: 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, Long Beach, CA, EUA. Anais… p. 5351–5359.
He, K.; Gkioxari, G.; Dollár, P.; Girshick, R. 2018. Mask R-CNN. .
He, Z.; Wang, K.; Fang, T.; Su, L.; Chen, R.; Fei, X. 2024. Comprehensive Performance Evaluation of YOLOv11, YOLOv10, YOLOv9, YOLOv8 and YOLOv5 on Object Detection of Power Equipment. .
Hosang, J.; Benenson, R.; Schiele, B. 2017. Learning non-maximum suppression. In: Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, Saarbrücken, Alemanha. Anais… p. 4507–4515.
Jegham, N.; Koh, C. Y.; Abdelatti, M.; Hendawi, A. 2025. YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions. .
Khanam, R.; Hussain, M. 2024. YOLOv11: An Overview of the Key Architectural Enhancements. .
Kuznetsova, A.; Rom, H.; Alldrin, N.; Uijlings, J.; Krasin, I.; Pont-Tuset, J.; Kamali, S.; Popov, S.; Malloci, M.; Kolesnikov, A.; Duerig, T.; Ferrari, V. 2020. The Open Images Dataset V4: Unified image classification, object detection, and visual relationship detection at scale. International Journal of Computer Vision 128(7): 1956–1981.
Lin, T.-Y.; Goyal, P.; Girshick, R.; He, K.; Dollár, P. 2018. Focal Loss for Dense Object Detection. .
Lin, T.-Y.; Maire, M.; Belongie, S.; Bourdev, L.; Girshick, R.; Hays, J.; Perona, P.; Ramanan, D.; Zitnick, C. L.; Dollár, P. 2014. Microsoft COCO: Common Objects in Context. In: Computer vision –ECCV 2014: 13th European conference, 2014, Zurique, Suíça. Anais… p. 740–755.
Liu, L.; Guo, W.; Huang, S.; Li, C.; Shen, X. 2024. From COCO to COCO-FP: A Deep Dive into Background False Positives for COCO Detectors. .
Naseem, M.; Ahmad, B.; Razzaq, A.; Qadri, S.; Ullah, S.; Saeed, S.; Jameel, A. 2025. Advance Assessment and Counting of Ripe Cherry Tomato’s Via Yolo Model. Journal of Computing & Biomedical Informatics 8(2).
Programa das Nações Unidas para o Meio Ambiente [PNUMA]. 2024. Relatório do Índice de Desperdício de Alimentos do PNUMA 2024. Disponível em: <https://wedocs. unep. org/20.500.11822/45230>. Acesso em: 24 mar. 2025.
Safre, A. L. S.; Torres-Rua, A.; Black, B. L.; Young, S. 2025. Deep learning framework for fruit counting and yield mapping in tart cherry using YOLOv8 and YOLO11. Smart Agricultural Technology 11: 100948.
Sapkota, R.; Qureshi, R.; Calero, M. F.; Badjugar, C.; Nepal, U.; Poulose, A.; Zeno, P.; Vadde
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































