
15 de janeiro de 2026
Automação da predição de peso de amostras com rede neural convolucional
Autor(a): Elaine Maria da Silva — Orientador(a): Adriana Diniz Gurgel
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A dependência de intervenção humana nesses processos também introduz variabilidade e potencial para erros de transcrição, que podem comprometer cadeias experimentais inteiras. A crescente demanda por automação em ambientes de pesquisa e diagnóstico impulsionou a busca por soluções inovadoras. Neste contexto, técnicas de visão computacional e aprendizado de máquina emergem como alternativas promissoras, oferecendo a capacidade de realizar medições de forma rápida, consistente e não invasiva (Singh; Vidyarthi; Tiwari, 2020). A abordagem adotada é a de aprendizado supervisionado, na qual o modelo é treinado com um vasto conjunto de dados composto por pares de imagens e seus respectivos pesos, medidos com precisão por um método de referência.
A escolha por redes neurais convolucionais se justifica por sua arquitetura especializada no processamento de dados matriciais como imagens, sendo capaz de extrair hierarquias de características de forma automática e adaptativa, desde padrões simples como bordas e texturas até características complexas e abstratas que representam o objeto de interesse (Gu et al., 2018). Essa capacidade de aprendizado de representações elimina a necessidade de engenharia de características manual, um processo laborioso e muitas vezes subótimo. A aplicação de CNNs para estimar características físicas a partir de imagens não é uma novidade e já demonstrou resultados promissores em diversos domínios, como na agricultura para estimar o peso de frutas e a qualidade de sementes (Dohmen; Catal; Liu, 2021). Tais modelos aprendem representações latentes diretamente dos dados brutos, permitindo modelar fenômenos complexos de forma não invasiva e escalável.
Este trabalho transpõe essa capacidade para o contexto laboratorial, onde a automação pode gerar ganhos exponenciais de eficiência e padronização. A técnica proposta pode ser particularmente valiosa em cenários onde o uso de balanças é impraticável ou ineficiente, como em triagens de larga escala para descoberta de fármacos, estimativas rápidas em laboratórios de diagnóstico com alto volume de amostras, ou em ambientes com recursos limitados. Contudo, a robustez de um sistema baseado em visão computacional é intrinsecamente dependente da qualidade e consistência dos dados de entrada. O controle rigoroso dessas variáveis constitui um desafio central para a generalização e a confiabilidade do sistema. A metodologia adotada nesta pesquisa teve um delineamento experimental e quantitativo, com foco no desenvolvimento, treinamento e validação de um modelo de CNN para uma tarefa de regressão: a predição da massa de amostras contidas em microtubos a partir de suas imagens digitais.
Todos os procedimentos foram conduzidos em condições laboratoriais controladas para minimizar a influência de variáveis externas. A variável de resposta, ou ground truth, foi a massa real de cada microtubo, medida com um instrumento de alta precisão, servindo como o alvo para o processo de aprendizado supervisionado.
Para a medição dos pesos, utilizou-se uma balança analítica automatizada BioMicroLab XL9, que possui uma sensibilidade de ± 0,1 mg, garantindo a fidedignidade dos dados de referência. A aquisição de imagens foi realizada com uma câmera digital de alta resolução, montada em uma posição fixa e perpendicular ao plano dos microtubos, e com um sistema de iluminação difusa e uniforme para evitar sombras e reflexos especulares. A coleta de dados foi realizada nas instalações de um laboratório em Petrolina, PE, e resultou em um conjunto de dados original de 1.632 amostras, organizadas em 17 blocos de 96 microtubos cada, um formato padrão em automação laboratorial. O primeiro passo do fluxo de trabalho foi a captura de imagens dos blocos completos, que foram salvas em formato . png sem perdas.
Em seguida, cada microtubo foi pesado individualmente na balança automatizada, e os valores de massa, expressos em miligramas (mg), foram registrados em arquivos de texto com a extensão . gwt. A etapa subsequente consistiu em associar cada imagem individual de microtubo ao seu respectivo valor de massa. O pré-processamento das imagens foi uma fase crítica para garantir a qualidade dos dados de entrada do modelo. Iniciou-se com a correção de distorções geométricas através de uma transformação de perspectiva, aplicada após a seleção manual dos quatro cantos de cada bloco de 96 poços na imagem. Essa retificação assegurou que todos os microtubos tivessem uma representação visual consistente e sem distorção. A imagem retificada foi então segmentada em 96 células individuais de 40×40 pixels, cada uma contendo a imagem de um único microtubo. Os valores de massa extraídos dos arquivos . gwt foram pareados com suas respectivas imagens segmentadas.
Para adequar os dados ao formato de entrada da CNN, as imagens foram redimensionadas para 128×128 pixels e seus valores de pixel, originalmente no intervalo [0, 255], foram normalizados para o intervalo [0, 1]. A variável alvo (peso) também passou por um processo de normalização utilizando a técnica Min-Max Scaling, para que seus valores ficassem contidos no mesmo intervalo, o que facilita a convergência do modelo durante o treinamento.
Para aumentar a robustez e a capacidade de generalização do modelo, foi aplicada a técnica de data augmentation, que consistiu em aplicar transformações aleatórias (rotações, zoom, translações horizontais e verticais) às imagens de treinamento, expandindo artificialmente o conjunto de dados e ensinando o modelo a ser invariante a pequenas variações de posicionamento e escala (Srivastava et al., 2014). Finalmente, o conjunto de dados completo foi dividido em três subconjuntos: 80% para treinamento, 10% para validação (usado para monitorar o desempenho durante o treinamento) e 10% para teste (usado para a avaliação final do modelo treinado). A arquitetura da CNN foi cuidadosamente projetada para extrair características visuais relevantes das imagens dos microtubos e mapeá-las para um valor de peso contínuo. A estrutura foi organizada como uma sequência de blocos convolucionais, seguidos por uma cabeça de regressão.
O corpo da rede consistiu em uma série de camadas convolucionais, intercaladas com camadas de Batch Normalization, ativação ReLU, MaxPooling e Dropout. As camadas convolucionais iniciais utilizaram 32 filtros de 3×3, projetados para detectar características de baixo nível, como bordas e gradientes. A função de ativação ReLU (Nair; Hinton, 2010) foi empregada para introduzir não-linearidade, e a regularização L2 foi aplicada aos pesos para combater o sobreajuste (Goodfellow et al., 2016). A Batch Normalization foi inserida após cada camada convolucional para estabilizar e acelerar o treinamento, normalizando as ativações de cada camada (Ioffe; Szegedy, 2015). Camadas de MaxPooling 2D com janela 2×2 foram usadas para reduzir a dimensionalidade espacial dos mapas de características, tornando a representação mais robusta a pequenas translações. A profundidade da rede aumentou progressivamente, com blocos subsequentes utilizando 64, 128 e 256 filtros, permitindo que o modelo aprendesse hierarquias de características cada vez mais complexas e abstratas.
A técnica de Dropout foi aplicada estrategicamente entre os blocos para regularização, desativando aleatoriamente uma fração dos neurônios durante o treinamento para evitar co-adaptações complexas (Srivastava et al., 2014). Ao final da pilha de camadas convolucionais, uma camada de Global Average Pooling 2D foi utilizada para resumir os mapas de características em um único vetor, uma abordagem que reduz drasticamente o número de parâmetros em comparação com uma camada de Flatten tradicional, diminuindo o risco de sobreajuste (Lin et al., 2013). Este vetor de características foi então processado por uma sequência de camadas densas (fully connected) com ativação ReLU e Dropout, culminando em uma camada de saída com um único neurônio e ativação linear, responsável por produzir a predição final do peso. A estratégia de treinamento foi definida para otimizar os parâmetros do modelo de forma eficiente e robusta.
O otimizador escolhido foi o Adam (Adaptive Moment Estimation), com uma taxa de aprendizado inicial de 0,0003. Adam é um algoritmo de otimização estocástica que se destaca por sua eficiência computacional e por ajustar adaptativamente a taxa de aprendizado para cada parâmetro, combinando as vantagens de outros otimizadores como AdaGrad e RMSProp (Kingma; Ba, 2015). A função de perda selecionada foi a Huber loss, uma métrica que oferece um compromisso entre o erro quadrático médio (MSE) e o erro absoluto médio (MAE).
Para erros pequenos, ela se comporta como o MSE, sendo quadrática e suave, enquanto para erros grandes, ela se comporta como o MAE, sendo linear e menos sensível a outliers (Huber, 1964). Essa propriedade a torna particularmente robusta em conjuntos de dados que podem conter medições anômalas.
Para monitorar o processo de treinamento e implementar mecanismos de controle, foram utilizados dois callbacks do Keras. O primeiro foi o EarlyStopping, configurado para interromper o treinamento se a perda no conjunto de validação não apresentasse melhora por um período de 10 épocas consecutivas, uma técnica eficaz para prevenir o sobreajuste e economizar tempo computacional (Prechelt, 1998). O segundo foi o ReduceLROnPlateau, que reduz dinamicamente a taxa de aprendizado por um fator pré-definido quando a perda de validação estagna, permitindo que o modelo realize ajustes mais finos em seus pesos ao se aproximar de um mínimo ótimo (Smith, 2017). A avaliação final do desempenho do modelo foi realizada no conjunto de teste, que não foi utilizado em nenhuma etapa do treinamento ou da seleção de hiperparâmetros, garantindo uma estimativa imparcial de sua capacidade de generalização. Foram utilizadas três métricas de regressão padrão para quantificar a acurácia das predições.
O Erro Absoluto Médio (MAE) foi calculado para medir a magnitude média dos erros de predição na unidade original (mg), fornecendo uma interpretação direta da precisão do modelo. A Raiz do Erro Quadrático Médio (RMSE) também foi utilizada, pois, ao elevar os erros ao quadrado antes de calcular a média, ela penaliza erros maiores de forma mais significativa, sendo sensível a predições muito discrepantes (Chai; Dexter, 2014). Por fim, o Coeficiente de Determinação (R²), que varia de 0 a 1, foi calculado para medir a proporção da variância na variável dependente (peso real) que é previsível a partir da variável independente (imagem). Um valor de R² próximo de 1 indica que o modelo explica uma grande parte da variabilidade dos dados (Haykin, 2009).
Todas as métricas foram calculadas utilizando a biblioteca scikit-learn (Pedregosa et al., 2011), após as predições do modelo e os valores reais serem revertidos para sua escala original, desfazendo a normalização Min-Max.
A análise dos resultados obtidos no conjunto de teste revelou um desempenho promissor do modelo de CNN. O modelo alcançou um Erro Absoluto Médio (MAE) de 10,87 mg, uma Raiz do Erro Quadrático Médio (RMSE) de 14,21 mg e um Coeficiente de Determinação (R²) de 0,77. O valor de R² de 0,77 é particularmente significativo, pois indica que o modelo foi capaz de explicar aproximadamente 77% da variabilidade do peso dos microtubos com base exclusivamente nas informações visuais contidas nas imagens em escala de cinza. Este resultado valida a hipótese central do estudo, confirmando que existe uma forte correlação entre os padrões visuais das amostras e sua massa real, e que uma CNN é capaz de aprender essa correlação de forma eficaz. Os valores de MAE e RMSE, quando contextualizados, reforçam a viabilidade da abordagem.
Um erro médio de 10,87 mg, embora não atinja a precisão de uma balança analítica, pode ser perfeitamente aceitável para diversas aplicações laboratoriais, como triagens iniciais, controle de qualidade de processos de pipetagem ou em protocolos que possuem maior tolerância a variações de volume. O RMSE, sendo ligeiramente superior ao MAE, sugere a ocorrência de alguns erros de predição maiores, possivelmente em amostras com características visuais atípicas, como aquelas com volumes muito baixos ou muito altos, onde a relação entre a aparência e o peso pode ser menos linear. A intervenção do callback EarlyStopping evitou o sobreajuste, interrompendo o treinamento no momento ótimo.
Conclui-se que o objetivo foi atingido, pois o sistema desenvolvido demonstrou ser uma ferramenta viável para a estimativa de massa em microtubos, oferecendo uma alternativa rápida e de baixo custo aos métodos tradicionais. Futuras melhorias poderiam incluir o uso de imagens coloridas para capturar informações adicionais, a implementação de arquiteturas de CNN mais avançadas e o treinamento com um conjunto de dados ainda maior e mais diversificado para aprimorar a robustez e a precisão do modelo.
Referências:
ALBAWI, S.; MOHAMMED, T. A.; AL-ZAWI, S. Understanding of a convolutional neural network. In: 2017 International Conference on Engineering and Technology (ICET). Antalya: IEEE, 2017. p. 1–6. DOI: https://doi. org/10.1109/ICEngTechnol.2017.8308186.
ALVAREZ, Juan Rodríguez; ARROQUI, Mauricio; MANGUDO, Pablo; TOLOZA, Juan; JATIP, Daniel; RODRÍGUEZ, Juan M.; TEYSEYRE, Alfredo; SANZ, Carlos; ZUNINO, Alejandro; MACHADO, Claudio; MATEOS, Cristian. Body condition estimation on cows from depth images using Convolutional Neural Networks. Computers and Electronics in Agriculture, [S. l.], v. 155, p. 12-22, dez. 2018. DOI: 10.1016/j. compag.2018.09.039.
CANG, Yuji; HE, Hao; QIAO, Yao. An intelligent pig weights estimate method based on deep learning in sow stall environments. IEEE Access, v. 7, p. 164867–164875, 2019. DOI: https://doi. org/10.1109/ACCESS.2019.2953099.
CHAI, T.; DEXTER, R. R. Root mean square error (RMSE) or mean absolute error (MAE)? Geoscientific Model Development, v. 7, n. 3, p. 1247–1250, 2014.
COMINOTTE, A.; FERNANDES, A. F. A.; DOREA, J. R. R.; ROSA, G. J. M.; LADEIRA, M. M.; VAN CLEEF, E. H. C. B.; PEREIRA, G. L.; BALDASSINI, W. A.; MACHADO NETO, O. R. Automated computer vision system to predict body weight and average daily gain in beef cattle during growing and finishing phases. Livestock Science, [S. l.], v. 232, p. 103904, fev. 2020. DOI: 10.1016/j. livsci.2019.103904.
COUTO, J.; REGAZZO, J.; BAESSO, M.; TECH, A.; SILVA, T. Classification of the nutritional condition of bean plants (Phaseolus vulgaris) using convolutional neural networks and image analysis. Engenharia Agrícola, v. 45, Special Issue CONBEA, 2025. DOI: 10.1590/1809-4430-Eng. Agric. v45nespe120240223/2025.
DOHMEN, Roel; CATAL, Cagatay; LIU, Qingzhi. Image-based body mass prediction of heifers using deep neural networks. Biosystems Engineering, v. 204, p. 283-293, abr. 2021. DOI: https://doi. org/10.1016/j. biosystemseng.2021.02.001.
EL SAKKA, M.; IVANOVICI, M.; CHAARI, L.; MOTHE, J. A review of CNN applications in smart agriculture using multimodal data. Sensors, v. 25, p.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































