Imagem Modelagem preditiva e interpretável para classificação de proteínas imunoglobulínicas

19 de fevereiro de 2026

Modelagem preditiva e interpretável para classificação de proteínas imunoglobulínicas

Rianne Passos Lopes; Gabrielle Maria Romeiro Lombardi

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

O objetivo deste trabalho foi desenvolver um modelo de machine learning classificador binário para identificar sequências de imunoglobulins, com foco na interpretabilidade das predições. A pesquisa buscou avaliar a capacidade preditiva de um conjunto de descritores moleculares de extração simplificada; comparar a performance do XGBoost com outros modelos; propor um modelo final otimizado; e identificar as características bioquímicas mais relevantes para a classificação por meio de técnicas de interpretabilidade. A necessidade desta abordagem decorre do papel central das imunoglobulinas (Igs) no sistema imune; atuam como receptores de antígenos para detectar e neutralizar patógenos (Flajnik e Kasahara, 2010). Sua capacidade de se ligar a substâncias com alta afinidade e especificidade as torna fundamentais para imunoterapias, vacinas e descoberta de fármacos (Tang, Chen e Lin, 2016).

O grande volume de dados gerado por tecnologias “ômicas” criou um gargalo analítico, pois métodos laboratoriais tradicionais para identificação de proteínas são demorados e caros (Zaman, 2024). A bioinformática e abordagens computacionais surgiram como ferramentas para classificar proteínas, incluindo Igs, a partir de suas sequências primárias (Ali et al., 2023). A premissa é que a sequência de aminoácidos contém a informação que determina a estrutura tridimensional e a função da proteína (Nelson e Cox, 2022). A tarefa computacional é converter essas sequências em vetores numéricos que algoritmos de machine learning possam interpretar para identificar padrões que distinguem diferentes classes de proteínas (Wan et al., 2022).

Diversas técnicas de extração de atributos, ou descritores moleculares, foram propostas para essa conversão, como a composição de aminoácidos (AAC), a composição de dipeptídeos (DPC) e métodos mais complexos como a pseudocomposição de aminoácidos (PseAAC) (Ghulam et al., 2022; Tang et al., 2016). Estudos anteriores demonstraram que a combinação desses atributos com algoritmos como o Extreme Gradient Boosting (XGBoost) alcança alta acurácia na classificação de Igs (Ali et al., 2023). No entanto, um desafio em modelos de alto desempenho, como o IgPred-HDnet (Ali et al., 2023), é sua natureza de “caixa-preta”, que dificulta a interpretação dos resultados e a compreensão dos mecanismos biológicos subjacentes.

Para mitigar essa limitação, este estudo incorporou uma abordagem de Inteligência Artificial Explicável (XAI), utilizando o método SHapley Additive exPlanations (SHAP). O SHAP oferece uma estrutura teórica para atribuir valores de importância a cada característica em uma predição, permitindo uma compreensão detalhada dos processos internos do modelo (Lundberg e Lee, 2017). Ao discriminar a influência de cada variável, o SHAP transforma modelos complexos em ferramentas interpretáveis, possibilitando a validação do conhecimento biológico aprendido pelo modelo e a identificação de vieses nos dados. A integração da interpretabilidade foi uma etapa central para garantir a robustez e a relevância biológica do classificador.

A pesquisa propôs construir um classificador preciso e transparente, utilizando um conjunto de atributos de extração simplificada para testar se uma representação mais direta da sequência continha sinal discriminatório suficiente. A hipótese era que uma combinação de atributos composicionais (AAC e DPC), físico-químicos e estruturais poderia fornecer uma assinatura bioquímica robusta para a classificação de Igs. A análise comparativa de algoritmos e a otimização do XGBoost visaram maximizar a performance preditiva, enquanto a análise SHAP foi empregada para decifrar a lógica por trás das decisões do modelo e validar suas bases biológicas.

O estudo utilizou um conjunto de dados público de Ali et al. (2023), composto por sequências de proteínas em formato FASTA. O conjunto inicial continha 150 sequências de Igs e 264 de não-Igs. O processamento foi implementado em Python (v. 3.12.1), com bibliotecas como Biopython e pandas. Uma etapa de pré-processamento excluiu sequências com caracteres ambíguos ou não-canônicos (‘B’, ‘Z’, ‘X’). Após a filtragem, o conjunto de dados final foi consolidado em 400 sequências, sendo 137 Igs e 263 não-Igs.

A engenharia de atributos consistiu na extração de 428 descritores moleculares para cada sequência. Foram gerados quatro grupos de atributos: 20 de Composição de Aminoácidos (AAC); 400 de Composição de Dipeptídeos (DPC); cinco propriedades físico-químicas globais (massa molecular, ponto isoelétrico, índice de instabilidade, hidropaticidade e aromaticidade), calculadas com o módulo ProtParam da Biopython; e três atributos de fração de estrutura secundária (propensão a formar alfa-hélices, folhas-beta ou voltas/dobras).

Para mitigar o risco de vazamento de dados devido à homologia de sequências (Higgs e Attwood, 2005), foi implementada uma estratégia de particionamento baseada em similaridade. A identidade de sequência foi calculada para todos os pares, e as relações foram modeladas como um grafo usando a biblioteca networkx; uma aresta conectava pares com identidade superior a 95%. A análise do grafo revelou um cluster de 113 sequências altamente similares. O particionamento foi realizado com a classe GroupShuffleSplit da scikit-learn, garantindo que todas as sequências de um mesmo cluster permanecessem juntas, resultando em um conjunto de treino com 342 sequências e um de teste com 58.

A modelagem preditiva foi conduzida no conjunto de treino. Inicialmente, três algoritmos foram comparados via validação cruzada estratificada de 5-folds: Regressão Logística, Random Forest e XGBoost, com a área sob a curva ROC (ROC AUC) como métrica principal. Após a análise de interpretabilidade revelar um possível viés relacionado à massa molecular, o pipeline foi reexecutado em um conjunto de atributos refinado. O XGBoost (Chen e Guestrin, 2016) foi selecionado para otimização de hiperparâmetros via GridSearchCV. O modelo otimizado foi avaliado no conjunto de teste e sua interpretabilidade analisada com a biblioteca shap (Lundberg e Lee, 2017). Para validar a significância estatística, foi conduzido um teste de permutação.

A análise exploratória dos dados no conjunto de treino revelou padrões discriminatórios. A análise da composição de aminoácidos (AAC) mostrou que 16 dos 20 aminoácidos apresentaram frequências médias estatisticamente diferentes (p < 0,001) entre Igs e não-Igs. As Igs apresentaram, em média, maior aromaticidade e uma fração superior de resíduos propensos a formar folhas-beta (0,333 contra 0,285 nas não-Igs), o que é consistente com a estrutura canônica do “immunoglobulin fold” (Janeway et al., 2001; Roel‐Touris et al., 2024).

Contudo, a análise também expôs que as Igs no conjunto de dados apresentaram uma massa molecular média significativamente menor (16,5 kDa) do que as não-Igs (28,9 kDa). Este achado é biologicamente contraintuitivo, pois imunoglobulinas intactas são macromoléculas de aproximadamente 150 kDa (Janeway et al., 2001), sugerindo um viés de representação no dataset, possivelmente devido ao depósito de fragmentos funcionais mais curtos. Uma Análise de Componentes Principais (PCA) aplicada sobre oito variáveis físico-químicas e estruturais mostrou que os dois primeiros componentes principais explicaram 54,45% da variância total e revelaram uma clara tendência de agrupamento das classes, indicando um sinal discriminatório relevante.

A avaliação comparativa dos modelos foi conduzida em dois cenários: m0, com 428 atributos, e m1, com a remoção da massa molecular. No cenário m0, todos os algoritmos alcançaram alta performance (ROC AUC > 0,99), mas o bom desempenho da Regressão Logística (F1-score = 0,88) sugeriu a dominância de um preditor linear. No cenário m1, a performance da Regressão Logística caiu drasticamente (F1-score = 0,38), enquanto Random Forest e XGBoost mantiveram seu desempenho. Isso demonstrou que, sem o atalho da massa molecular, a classificação se torna um problema não-linear, mais adequado para modelos baseados em árvores. O XGBoost foi selecionado por seu desempenho consistentemente superior.

Após a otimização, o modelo final XGBoost foi avaliado no conjunto de teste. O modelo m0 (com massa molecular) alcançou acurácia de 98,28% e recall de 100%. O modelo m1 (sem massa molecular) atingiu performance máxima em todas as métricas, com acurácia, precisão, recall, F1-score e ROC AUC de 1,00, classificando corretamente todas as 58 amostras. Essa performance perfeita deve ser interpretada no contexto do tratamento de homologia; o limiar de 95% de identidade pode não ter desafiado o modelo com homólogos evolutivamente distantes. Portanto, sua robustez contra uma diversidade genética mais ampla exigiria um conjunto de dados maior.

A análise de interpretabilidade com SHAP foi fundamental. No modelo m0, a “massa molecular” dominou as predições, com um valor SHAP médio absoluto de 1,75. Valores baixos de massa molecular consistentemente previam a classe Ig, confirmando que o modelo aprendeu o viés de representação do dataset como um atalho. Isso justificou a criação do modelo m1 para um classificador mais generalizável e biologicamente informativo.

Em contraste, a análise SHAP do modelo m1 revelou um processo de decisão mais distribuído e biologicamente coerente. A Composição de Dipeptídeos (DPC) emergiu como o grupo de atributos mais impactante, com 11 dos 15 descritores mais importantes pertencendo a essa categoria. A dominância da DPC sobre a AAC validou que a informação da ordem local dos aminoácidos é um preditor mais poderoso do que a simples frequência de resíduos, alinhando-se com modelos de referência (Ali et al., 2023).

Outros atributos se destacaram no modelo m1. A frequência do triptofano (AACW) foi importante, possivelmente devido à sua sobrerrepresentação nas regiões determinantes de complementariedade (CDRs) (Peng et al., 2022). A serina (AACS) também foi relevante, participando da estabilização do complexo antígeno-anticorpo (Abramson et al., 2024). Dentre os atributos estruturais, a “fração de resíduos em folha-beta” teve alto impacto, com valores elevados consistentemente associados a predições da classe Ig. Isso demonstrou que o modelo inferiu e utilizou a assinatura da arquitetura secundária canônica das imunoglobulinas a partir da sequência primária.

A validação estatística por teste de permutação confirmou a significância de ambos os modelos. Tanto para m0 quanto para m1, a performance observada (ROC AUC > 0,99) foi significativamente superior (p = 0,010) à distribuição de scores obtidos com rótulos permutados, que se concentrou em torno de 0,50. Isso indica que ambos os modelos extraíram informações úteis e não-aleatórias dos atributos para discriminar as classes.

Em suma, o estudo demonstrou que um conjunto de descritores moleculares de extração simplificada é eficaz para a classificação de imunoglobulinas. A avaliação comparativa confirmou a superioridade do XGBoost para esta tarefa não-linear. O modelo final, refinado através da remoção de um atributo enviesado identificado pela análise de interpretabilidade, alcançou performance máxima. A aplicação da técnica SHAP foi crucial para identificar os descritores bioquímicos mais importantes, como a dominância da composição de dipeptídeos e a relevância da estrutura em folha-beta, e para expor vieses nos dados, permitindo o desenvolvimento de um modelo mais robusto. A pesquisa reforça a importância da interpretabilidade como ferramenta estratégica na bioinformática. Trabalhos futuros podem se beneficiar de conjuntos de dados mais amplos para um tratamento de homologia mais rigoroso. Conclui-se que o objetivo foi atingido: demonstrou-se que um modelo XGBoost, treinado com atributos composicionais e físico-químicos e guiado por análises de interpretabilidade, pode classificar imunoglobulinas com máxima precisão, revelando a assinatura bioquímica subjacente que distingue esta importante família de proteínas.

Referências:
Abramson, J.; Adler, J.; Dunger, J.; Evans, R.; Green, T.; Pritzel, A.; … Jumper, J. M. 2024. Accurate structure prediction of biomolecular interactions with alphafold 3. Nature 630(8016): 493–500.
Ali, Z.; Alturise, F.; Alkhalifah, T.; Khan, Y. D. 2023. IGPred‐HDnet: prediction of immunoglobulin proteins using graphical features and the hierarchal deep learning‐based approach. Computational Intelligence and Neuroscience 2023(1): 2465414.
Chen, T.; Guestrin, C. 2016. XGBoost: a scalable tree boosting system. Em Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining: 785–794. ACM, San Francisco, California, USA.
Cock, P. J. A.; Antao, T.; Chang, J. T.; Chapman, B. A.; Cox, C. J.; Dalke, A.; … de Hoon, M. J. L. 2009. Biopython: freely available python tools for computational molecular biology and bioinformatics. Bioinformatics 25(11): 1422–1423.
Flajnik, M. F.; Kasahara, M. 2010. Origin and evolution of the adaptive immune system: genetic events and selective pressures. Nature Reviews Genetics 11(1): 47–59.
Ghulam, A.; Sikander, R.; Ali, F.; Khan Swati, Z. N.; Unar, A.; Talpur, D. B. 2022. Accurate prediction of immunoglobulin proteins using machine learning model. Informatics in Medicine Unlocked 29: 100885.
Hagberg, A. A.; Schult, D. A.; Swart, P. J. 2008. Exploring network structure, dynamics, and function using NetworkX. Em Proceedings of the 7th Python in Science Conference (SciPy2008): 11–15. Pasadena, CA, USA.
Higgs, P. G.; Attwood, T. K. 2005. Bioinformatics and Molecular Evolution. Blackwell Pub, Malden, MA, USA.
Hunter, J. D. 2007. Matplotlib: a 2d graphics environment. Computing in Science & Engineering 9(3): 90–95.
Janeway, C. A. Jr.; Travers, P.; Walport, M.; Shlomchik, M. J. 2001. The structure of a typical antibody molecule. Em Immunobiology: The Immune System in Health and Disease. 5ed. Garland Science.
Lundberg, S. M.; Lee, S. -I. 2017. A Unified Approach to Interpreting Model Predictions. Curran Associates, Inc.
Nelson, D. L.; Cox, M. M. 2022. Princípios de Bioquímica de Lehninger. 8ed. Artmed, Porto Alegre, RS, Brasil.
Pedregosa, F.; Varoquaux, G.; Gramfort, A.; Michel, V.; Thirion, B.; Grisel, O.; … Duchesnay, É. 2011. Scikit-learn: machine learning in python. Journal of Machine Learning Research 12(85): 2825–2830.
Peng, H. -P.; Hsu, H. -J.; Yu, C. -M.; Hung, F. -H.; Tung, C. -P.; Huang, Y. -C.; … Yang, A. -S. 2022. Antibody cdr amino acids underlying the functionality of antibody repertoires in recognizing diverse protein antigens. Scientific Reports 12(1): 12555.
Roel‐Touris, J.; Carcelén, L.; Marcos, E. 2024. The structural landscape of the immunoglobulin fold by large‐scale de novo design. Protein Science: A Publication of the Protein Society 33(4): e4936.
Schroeder, H. W.; Cavacini, L. 2010. Structure and function of immunoglobulins. Journal of Allergy and Clinical Immunology 125(2): S41–S52.
Tang, H.; Chen, W.; Lin, H. 2016. Identification of immunoglobulins using Chou’s pseudo amino acid composition with feature selection technique. Molecular BioSystems 12(4): 1269–1275.
The pandas development team. 2020. pandas-dev/pandas: Pandas. Zenodo.
The UniProt Consortium. 2015. UniProt: a hub for protein information. Nucleic Acids Research 43(D1): D204–D212.
Virtanen, P.; Gommers, R.; Oliphant, T. E.; Haberland, M.; Reddy, T.; Cournapeau, D.; … SciPy 1.0 Contributors. 2020. SciPy 1.0: fundamental algorithms for scientific computing in python. Nature Methods 17: 261–272.
Wan, H.; Zhang, J.; Ding, Y.; Wang, H.; Tian, G. 2022. Immunoglobulin classification based on fc and gc features. Frontiers in Genetics 12: 827161.
Waskom, M. L. 2021. Seaborn: statistical data visualization. Journal of Open Source Software 6(60): 3021.
Zaman, W. 2024. Molecular world today and tomorrow: recent trends in biological sciences 2.0. International Journal of Molecular Sciences 25(5): 3070.

Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade