Post

AI+Drug Snapshot | 250324 | TopEC,一种基于3D图神经网络和局部3D描述符的酶分类预测工具,为酶功能预测提供了新的工具

AI+Drug Snapshot | 250324 | TopEC,一种基于3D图神经网络和局部3D描述符的酶分类预测工具,为酶功能预测提供了新的工具

关注MindDance微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展

1. gapTrick-Structural characterisation of protein-protein interactions using AlphaFold

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.01.31.635911

简介: 本文提出基于AlphaFold2的gapTrick方法,用于改进蛋白质-蛋白质相互作用(PPI)的结构预测,在预测弱或依赖辅因子的复合物时表现突出。该方法利用多聚体模板增强预测可靠性,能高精度识别残基-残基相互作用。在PDB数据库的3978个稳定复合物上实验,gapTrick在预测低结合能复合物时显著优于AlphaFold3,为复杂蛋白质相互作用的结构解析提供了有效计算工具。


2. Further exploration of the quantitative distance-energy and contact number-energy relationships for predicting the binding affinity of protein-ligand complexes

期刊: Biophysical Journal

链接: https://doi.org/10.1016/j.bpj.2025.02.021

简介: 文章探索基于距离和接触数的蛋白质-配体结合亲和力预测模型,综合考虑不同原子类型对的贡献提出新的线性模型。在PDBbind和CASF-2016数据集上实验,新模型在预测结合亲和力方面优于传统非机器学习评分函数,为蛋白质-配体相互作用的理性分析和药物设计提供了新方法。


3. DTF-diffusion: A 3D equivariant diffusion generation model based on ligand-target information fusion

期刊: Computational Biology and Chemistry

链接: https://doi.org/10.1016/j.compbiolchem.2025.108392

简介: 本文提出基于配体-靶标信息融合的三维扩散生成模型DTF-diffusion,用于在靶标蛋白结合口袋中生成药物分子。模型引入化学规则判别模块,提高了生成分子的合理性和有效性。在CrossDocked2020数据集上实验,DTF-diffusion在药物相似性和有效性指标上优于现有最优模型,为药物分子生成提供了高效且合理的解决方案。


4. MFC-PPI: protein–protein interaction prediction with multimodal feature fusion and contrastive learning

期刊: The Journal of Supercomputing

链接: https://doi.org/10.1007/s11227-025-07076-2

代码: https://github.com/Zhangzxin24/MFC-PPI

简介: 该研究提出基于多模态特征融合和对比学习的蛋白质-蛋白质相互作用预测模型MFC-PPI,结合序列、结构和PPI网络特征提升预测精度。在SHS27k和SHS148k数据集上实验,MFC-PPI在多种划分策略下均优于现有方法,为蛋白质相互作用预测提供了全面且鲁棒的新方法。


5. NTMFF-DTA: Prediction of Drug-Target Affinity Based on Network Topology and Multi-feature Fusion

期刊: Interdisciplinary Sciences: Computational Life Sciences

链接: https://doi.org/10.1007/s12539-025-00692-9

代码: https://github.com/liuSirr/NTMFF.git

简介: 本文提出基于网络拓扑和多特征融合的药物-靶标亲和力预测方法(NTMFF-DTA),构建关系感知的图注意力网络(GAT)和多头自注意力机制(MSA)捕捉药物和蛋白质的多特征信息,解决数据稀疏性问题。在Davis和KIBA数据集上实验,NTMFF-DTA在预测精度上优于现有模型,多特征融合方面表现出色,为药物发现提供了新的计算工具。


6. A Simple Generative Model for the Prediction of T-Cell Receptor-Peptide Binding in T-cell Therapy for Cancer

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.03.18.643937

简介: 本文开发名为GRIP的生成模型,用于预测T细胞受体(TCR)与肽的结合,采用长短时记忆网络(LSTM)和注意力机制生成新的肽序列,解决数据不平衡和未见序列的泛化问题。在公开数据集上实验,训练和测试准确率分别达97%和85%,模型能生成生物学上合理的肽序列,为个性化免疫治疗提供了新的解决方案。


期刊: IEEE Journal of Biomedical and Health Informatics

链接: https://doi.org/10.1109/JBHI.2025.3552536

代码: https://github.com/LHBCB/scDrugLink

简介: 本文提出scDrugLink方法,整合单细胞转录组数据、药物靶标和扰动特征,实现中枢神经系统(CNS)疾病的药物重定位。在GBM、MS和AD的单细胞数据集上实验,scDrugLink在AUC和AUPRC指标上优于ASGARD、DrugReSC和scDrugPrio方法,显著提升药物重定位的准确性,为CNS疾病的治疗提供了新的计算框架。


8. Protein Language Pragmatic Analysis and Progressive Transfer Learning for Profiling Peptide–Protein Interactions

期刊: IEEE Transactions on Neural Networks and Learning Systems

链接: https://doi.org/10.1109/TNNLS.2025.3540291

简介: 本文提出可解释的深度学习模型(IIDL-PepPI),通过双向注意力模块和渐进式迁移学习预测肽-蛋白质相互作用(PepPI)并识别结合残基。在RCSB PDB数据集上实验,IIDL-PepPI在肽-蛋白质相互作用预测和结合残基识别方面优于现有方法,展示了其在虚拟药物筛选中的潜力,为肽药物发现提供了新的工具。


9. SFM-Net: Selective Fusion of Multiway Protein Feature Network for Predicting Binding Affinity Changes upon Mutations

期刊: Journal of Chemical Information and Modeling

链接: https://doi.org/10.1021/acs.jcim.5c00130

简介: 本文提出名为SFM-Net的深度学习模型,通过选择性融合多源蛋白质特征预测突变对蛋白质结合亲和力的影响。创新点是引入上下文感知的选择性融合模块和基于图神经网络的多路特征提取器,利用序列、结构和进化信息,通过GNN提取特征并结合选择性融合模块进行预测。在S4169、S1131和S645三个公开数据集上实验,SFM-Net在预测蛋白质结合亲和力变化方面优于现有方法,通过多源特征的有效融合,显著提升了预测性能。


10. Computer-Aided Drug Design and Drug Discovery

期刊: Pharmaceuticals

链接: https://doi.org/10.3390/ph18030436

简介: 本文探讨计算机辅助药物设计(CADD)在药物发现中的应用,强调人工智能和机器学习在药物设计中的潜力。综述了CADD的最新进展,指出其在预测药物行为、优化药代动力学特性方面的优势。虽未涉及具体数据集实验,但讨论了CADD在虚拟筛选、分子对接和多靶点药物发现中的应用,CADD通过整合计算工具和传统实验方法,加速了新治疗药物的发现和优化。


11. State-of-the-art covalent virtual screening with AlphaFold3

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.03.19.642201

简介: 本文评估AlphaFold3在共价虚拟筛选中的性能,首次将AlphaFold3用于共价配体的虚拟筛选,展示出优于传统共价对接工具的性能。方法是使用AlphaFold3预测共价复合物,并通过物理评分函数进行排名。在COValid数据集上实验,AlphaFold3在共价虚拟筛选中表现出色,尤其是使用其预测的对齐误差矩阵(mPAE)进行排名时,有望加速共价药物的发现。


12. SQ-DiffuPep: A multimodal information-guided quantitative latent diffusion model for antimicrobial peptide discovery

期刊: Information Fusion

链接: https://doi.org/10.1016/j.inffus.2025.103119

简介: 本文提出名为SQ-DiffuPep的多模态信息引导的定量潜在扩散模型,用于抗菌肽(AMP)的发现。创新点是结合序列和结构信息的联合表示学习,使用软量化的变分自编码器(SQ-VAE)和移位窗口注意力机制提取肽的序列和结构特征,通过扩散模型生成具有抗菌活性的肽序列。在六个公开的AMP预测器上实验,SQ-DiffuPep在生成具有高抗菌活性和新颖性的肽序列方面优于现有方法,通过结合序列和结构信息,显著提升了抗菌肽的设计效率和质量。


13. A GENERALIZED PROTEIN DESIGN ML MODEL ENABLES GENERATION OF FUNCTIONAL DE NOVO PROTEINS

期刊: ICLR 2025

链接: https://doi.org/10.1101/2025.03.21.644400

简介: 本文提出基于Transformer的AI模型MP4,能通过功能文本提示生成全新的功能性蛋白质序列,突破了传统方法需先定义骨架结构的限制。该方法训练包含138,000个标记和32亿个数据点的广泛数据集,生成数千个独特的蛋白质描述,并评估其结构稳定性和功能匹配性。实验结果显示,MP4生成的蛋白质序列在实验中表现出高表达率和良好的热稳定性,84%的测试序列成功表达,部分蛋白质的热稳定性接近90°C,在蛋白质设计领域具有广泛的应用潜力。


14. Active learning for improving out-of-distribution lab-in-the-loop experimental design

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.02.26.640110

代码: https://github.com/csi-greifflab/AbAgAL

简介: 本文研究主动学习在抗体-抗原结合预测中的应用,开发了14种主动学习策略,显著提高在分布外数据上的预测效率。该方法通过Absolut!模拟框架生成包含117个抗原和2230个抗体的260,910个结合对数据集,评估不同主动学习策略在减少实验迭代次数和加速学习过程方面的效果。实验结果表明,基于汉明平均距离的策略在测试集上表现最佳,比随机基线提高了1.795%,并减少了35%的抗原突变变体需求,主动学习策略能够显著提高抗体-抗原结合预测的实验效率。


15. An interpretable deep geometric learning model to predict the effects of mutations on protein–protein interactions using large‑scale protein language model

期刊: Journal of Cheminformatics

链接: https://doi.org/10.1186/s13321-025-00979-5

代码: https://github.com/Caiya-Zhang/GES_PPI_for_binding_affinity_prediction

简介: 本文提出基于Transformer的图神经网络模型GES-PPI,用于预测突变对蛋白质-蛋白质相互作用(PPI)的影响。创新点是结合局部和全局特征,并利用预训练的蛋白质语言模型增强特征表示。方法包括使用门控图神经网络(GNN)和图Transformer处理蛋白质复合物的三维结构,并结合进化尺度建模(ESM)提供的全局特征。在五个公开数据集(S2648、S3421、S4169、M1101、M1707)上实验,模型在预测结合亲和力变化时表现出色,均方根误差为1.10,皮尔逊相关系数接近0.71,优于四种最先进的基线方法。该研究为研究免疫反应和疾病病因提供了新的视角,可能推动与PPI相关的生物学和生物化学研究。


16. PCANN Program for Structure‐Based Prediction of Protein Protein Binding Affinity: Comparison With Other Neural‐Network Predictors

期刊: Proteins: Structure, Function, and Bioinformatics

链接: https://doi.org/10.1002/prot.26821

简介: 本文介绍PCANN,一种基于ESM-2语言模型和图注意力网络(GAT)的蛋白质复合物亲和力预测工具。创新点是利用ESM-2编码蛋白质结合界面信息,并通过GAT进行预测。方法是将蛋白质复合物结构转换为图,节点特征由ESM-2生成,边特征为原子间距离,经过三层GATConv/EdgeConv迭代后,通过MLP预测Kd值。在两个未使用过的文献提取数据集上实验,PCANN的平均绝对误差为1.3 kcal/mol,优于公开的预测工具BindPPI(1.4 kcal/mol),在蛋白质复合物亲和力预测中表现出色,未来有望应用于蛋白质突变和设计的亲和力预测。


17. TopEC: prediction of Enzyme Commission classes by 3D graph neural networks and localized 3D protein descriptor

期刊: Nature Communications

链接: https://doi.org/10.1038/s41467-025-57324-5

简介: 本文提出TopEC,一种基于3D图神经网络和局部3D描述符的酶分类预测工具。创新点是通过局部3D描述符减少折叠偏差,并利用距离和角度信息提升预测性能。方法包括使用SchNet和DimeNet++处理酶结构的3D信息,并通过局部3D描述符聚焦于酶的活性位点。在多个数据集(Binding MOAD、TopEnzyme、PDB300、AF703)上实验,TopEC在预测酶分类时F1得分为0.72,优于其他神经网络模型,为酶功能预测提供了新的工具,在酶发现和工程中具有潜在应用价值。


18. Robust enzyme discovery and engineering with deep learning using CataPro

期刊: Nature Communications

链接: https://doi.org/10.1038/s41467-025-58038-4

简介: 本文开发CataPro,一种基于预训练模型和分子指纹的深度学习模型,用于预测酶动力学参数(kcat、Km、kcat/Km)。创新点是通过无偏数据集评估模型性能,并结合传统方法进行酶发现和工程。方法包括使用ProtT5-XL-UniRef50模型编码酶序列,结合MoIT5嵌入和MACCS指纹表示底物,并通过神经网络预测动力学参数。在BRENDA和SABIO-RK数据库的无偏数据集上实验,CataPro在预测kcat、Km和kcat/Km时表现出色,优于其他基线模型,在酶发现和工程中展示了强大的应用潜力,在优化酶活性方面效果显著。


19. Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens

期刊: arxiv

链接: https://arxiv.org/abs/2503.16278

简介: 本文提出通过自回归预测统一3D生成与理解的框架,创新采用层次化tokenization和两层级子树压缩策略,显著提升3D结构生成与理解的效率与效果。该方法通过八叉树压缩3D空间,并结合细粒度结构tokenization,捕捉原子类型和精确坐标等关键属性。在分子、蛋白质、聚合物和晶体等多个微观3D任务上实验验证了其有效性,性能超越现有扩散模型,推理速度提升了21.8倍,在3D生成与理解任务中表现出色,具有广泛的应用潜力。


20. ATP-Pred: Prediction of Protein-ATP Binding Residues via Fusion of ResidueLevel Embeddings and Kolmogorov–Arnold Network

期刊: Journal of Chemical Information and Modeling

链接: https://doi.org/10.1021/acs.jcim.5c00016

简介: 本文提出基于残差级嵌入和Kolmogorov-Arnold网络的蛋白质-ATP结合残基预测方法,创新结合两种预训练蛋白质语言模型(Ankh和ProstT5)以及CNN-BiLSTM网络,提升预测的准确性和泛化能力。在ATP-227、ATP-17、ATP-338、ATP-41、ATP-549和ATP-202六个数据集上实验,结果表明ATP-Pred在多个独立测试集上优于现有方法,处理数据不平衡问题时表现出色,为大规模蛋白质-ATP结合残基预测提供了可靠的工具。


21. Multi-modal deep representation learning accurately identifies and interprets drug-target interactions

期刊: IEEE Journal of Biomedical and Health Informatics

链接: https://doi.org/10.1109/JBHI.2025.3553217

代码: https://github.com/joannacatj/UnitedDTA

简介: 本文提出了一种多模态深度表示学习框架,创新地通过对比学习和跨模态注意力机制整合了序列、图和3D结构等多模态数据,显著提升了药物-靶标结合亲和力预测的准确性和可解释性。实验在Davis和KIBA数据集上进行,结果表明UnitedDTA在已知和未知药物-靶标对的预测中均优于现有方法,并通过分子对接实验验证了其预测的可解释性。该方法在药物发现和开发中具有广泛的应用前景。

This post is licensed under CC BY 4.0 by the author.

Trending Tags