Post

AI+Drug Snapshot | 250328 | 通过少样本学习整合AlphaFold2,预测突变诱导的相对蛋白质-配体结合亲和力变化

AI+Drug Snapshot | 250328 | 通过少样本学习整合AlphaFold2,预测突变诱导的相对蛋白质-配体结合亲和力变化

关注MindDance微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展

1. Predicting Mutation-Induced Relative Protein-Ligand Binding Affinity Changes via Conformational Sampling and Diversity Integration with Subsampled Alphafold2 in Few-Shot Learning

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.02.09.637298

代码: https://github.com/AIMedDrug/STGNet

简介: 该论文提出一种少样本学习方法,通过整合AlphaFold2子采样、集成对接和连体学习,预测突变诱导的相对蛋白质-配体结合亲和力变化。研究利用AlphaFold2子采样生成蛋白质构象,经高斯拟合筛选后构建数据集,用STGNet模型学习结构信息进行预测。研究使用ABL激酶的31个突变体和6种TKI分子构建数据集,并在PDBbind数据库的精炼集上进行验证。结果显示,该方法在预测相对结合亲和力方面,相比基于物理的方法,在排名能力上表现更优。该研究为预测蛋白质或配体突变引起的结合能变化提供了有效工具。


2. RRIkinDP: Targeted RNA–RNA interaction kinetics

期刊: bioRxiv

链接: https://doi.org/10.1101/2023.07.28.548983

代码: https://github.com/mwaldl/RRIkinDP

简介: 论文提出一种靶向RNA-RNA相互作用动力学模型RRIkinDP,解决现有方法忽略动力学效应及计算复杂度高的问题。该模型聚焦特定候选相互作用结构,限制状态空间,将相互作用形成描述为马尔可夫过程。研究以大肠杆菌中sRNA-mRNA相互作用为案例,通过对比天然和随机化的相互作用,评估模型性能。数据集包含手动整理的大肠杆菌sRNA-mRNA相互作用数据及通过二核苷酸洗牌生成的诱饵相互作用数据。结果表明,该模型能有效计算各种特征,且部分动力学特征可提高对真实相互作用的识别能力。该模型为研究RNA-RNA相互作用动力学提供了新途径。


3. ProtoBERT-LoRA: Parameter-Efficient Prototypical Finetuning for Immunotherapy Study Identification

期刊: arXiv

链接: https://arxiv.org/abs/2503.20179v1

简介: 论文提出ProtoBERT-LoRA混合框架,结合PubMedBERT、原型网络和低秩适应 (LoRA)技术,解决免疫治疗研究识别中的挑战,提升低资源环境下的识别性能。该框架以PubMedBERT为骨干,通过LoRA进行参数高效微调,并利用原型网络进行分类。研究人员从GEO数据库获取数据并预处理,设置多组实验对比不同方法。结果显示,ProtoBERT-LoRA在测试集上F1分数达0.624,优于其他基线方法,应用于未标记研究时能减少82%的人工审核工作量。该框架为癌症研究中免疫治疗相关研究的识别提供了有效工具。


4. Generation of antigen-specific paired chain antibody sequences using large language models

期刊: bioRxiv

链接: https://doi.org/10.1101/2024.12.20.629482

简介: 本文介绍了MAGE模型,它是一种基于序列的蛋白质语言模型,能生成针对特定抗原的配对人类可变重链和轻链抗体序列,且无需起始模板。该模型通过在包含抗体-抗原序列对的数据库上微调预训练模型得到。研究针对SARS-CoV-2、禽流感H5N1和呼吸道合胞病毒A(RSV-A)进行抗体生成实验,经筛选和实验验证,生成的抗体具有多样性且能与相应抗原结合。如针对SARS-CoV-2 RBD生成的抗体,部分具有高亲和力和中和活性。MAGE为抗体发现提供了新方法,展现出在抗体设计领域的潜力。


5. The Microbiology Galaxy Lab: A community-driven gateway to tools, workflows, and training for reproducible and FAIR analysis of microbial data

期刊: bioRxiv

链接: https://doi.org/10.1101/2024.12.23.629682

代码: https://github.com/usegalaxy-eu/microgalaxy_paper_2025; https://github.com/galaxyproject/galaxy_codex

简介: 微生物学Galaxy实验室是社区驱动的微生物数据分析平台,集成超290个工具套件、85个工作流程及丰富培训资源,遵循FAIR原则。其工具来源于Galaxy ToolShed,经社区筛选整理,工作流程分不同级别开发和管理。通过调查收集需求和用例,分析Galaxy对微生物研究的影响。该平台已在临床微生物基因组学、环境微生物学等多领域广泛应用,如助力发现耐药突变、研究微生物生态功能等。它为全球微生物研究人员提供了有力支持,推动微生物研究发展。


6. CacPred: a cascaded convolutional neural network for TF‑DNA binding prediction

期刊: BMC Genomics

链接: https://doi.org/10.1186/s12864-025-11399-y

代码: https://github.com/zhangsq06/CacPred

简介: 论文提出级联卷积神经网络模型CacPred用于预测TF-DNA结合,其创新点在于仅使用卷积算法,避免池化操作导致的序列信息丢失。研究中,CacPred以790个ChIP-seq数据集和7个ChIP-nexus数据集为实验数据,将正向和反向互补序列编码输入模型,经多轮卷积等操作进行预测,并采用Adadelta算法优化模型。实验结果显示,CacPred在预测TF-DNA结合上优于其他6种对比模型,在ChIP-seq数据集上平均准确率、马修斯相关系数和八项指标雷达图面积分别提高了3.3%、9.2%和6.4%;在ChIP-nexus数据集上也有显著提升。该研究表明CacPred是一种有效可行的预测模型。


7. Generative deep learning for de novo drug design – a chemical space odyssey

期刊: ChemRxiv

链接: https://doi.org/10.26434/chemrxiv-2025-1zs8j

简介: 该论文探讨生成式深度学习在药物设计中的应用,分析其面临的挑战与机遇,创新点在于全面剖析多种分子生成、评估及优化策略。研究阐述了分子表示、深度学习架构、分子设计策略及设计评估等方面内容。实验涉及多种分子表示方法、不同深度学习架构及多个评估指标。如使用GuacaMol和MOSES等基准平台测试模型,结果显示不同方法各有优劣。该研究为深入理解生成式深度学习在药物设计中的应用提供参考,助力推动该领域发展。


8. Prediction of drug target interaction based on under sampling strategy and random forest algorithm

期刊: PLOS ONE

链接: https://doi.org/10.1371/journal.pone.0318420

简介: 该研究提出一种结合多种药物分子指纹和蛋白质序列信息预测药物靶点相互作用的方法,通过随机投影降维、NearMiss下采样和随机森林分类器,解决样本类别不平衡和模型计算量大的问题。研究使用金标准数据集,包括酶、GPCR、离子通道和核受体四个子集,实验采用10折交叉验证并重复五次。结果显示,该方法在四个数据集上均取得优异成绩,如在酶数据集上auROC达99.33%。与其他方法相比,该方法考虑更全面的信息,在预测药物靶点相互作用上更有效,为药物研发提供了有力的计算工具。


9. MultiKD‑DTA: Enhancing Drug‑Target Affinity Prediction Through Multiscale Feature Extraction

期刊: Interdisciplinary Sciences: Computational Life Sciences

链接: https://doi.org/10.1007/s12539-025-00697-4

代码: https://github.com/NethanHu/MultiKD-DTA

简介: 论文提出MultiKD-DTA模型,通过多尺度特征提取提高药物-靶点亲和力预测精度,创新地结合图神经网络、预训练蛋白质模型和注意力机制。该模型用ESM-2编码蛋白质序列,经BiLSTM处理,药物化合物由GNN和WiDeCNN提取特征,最后融合特征预测亲和力。研究使用Davis和KIBA两个公开数据集,以均方误差为损失函数,用AdamW优化器训练模型。实验结果表明,该模型在MSE和CI指标上优于现有模型,消融实验验证了关键组件的有效性,t-SNE可视化展示了模型对数据的有效区分能力,为药物研发提供了更精准的预测方法。


10. LC-PLM: Long-context Protein Language Modeling Using Bidirectional Mamba with Shared Projection Layers

期刊: bioRxiv

链接: https://doi.org/10.1101/2024.10.29.620988

简介: 论文提出LC-PLM和LC-PLM-G模型,通过基于双向Mamba架构和图上下文训练,提升蛋白质语言模型的长上下文能力和性能。研究采用双向Mamba-S架构,以UniRef50等数据集进行预训练,并设计图上下文训练阶段。实验中对不同模型进行多种任务评估,如在蛋白质结构预测任务中,LC-PLM在相关数据集上比ESM-2表现更优;在远程同源性预测等任务中,LC-PLM-G也展现出良好性能。研究表明,LC-PLM具有更好的神经缩放定律和长度外推能力,LC-PLM-G能有效捕捉图上下文信息,为蛋白质研究提供了新的模型和方法。


11. Simple controls exceed best deep learning algorithms and reveal foundation model effectiveness for predicting genetic perturbations

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.01.06.631555

代码: https://github.com/pfizer-opensource/perturb_seq

简介: 该研究提出简单基线方法CRISPR-informed mean,其在预测遗传扰动对转录组影响任务上优于深度学习算法,并评估了基础模型的有效性。研究人员利用该方法和其他对照实验,对GEARS、scGPT等模型在Perturb-seq数据集上进行评估。结果显示,CRISPR-informed mean在多个指标上表现出色,且发现基础模型权重和transformer注意力机制在该任务中优势不明显。研究表明,当前深度学习和基础模型在该任务上未超越简单方法,为后续模型开发和评估提供了基准和思路。


12. ConfuseNN: Interpreting convolutional neural network inferences in population genomics with data shuffling

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.03.24.644668

代码: https://github.com/lntran26/ConfuseNN

简介: 论文提出ConfuseNN方法,通过对输入单倍型矩阵进行数据洗牌操作,探究群体遗传特征对卷积神经网络(CNN)性能的影响。研究人员对三个已发表的用于群体遗传推断的CNN模型应用该方法,在保持数据生成、预处理和CNN训练与原研究相似的情况下,对测试数据进行不同程度的特征打乱。结果发现,不同CNN对特征改变的敏感度不同,如disc-pg-gan对测试数据挑战度有要求,Imagene依赖连锁特征,Flagel等人的模型受等位基因频率谱影响较大。该方法为解释群体遗传学中CNN的行为提供了有效框架。


13. AI-Driven Efficient De Novo design of GLP-1RAs with Extended Half-Life and Enhanced Efficacy

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.03.26.645438

简介: 文章介绍了一种整合深度学习与高效功能筛选的方法,用于设计具有延长半衰期和增强疗效的GLP-1受体激动剂(GLP-1RAs)。研究利用ProteinMPNN设计10000种新的GLP-1RAs,经稳定性、疗效和多样性筛选后,对60种进行体外和体内验证。实验使用了糖尿病和肥胖小鼠模型等,结果显示,部分设计的GLP-1RAs在体内半衰期显著延长,降糖和减肥效果优于司美格鲁肽。该研究为肽类药物设计提供了新途径,且整个设计到筛选过程可在两周内完成。


14. Publishing neural networks in drug discovery might compromise training data privacy

期刊: Journal of Cheminformatics

链接: https://doi.org/10.1186/s13321-025-00982-w

代码: https://github.com/FabianKruger/molprivacy

简介: 论文指出公开用于药物发现的神经网络可能泄露训练数据中的化学结构信息,提出评估分类模型和分子表示隐私风险的框架。研究采用成员推理攻击方法,在黑盒场景下对不同神经网络进行测试。实验使用四个不同的药物相关数据集,结果显示不同攻击方法均能识别训练数据中的分子,且少数类分子更易被识别;结合多种攻击可增加识别分子数量,而图表示和消息传递神经网络能降低信息泄露风险。该研究为药物研发中平衡数据保密与模型公开提供了参考。


15. A multimodal model for protein function prediction

期刊: Scientific Reports

链接: https://doi.org/10.1038/s41598-025-94612-y

简介: 该文提出多模态蛋白质功能预测模型MMPFP,整合蛋白质序列和结构信息,提升预测准确性。模型包含蛋白质序列编码、多层图卷积网络蛋白质表示和蛋白质卷积三个模块。研究使用PDB数据库和AlphaFold蛋白质结构数据库中的数据进行实验,结果表明,MMPFP在分子功能、生物过程和细胞成分预测任务上优于传统单模态模型,AUPR、Fmax、Smin等指标均有3-5%的提升,消融实验验证了模型中Transformer模块的有效性。该模型为蛋白质功能预测提供了更准确全面的框架。


16. Adaptive representation of molecules and materials in Bayesian optimization

期刊: Chemical Science

链接: https://doi.org/10.1039/d5sc00200a

代码: https://github.com/AI4ChemS/FABO

简介: 文章介绍了特征自适应贝叶斯优化(FABO)框架,将特征选择集成到贝叶斯优化过程中,能在无先验知识时动态优化材料表示。该框架在优化循环中通过数据标注、更新材料表示、更新代理模型和选择下一个实验这四个步骤,利用最大相关最小冗余(mRMR)和Spearman排序等方法选择特征。研究以金属有机框架(MOF)相关任务为例,使用QMOF数据库和CoRE2019数据库进行实验,结果显示FABO优于随机搜索和其他固定特征选择方法,能有效识别关键特征。FABO为材料发现提供了更灵活高效的方法。


This post is licensed under CC BY 4.0 by the author.

Trending Tags