Post

AI+Drug Snapshot | 250320 | DTIAM通过自监督预训练从大量无标签数据中学习药物和靶标的表示,显著提升了冷启动场景下的预测性能

AI+Drug Snapshot | 250320 | DTIAM通过自监督预训练从大量无标签数据中学习药物和靶标的表示,显著提升了冷启动场景下的预测性能

关注MindDance微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展

1. ABCFold: easier running and comparison of AlphaFold 3, Boltz-1 and Chai-1

biorxiv
本文提出了ABCFold,简化了AlphaFold 3、Boltz-1和Chai-1的运行与结果比较,通过标准化输入和统一输出格式,提升了用户体验和结果的可比性。该方法通过单一JSON输入文件自动转换为各工具所需格式,支持自定义多序列比对(MSA)和模板,并利用MMseqs2 API生成MSA,避免了本地数据库的下载需求。实验中使用UniRef30和colabfold_envdb数据集进行MSA搜索,结果显示ABCFold能够有效整合和比较不同工具的预测结果,提供丰富的可视化选项,包括pLDDT和PAE的交互式展示。ABCFold为结构预测领域提供了一种高效且用户友好的解决方案。


2. Learning the language of protein–protein interactions

biorxiv
本文提出了一种名为MINT的蛋白质语言模型,创新性地通过跨链注意力机制同时处理多个相互作用的蛋白质序列,解决了传统蛋白质语言模型在蛋白质 - 蛋白质相互作用(PPI)建模中的局限性。MINT基于ESM - 2架构,通过修改掩码语言建模目标并引入跨链注意力模块,利用STRING数据库中的96百万高质量PPI数据进行训练,显著提升了PPI预测的准确性。实验表明,MINT在多个任务中表现优异,包括二元相互作用分类、结合亲和力预测、突变影响评估、抗体建模和TCR - 表位 - MHC相互作用预测,特别是在SKEMPI和FLAB等数据集上取得了显著改进。MINT在癌症相关PPI突变和SARS - CoV - 2抗体交叉中和预测中的应用进一步展示了其生物医学研究中的潜力。


3. Zero-shot segmentation using embeddings from a protein language model identifies functional regions in the human proteome

biorxiv
本文提出了一种基于蛋白质语言模型ProtT5的零样本蛋白质分割方法(ZPS),创新地利用无监督学习生成的嵌入来识别和分类蛋白质功能区域,无需训练或微调。该方法通过变化点分析预测蛋白质片段的边界,并在人类蛋白质组中验证了其与UniProt注释的一致性,优于现有的生物信息学工具。实验使用人类蛋白质组数据集,结果显示ZPS在预测折叠域和内在无序区域(IDRs)方面表现出色,并成功识别了未注释的线粒体靶向信号和SYGQ - rich prion - like域。总结而言,ZPS为蛋白质功能区域的自动注释提供了一种高效且无偏的方法。


4. HighPlay:Cyclic Peptide Sequence Design Based on Reinforcement Learning and Protein Structure Prediction

biorxiv
本文提出了一种名为HighPlay的循环肽序列设计框架,创新地结合了强化学习(蒙特卡洛树搜索)和HighFold蛋白质结构预测模型,动态探索序列空间以生成适合的循环肽结合物。该方法通过随机初始化循环肽序列,利用HighFold预测三维构象,并通过强化学习策略迭代优化序列。实验针对三个不同靶点设计循环肽序列,使用分子动力学模拟和表面等离子体共振分析验证了其结合亲和力,其中TEAD4靶点的循环肽在实验中表现出微摩尔级亲和力。总结而言,HighPlay为循环肽设计提供了一种高效且无需预定义靶点信息的新方法。


5. Drug Repurposing through Meta-path Reconstruction using Relationship Embedding

biorxiv
本文提出了一种基于元路径重建的药物重定位模型PREDR,创新地通过嵌入异构生物知识图中的关系来预测药物 - 疾病相互作用,并解释其作用机制。该方法通过构建药物 - 基因 - 疾病的元路径,利用多层神经网络嵌入异构关系,重建药物 - 疾病相互作用矩阵。实验使用DrugBank、DisGeNet和BioSNAP数据集,结果显示PREDR在预测药物 - 疾病相互作用方面优于现有模型,并在急性淋巴细胞白血病的案例研究中成功识别了潜在的重定位药物。总结而言,PREDR为药物重定位提供了一种高效且可解释的计算方法。


6. Deep contrastive feature compression with classical machine learning enables ligand discovery through efficient triage of large chemical libraries

biorxiv
本文提出了一种名为LEAD的虚拟筛选框架,通过结合深度对比特征压缩和经典机器学习方法,显著提高了化合物 - 蛋白质相互作用(CPI)预测的效率和准确性。该方法利用七种不同的特征表示,包括蛋白质语言模型和分子变换器的嵌入,以及一种新的CPI潜在指纹,通过对比压缩神经网络将高维特征映射为低维表示,并使用决策树集成进行分类。实验在D - DUD - E、BindingDB和ChEMBL数据集上进行,结果表明ET - Screen在多个基准测试中优于现有方法,速度比标准精度分子对接快约100倍。该框架成功筛选出1080万个化合物,最终发现了多个实验验证的新化合物。LEAD框架为加速药物发现提供了可靠且高效的解决方案。


7. Atomic Protein Structure Modeling from Cryo-EM Using Multi-Modal Deep Learning and AlphaFold3

biorxiv
本文提出了一种基于深度学习的蛋白质结构预测方法,通过结合Cryo2Struct2生成的模板与AlphaFold3,显著提高了蛋白质结构的预测精度。该方法使用3D Transformer和HMM模型从冷冻电镜密度图中预测原子结构,并将预测结果作为模板输入AlphaFold3进行结构优化。实验在2024年发布的冷冻电镜密度图数据集上进行,结果表明,结合模板的AlphaFold3比不结合模板的版本在TM - score和序列一致性上均有显著提升。该方法为冷冻电镜数据驱动的蛋白质结构预测提供了新的思路。


8. Join Persistent Homology (JPH)-Based Machine Learning for Metalloprotein–Ligand Binding Affinity Prediction

Journal of Chemical Information and Modeling
本文首次提出了联合持久同调(JPH)方法,并将其应用于金属蛋白 - 配体结合亲和力预测,显著提高了预测精度。该方法通过设计特殊的测试单纯复形,并结合多阶段过滤函数,生成更全面的拓扑特征描述符,进而使用梯度提升树(GBT)模型进行预测。实验在PDBbind - v2020数据集上进行,结果表明JPH - GBT模型在Pearson相关系数和均方根误差上均优于现有模型。该方法为金属蛋白 - 配体相互作用的研究提供了新的工具。


9. DTIAM: a unified framework for predicting drug-target interactions, binding affinities and drug mechanisms

Nature Communications
本文提出了一种名为DTIAM的统一框架,用于预测药物 - 靶标相互作用(DTI)、结合亲和力 (DTA)以及药物作用机制(MoA),其创新点在于通过自监督预训练从大量无标签数据中学习药物和靶标的表示,显著提升了冷启动场景下的预测性能。方法上,DTIAM包括药物分子预训练模块、靶标蛋白预训练模块和统一的药物 - 靶标预测模块,分别通过多任务自监督学习和Transformer注意力图提取特征。实验在Yamanishi_08、Hetionet、Davis和KIBA等数据集上进行,结果表明DTIAM在所有任务中均优于现有方法,特别是在冷启动场景下表现尤为突出。总结而言,DTIAM为药物发现提供了强大的预测工具,尤其在处理新药物或靶标时表现出色。


10. Employing Automated Machine Learning (AutoML) Methods to Facilitate the In Silico ADMET Properties Prediction

Journal of Chemical Information and Modeling
本文开发了一种基于自动化机器学习(AutoML)的模型,用于预测化学化合物的11种ADMET性质,其创新点在于通过Hyperopt - sklearn AutoML方法自动选择最佳模型算法和超参数组合,显著提升了预测性能。方法上,模型结合了40种分类算法和三种预定义的超参数配置,通过AutoML方法自动优化模型。实验在ChEMBL和Metrabase等数据集上进行,结果表明所有开发的模型在ROC曲线下面积(AUC)均大于0.8,且在外部分数据集上表现优于大多数已发布的预测模型。总结而言,该研究证明了AutoML在ADMET预测中的适用性,为早期药物发现提供了有力支持。


11. A structure-based framework for selective inhibitor design and optimization

Communications Biology
本文提出了一种名为CMD - GEN的结构化分子生成框架,用于选择性抑制剂的设计和优化,其创新点在于通过粗粒度和多维数据驱动的分子生成方法,解决了现有模型在药物数据不足和选择性抑制剂设计中的局限性。方法上,CMD - GEN包括粗粒度三维药效团采样模块、基于门控条件和药效团约束的分子生成模块以及基于药效团对齐的构象生成模块,通过分层架构逐步生成具有潜在生物活性的分子。实验在Crossdocked和ChEMBL等数据集上进行,结果表明CMD - GEN在基准测试中优于其他方法,且在PARP1/2选择性抑制剂的湿实验验证中表现出色。总结而言,CMD - GEN为药物设计提供了新的工具,尤其在选择性抑制剂开发中具有重要应用价值。


12. Beyond Atoms: Enhancing Molecular Pretrained Representations with 3D Space Modeling

arxiv
本文提出了一种名为SpaceFormer的分子预训练表示框架,其创新点在于通过建模分子周围的3D空间,显著提升了分子预训练表示的性能。方法上,SpaceFormer通过网格化空间离散化、网格采样/合并和高效的3D位置编码,将分子视为3D“图像”进行处理,并结合掩码自编码器(MAE)进行预训练。实验在GDB - 17和MoleculeNet等数据集上进行,结果表明SpaceFormer在15个下游任务中表现优异,尤其在有限数据场景下显著优于现有3D MPR模型。总结而言,SpaceFormer为分子预训练表示提供了新的范式,进一步推动了该领域的发展。


13. seqLens: optimizing language models for genomic predictions

biorxiv
本文提出了一种名为seqLens的DNA语言模型,通过解耦注意力和相对位置编码优化基因组预测任务,创新点在于其动态字节对编码(BPE)和模型架构的改进。方法包括使用DeBERTa - v2和ESM架构,结合BPE进行DNA序列的预训练和微调。实验使用了来自NCBI的19,551个参考基因组和1,354个多物种基因组数据集,结果表明seqLens在19个基准任务中的13个上表现优于现有模型。总结表明,seqLens通过动态分词和持续预训练显著提升了基因组语言模型的性能。


14. SCOPE-DTI: Semi-Inductive Dataset Construction and Framework Optimization for Practical Usability Enhancement in Deep Learning-Based Drug Target Interaction Prediction

arxiv
本文提出了SCOPE - DTI框架,通过构建大规模半诱导人类药物 - 靶点相互作用(DTI)数据集和结合三维结构表示的深度学习模型,创新点在于其数据集平衡和模型架构的优化。方法包括使用图神经网络(GNN)和双线性注意力机制(BAN)进行药物和靶点的三维结构编码。实验使用了来自13个公共数据库的SCOPE数据集,结果表明SCOPE在多个基准数据集上表现优于现有方法,并通过实验验证了人参皂苷Rh1的抗癌靶点。总结表明,SCOPE - DTI通过数据驱动和结构表示提升了DTI预测的实用性和准确性。


15. Rapid traversal of vast chemical space using machine learning-guided docking screens

Nature Computational Science
本文提出了一种结合机器学习和分子对接的虚拟筛选方法,创新点在于使用保形预测(CP)框架快速筛选数十亿规模的化合物库。方法包括使用CatBoost分类器对1百万个化合物进行训练,并通过CP框架筛选出高评分化合物进行分子对接。实验使用了Enamine REAL数据库中的3.5亿个化合物,结果表明该方法将计算成本降低了1000倍,并成功识别出G蛋白偶联受体的配体。总结表明,该方法通过机器学习加速虚拟筛选,显著提高了大规模化合物库的筛选效率。


16. Molecular Generation for CNS Drug Discovery and Design

ACS Chemical Neuroscience
本文探讨了生成式人工智能(GenAI)在CNS药物设计中的应用,特别是如何通过GenAI技术生成能够有效穿透血脑屏障(BBB)的新化合物。作者介绍了CNS药物设计的关键数据资源和CNS药物样性质的定义,并提出了训练专门针对CNS药物设计的GenAI模型的必要性。通过整合实验数据集和先进的评估指标,GenAI有望加速CNS药物的发现和设计。实验部分讨论了CNS - MPO评分系统和多种生成模型(如CNSMolGen、DiffSBDD等)在CNS药物设计中的应用。总结指出,GenAI在CNS药物设计中具有巨大潜力,但仍需解决数据不足和合成可行性等挑战。


17. UMPPI: Unveiling Multilevel Protein–Peptide Interaction Prediction via Language Models

Journal of Chemical Information and Modeling
本文提出了UMPPI框架,基于预训练的蛋白质语言模型ESM2,用于同时预测蛋白质 - 肽的二元相互作用和结合残基。UMPPI通过多目标优化策略,结合序列和结构信息,填补了序列和结构方法之间的差距。实验使用了从PDB数据库中提取的蛋白质 - 肽复合物数据集,并通过PLIP工具识别非共价相互作用,最终构建了包含8989个正样本的数据集。结果表明,UMPPI能够有效捕捉蛋白质 - 肽的相互作用并识别结合残基。总结指出,UMPPI为蛋白质 - 肽相互作用预测和肽药物发现提供了有力工具。


18. Advanced Deep Learning Methods for Protein Structure Prediction and Design

arxiv
本文综述了蛋白质结构预测和设计中的深度学习方法的进展,特别是AlphaFold、RoseTTAFold和ProteinMPNN等模型的突破性应用。作者详细介绍了蛋白质结构预测的历史、传统方法(如同源建模、分子动力学模拟)以及深度学习方法的创新,并探讨了这些技术在药物开发、酶工程和材料科学中的应用。实验部分展示了AlphaFold2在CASP14竞赛中的优异表现,以及其在蛋白质结构预测中的高精度和速度。总结指出,深度学习正在彻底改变蛋白质结构预测和设计领域,未来有望在更多生物医学应用中发挥作用。


19. Benchmarking community drug response prediction models: datasets, models, tools, and metrics for cross-dataset generalization analysis

arxiv
本文提出了一个用于评估药物反应预测(DRP)模型跨数据集泛化能力的基准框架,旨在解决现有模型在真实世界应用中的泛化问题。该框架整合了五个公开的药物筛选数据集(CCLE、CTRPv2、gCSI、GDSCv1、GDSCv2),并标准化了六个DRP模型的评估流程。实验通过交叉数据集分析,评估了模型在不同数据集上的表现,结果显示模型在未见数据集上的性能显著下降,CTRPv2数据集在训练中表现出较好的泛化能力。总结指出,该基准框架为DRP模型的开发和比较提供了标准化工具,有助于提高模型的真实世界适用性。


20. GraphBAN: An inductive graph-based approach for enhanced prediction of compound-protein interactions

Nature Communications
本文提出了一种基于图神经网络的化合物-蛋白质相互作用预测模型GraphBAN,创新点在于通过知识蒸馏和领域适应模块提升模型在未见数据上的预测能力。方法上,GraphBAN结合了图自编码器和双线性注意力网络,利用化合物和蛋白质的特征进行联合表示学习。实验在五个基准数据集(BindingDB、BioSNAP、KIBA、PDBbind 2016和C.elegans)上进行,结果表明GraphBAN在AUROC、AUPRC和F1分数上均优于现有模型,特别是在Pin1蛋白的案例研究中表现突出。总结来看,GraphBAN为药物发现提供了一种高效的计算工具。


21. TransGeneSelector: using a transformer approach to mine key genes from small transcriptomic datasets in plant responses to various environments

BMC Genomics
本文介绍了一种基于Transformer的小样本转录组数据关键基因挖掘模型TransGeneSelector,创新点在于结合WGAN - GP生成样本和Transformer进行基因分类,解决了小样本数据下的基因关系捕捉问题。方法上,TransGeneSelector通过WGAN - GP生成高质量样本,并利用Transformer进行基因分类和关键基因挖掘。实验在拟南芥的种子萌发和热应激数据集上进行,结果显示TransGeneSelector在分类准确性和基因挖掘效果上优于传统方法如随机森林和支持向量机。总结来看,TransGeneSelector为植物环境响应研究提供了一种强大的基因分析工具。


22. 3D-MolT5: Leveraging Discrete Structural Information for Molecule-Text Modeling

arxiv
本文提出了一种结合3D分子结构的分子 - 文本建模框架3D - MolT5,创新点在于通过3D分子指纹将分子结构信息转化为离散令牌,实现了分子序列、结构和文本的统一建模。方法上,3D - MolT5利用E3FP算法将3D分子结构转化为令牌,并结合T5模型进行多任务预训练。实验在PubChem、PubChemQC和QM9等数据集上进行,结果表明3D - MolT5在分子性质预测、分子描述生成等任务上显著优于现有方法,特别是在3D依赖性质预测任务上提升了近70%。总结来看,3D - MolT5为分子科学中的多模态建模提供了新的解决方案。


23. Tuning ProteinMPNN to reduce protein visibility via MHC Class I through direct preference optimization

Protein Engineering, Design and Selection
本文提出了一种通过直接偏好优化(DPO)调整ProteinMPNN以减少蛋白质通过MHC I类途径的免疫可见性的方法,创新点在于首次将免疫可见性减少任务直接整合到生成蛋白质序列的机器学习模型中。方法上,作者将DPO与MHC I肽段展示预测相结合,生成具有较少MHC I表位的蛋白质序列。实验使用了ProteinMPNN数据集,结果表明DPO有效减少了MHC I可见性且不损害蛋白质的结构完整性。总结来看,该方法为个性化MHC I类去免疫化提供了一种新工具。


24. Protein Language Pragmatic Analysis and Progressive Transfer Learning for Profiling Peptide–Protein Interactions

IEEE Transactions on Neural Networks and Learning Systems
本文提出了一种可解释的交互深度学习模型(IIDL - PepPI),用于分析肽 - 蛋白质相互作用,创新点在于通过双向注意力模块和渐进式迁移学习框架实现多层次的肽 - 蛋白质相互作用预测。方法上,模型结合了卷积神经网络和自注意力机制,并通过双向注意力模块显式融合肽和蛋白质的特征。实验使用了PDB数据库中的肽 - 蛋白质复合物数据集,结果表明IIDL - PepPI在预测肽 - 蛋白质二元相互作用和识别结合残基方面优于现有方法。总结来看,该模型为肽药物发现和蛋白质功能研究提供了有力工具。


25. Local–Global Structure-Aware Geometric Equivariant Graph Representation Learning for Predicting Protein–Ligand Binding Affinity

IEEE Transactions on Neural Networks and Learning Systems
本文提出了一种局部 - 全局结构感知的几何等变图表示学习框架(Geo - PLA),用于预测蛋白质配体结合亲和力,创新点在于通过等变图神经网络和图Transformer结合,捕捉蛋白质 - 配体复合物的几何信息。方法上,模型利用EGNN提取局部几何结构信息,并通过图Transformer捕获长程相互作用。实验使用了PDBbind和CSAR - HiQ数据集,结果表明Geo - PLA在预测结合亲和力方面优于现有方法。总结来看,该框架为虚拟筛选和药物重定位提供了有价值的生物学见解。


This post is licensed under CC BY 4.0 by the author.

Trending Tags