AI+Drug Snapshot | 250310 | MDFCL通过多模态数据融合和自适应增强策略,有效提升了分子性质预测的准确性
1. MDFCL: Multimodal data fusion-based graph contrastive learning framework for molecular property prediction
Pattern Recognition
本文提出了一种基于多模态数据融合的图对比学习框架(MDFCL),用于分子性质预测,创新点在于结合了分子图和序列结构,设计了自适应数据增强策略,并通过对比学习框架进行预训练。方法上,MDFCL通过图神经网络和卷积网络分别编码分子图和序列数据,利用自适应增强策略生成四种增强样本,并通过对比学习优化模型。实验在13个分子性质预测基准数据集上进行,包括BBBP、Tox21、ClinTox等,结果表明MDFCL在分类和回归任务中均表现出色,显著优于现有方法。总结而言,MDFCL通过多模态数据融合和自适应增强策略,有效提升了分子性质预测的准确性。
2. MGDM: Molecular generation using a multinomial diffusion model
Methods
本文提出了一种基于多项式扩散模型(MGDM)的分子生成方法,创新性地利用多项式扩散框架处理离散数据,并通过无分类器引导策略生成具有特定属性的分子。该方法通过逐步去噪从均匀噪声分布中生成有效的分子结构,实验在MOSES数据集上进行,结果表明MGDM在生成有效分子的同时,其新颖性和多样性优于或与现有最先进方法相当。MGDM展示了在分子生成领域的潜力,特别是在药物设计中的应用前景。
3. 3D-EDiffMG: 3D equivariant diffusion-driven molecular generation to accelerate drug discovery
Journal of Pharmaceutical Analysis
本文提出了一种名为3D-EDiffMG的三维等变扩散驱动分子生成模型,旨在通过基于支架的分子生成加速药物发现,创新点在于设计了双强-弱原子相互作用力编码器(dual-SWLEE)来捕捉共价键和非键相互作用,并引入带有微小注意力的门控多层感知器(gMLP)块以建模长程依赖关系。该方法通过模拟强(共价键)和弱(非键相互作用)原子相互作用,结合扩散模型生成具有特定支架的分子。实验使用了QM9和ZINC-9W数据集进行训练和评估,结果表明3D-EDiffMG在生成分子的有效性、新颖性和稳定性方面优于现有模型,特别是在生成基于tecovirimat支架的分子时表现出色。该模型为药物发现中的先导化合物结构优化提供了高效工具。
4. Enhancing Ligand Validity and Affinity in Structure-Based Drug Design with Multi-Reward Optimization
AAAI AI2ASE 2025
本文提出了一种多奖励直接偏好优化(DPO)方法,用于在基于结构的药物设计中同时优化配体的结合亲和力和有效性,解决了现有生成模型常产生无效配体的问题。该方法通过结合外部软件的有效性反馈和结合亲和力奖励,对预训练生成模型进行微调,生成更符合实际应用需求的配体。实验在PDBbind数据集上进行,结果表明多奖励DPO方法生成的配体在结合亲和力和有效性上均优于基线模型和单奖励模型,且生成的配体更符合药物特性。本文的研究展示了多奖励优化在药物发现中的潜力,提升了生成模型的实用性。
5. Guiding Generative Protein Language Models with Reinforcement Learning
arxiv
本文提出了一种基于强化学习(RL)的蛋白质语言模型(pLM)优化框架DPO_pLM,通过外部奖励机制引导模型生成具有特定功能的蛋白质序列,解决了传统pLM难以采样稀有高价值序列的问题。该方法借鉴了RL在语言模型中对齐人类偏好的成功经验,通过迭代微调pLM权重以最大化外部奖励,实现了无需额外数据的高效优化。实验中使用ZymCTRL模型,通过TM-score、CLEAN等外部奖励函数,成功优化了碳酸酐酶的特定折叠结构、胰腺核糖核酸酶的生成比例,并设计了具有纳摩尔级结合亲和力的EGFR结合蛋白。结果表明,DPO_pLM在保持序列多样性的同时,能够高效优化用户定义的蛋白质特性,显著提升了蛋白质设计的效率和精度。
6. Transformers for molecular property prediction: Domain adaptation efficiently improves performance
arxiv
本文研究了分子Transformer模型在预测分子性质时的局限性,并提出通过领域适应(Domain Adaptation, DA)来提升模型性能,发现预训练数据集大小超过40万分子后性能提升有限,而使用多任务回归(MTR)进行领域适应能显著改善三个ADME端点的预测效果。方法上,作者在GuacaMol数据集上进行预训练,并在ADME基准数据集上进行领域适应和评估,实验结果表明,预训练30%数据并使用MTR进行领域适应的模型与复杂模型如MolBERT和MolFormer性能相当,且与基于物理化学性质的随机森林模型表现相似。总结来说,本文展示了通过优化预训练数据多样性和选择合适的训练目标,可以高效提升分子Transformer模型的性能。
7. ACP-ESM2: Enhancing Anticancer Peptide Prediction with Pre-trained Protein Language Models
IEEE Transactions on Computational Biology and Bioinformatics
本文提出了一种基于预训练蛋白质语言模型ESM2和卷积神经网络(CNN)的深度学习框架ACP-ESM2,用于高效预测抗癌肽(ACP),创新点在于结合ESM2的全局特征提取能力和CNN的局部模式识别能力,显著提升了预测精度。方法上,ACP-ESM2首先利用ESM2对肽序列进行编码,提取关键特征,随后通过CNN和自注意力机制进一步捕捉局部和全局依赖关系,最后通过全连接层进行分类。实验使用了来自CancerPPD、APD3和SATPdb的数据集,分为训练集、Test1和Test2集,结果表明ACP-ESM2在Test1集上的ACC、SN、SP和MCC分别提升了2.3%、7.2%、12.6%和5%,在Test2集上达到了97.6%的准确率,显示出其优异的泛化能力。总结而言,ACP-ESM2为抗癌肽预测提供了一种高效且精确的工具,具有广泛的应用前景。
8. scHeteroNet: A Heterophily-Aware Graph Neural Network for Accurate Cell Type Annotation and Novel Cell Detection
Advanced Science
本文提出了一种名为scHeteroNet的异质性感知图神经网络框架,用于单细胞RNA测序数据中的细胞类型注释和新细胞检测,创新点在于其能够有效处理细胞图中的异质性,并通过新颖的传播机制检测未知细胞类型。该方法通过构建细胞图并利用异质性感知的图神经网络进行信息传递和特征聚合,结合零膨胀负二项分布模型处理稀疏数据。实验在多个公开的单细胞RNA测序数据集(如10x_5cl、Xin、Darmanis等)上进行,结果表明scHeteroNet在细胞类型注释和新细胞检测方面均优于现有方法。总结而言,scHeteroNet为单细胞数据分析提供了一种高效且准确的工具,特别适用于处理异质性复杂的生物系统。
9. NciaNet: A Non-Covalent Interaction-Aware Graph Neural Network for the Prediction of Protein-Ligand Interaction in Drug Discovery
IEEE Journal of Biomedical and Health Informatics
本文提出了一种名为NciaNet的非共价相互作用感知图神经网络,用于预测蛋白质-配体相互作用,创新点在于通过多策略图表示有效利用3D结构和非共价相互作用信息。该方法通过构建五种独立的图结构(配体图、口袋图、氢键图、疏水作用图和范德华作用图),并采用距离感知注意力机制和门控跳跃连接来提取分子特征。实验在PDBbind v.2016和v.2013基准数据集上进行,NciaNet在v.2016上取得了RMSE=1.208和R=0.833,在v.2013上取得了RMSE=1.409和R=0.805,并在CSAR-HiQ数据集上验证了其泛化能力。结果表明,NciaNet在预测性能和解释性方面均优于现有基线模型,展示了其在药物发现中的实用性和可靠性。
10. Further Exploration of the Quantitative Distance–Energy and Contact Number–Energy Relationships for Predicting the Binding Affinity of the Protein–Ligand Complexes
Biophysical Journal
本文进一步探索了基于距离-能量和接触数-能量关系的定量模型,用于预测蛋白质-配体复合物的结合亲和力,创新点在于扩展了传统能量项中的幂指数,并综合考虑了不同原子类型对的贡献。研究方法包括使用最小二乘法生成基于距离和接触数的线性模型,并通过大量数据集进行训练和验证。实验使用了PDBbind v.2020和CASF-2016数据集,筛选了5171个蛋白质-配体复合物进行模型训练,结果显示新模型的预测性能优于传统的非机器学习评分函数。总结表明,该研究为蛋白质-配体结合亲和力的预测提供了新的思路和方法,具有潜在的应用价值。
11. LeScore: a scoring function incorporating hydrogen bonding penalty for protein–ligand docking
Journal of Molecular Modeling
本文提出了一种新的蛋白质-配体对接评分函数LeScore,创新性地引入了氢键惩罚项(HBP),以更准确地预测结合能。该方法通过线性组合范德华相互作用、氢键能、配体应变能和HBP等描述符,并利用多重线性回归(MLR)在PDBbind 2019数据集上进行优化。实验结果表明,LeScore在训练集和测试集上的Pearson相关系数分别为0.53和0.52,并在DUD-E数据集上的筛选能力评估中,对特定靶点的AUC达到0.71,优于未包含HBP的模型。总体而言,LeScore为虚拟筛选提供了更强大的工具,尤其在氢键对配体结合至关重要的场景中表现突出。
12. Discovery of antimicrobial peptides with notable antibacterial potency by an LLM-based foundation model
Science Advances
本文提出了一种基于大语言模型(LLM)的抗菌肽(AMP)设计框架AMP-Designer,通过整合GPT、提示调优、对比学习、知识蒸馏和强化学习等技术,快速设计出具有广谱抗菌活性的AMP,并在48天内完成了从设计到验证的全过程。方法上,AMP-Designer首先在UniProt数据集上训练了AMP-GPT模型,随后通过对比提示调优和强化学习优化生成AMP的活性和多样性。实验结果显示,设计的18种AMP中有17种在体外表现出显著的抗菌活性,其中两种AMP(KW13和AI18)在小鼠肺部感染模型中表现出优异的治疗效果,且具有低溶血性和高血浆稳定性。总结而言,AMP-Designer展示了在有限数据下高效设计AMP的潜力,为解决抗生素耐药性问题提供了创新解决方案。
13. Strong Preferences Affect the Robustness of Preference Models and Value Alignment
ICLR 2025
本文研究了偏好模型在价值对齐中的鲁棒性,揭示了Bradley-Terry和Plackett-Luce模型在偏好概率接近0或1时对微小变化的敏感性,提出了K元组偏好模型在提高鲁棒性方面的优势。通过理论分析,作者证明了在Bradley-Terry和Plackett-Luce模型中,当某些偏好概率接近极端值时,其他偏好的预测概率会显著变化,并识别了这种敏感性发生的具体条件。实验部分使用Llama-3-8B-Instruct和Zephyr-7B-Alpha模型在合成数据集上进行训练,验证了理论分析的正确性,结果表明当训练数据中存在极端偏好时,模型对未指定偏好的预测会出现显著波动。总结指出,偏好模型在价值对齐中存在鲁棒性与建模极端偏好之间的权衡,而使用K元组偏好模型(K≥3)可以缓解敏感性并提高鲁棒性。
14. RNA-FrameFlow: Flow Matching for de novo 3D RNA Backbone Design
arxiv
本文提出了RNA-FrameFlow,首个用于3D RNA骨架设计的生成模型,创新性地将SE(3)流匹配应用于RNA骨架生成,解决了RNA建模中的独特挑战。方法上,RNA-FrameFlow通过将RNA结构表示为刚性框架,并结合结构聚类和裁剪增强策略,克服了3D RNA数据集的多样性不足问题。实验使用了RNAsolo数据集,包含40-150个核苷酸的RNA结构,结果表明生成的RNA骨架中超过40%通过自一致性验证(TM-score≥0.45),且局部结构描述符恢复良好。总结而言,RNA-FrameFlow为RNA设计提供了新的生成框架,推动了RNA结构设计领域的研究。
15. An antibody developability triaging pipeline exploiting protein language models
mAbs
本文提出了一种基于蛋白质语言模型的抗体可开发性筛选管道,通过机器学习方法从大规模抗体库中筛选出具有临床潜力的抗体,创新点在于利用蛋白质语言模型编码抗体序列并结合无监督和监督学习进行筛选。方法包括使用多种蛋白质语言模型(如AntiBERTy)对抗体序列进行编码,并通过核主成分分析(PCA)和无监督学习模型(如t-SNE、UMAP)进行聚类,最后使用线性支持向量机(LinearSVC)等监督学习模型区分已批准和已终止的临床抗体。实验使用了来自TheraSabDab数据库的临床抗体序列和Observed Antibody Space(OAS)数据库的抗体库序列,结果显示该管道能够有效筛选出具有良好可开发性的抗体,并区分出临床成功的抗体。总结而言,该研究为抗体药物开发提供了一种高效的计算筛选工具,能够显著降低研发成本和时间。
16. T-cell receptor structures and predictive models reveal comparable alpha and beta chain structural diversity despite differing genetic complexity
Communications Biology
本文通过分析大量T细胞受体(TCR)结构数据,发现TCR的α链和β链在结构多样性上相当,尽管其基因重组机制不同,并开发了TCRBuilder2+模型用于大规模TCR结构预测。研究利用Immunocore提供的TCR晶体结构数据补充了公开数据,训练了TCRBuilder2+模型,并通过聚类分析评估了其预测性能,发现CDR3α和CDR3β环的结构预测难度相当。实验结果表明,TCRBuilder2+在预测精度上与Alphafold Multimer相当,且预测了超过150万条TCR序列的结构,揭示了TCRα链的高结构多样性。研究强调了TCR结构预测在药物发现中的潜力,并提供了大规模TCR结构预测资源。
17. Advancing Molecular Graph-Text Pre-training via Fine-grained Alignment
arxiv
本文提出了一种名为FineMolTex的细粒度分子图-文本预训练框架,通过联合学习粗粒度的分子级知识和细粒度的基序级知识,显著提升了分子表示学习的效果。该方法通过对比对齐任务和掩码多模态建模任务,分别实现分子级和基序级的对齐,并引入重要性评分来选择性地掩码重要基序和词语,从而增强细粒度对齐的学习。实验在PubChemSTM数据集上进行预训练,并在DrugBank-Pharmacodynamics、molecule-ATC和ZINC等数据集上进行了零样本图-文本检索、基于文本的分子编辑和分子属性预测等下游任务,结果显示FineMolTex在基于文本的分子编辑任务中取得了高达230%的提升。研究表明,FineMolTex能够有效捕捉细粒度知识,为药物发现和催化剂设计提供了有价值的见解。
18. Aligning Large Language Models and Geometric Deep Models for Protein Representation
arxiv
本文研究了大型语言模型(LLMs)与几何深度学习模型(GDMs)在蛋白质表示中的对齐问题,创新地提出了通过增加GDM嵌入维度、使用多层投影头以及微调LLMs来提升对齐质量的策略。方法上,作者通过数据预处理、蛋白质表示提取和表示对齐三个步骤,系统地分析了不同模型对的对齐性能及其影响因素。实验使用了RCSB PDB数据库中的20,000个蛋白质样本,结果表明,结合图结构和3D几何信息的GDMs与LLMs对齐效果更好,且较大的LLMs表现出更强的对齐能力,蛋白质的稀有性显著影响对齐性能。总结而言,本文为设计更有效的蛋白质多模态模型提供了理论依据和实践指导。
19. Property Enhanced Instruction Tuning for Multi-task Molecule Generation with Large Language Models
arxiv
本文提出了一种名为PEIT(Property Enhanced Instruction Tuning)的两步框架,通过多模态表示对齐和指令微调,显著提升了大型语言模型(LLMs)在多任务分子生成中的表现,特别是在涉及多属性约束的任务中。方法上,首先预训练了一个名为PEIT-GEN的模型,通过文本描述、SMILES和生化属性等多模态输入生成指令数据,然后利用这些数据微调现有的开源LLMs,得到PEIT-LLM,能够处理分子描述、基于文本的分子生成、分子属性预测以及新提出的多约束分子生成任务。实验使用了ZINC和CHEBI-20等数据集,结果表明PEIT-GEN在分子描述任务上优于MolT5、BioT5等模型,PEIT-LLM在多任务分子生成中表现出色,特别是在多约束分子生成任务中取得了显著改进。本文通过多模态对齐和指令微调,成功提升了LLMs在分子生成任务中的能力,为药物发现等领域提供了新的工具。
20. Bridging Molecular Graphs and Large Language Models
arxiv
本文提出了一种名为Graph2Token的创新方法,通过将分子图结构对齐到大型语言模型(LLM)的词汇空间中,解决了LLM在处理分子图数据时的局限性,且无需微调LLM主干。该方法首先构建了一个多源分子-文本配对数据集(包括CHEBI和HMDB),并训练了一个图结构编码器,以减少图和文本在特征空间中的距离;随后,提出了一种新的对齐策略,将图标记与LLM的预训练词汇关联起来,并通过交叉多头注意力机制生成图标记表示。实验在分子分类和回归任务上进行了广泛验证,使用了BBBP、BACE、HIV、TOX21、QM9和PubchemQC等数据集,结果表明Graph2Token在少样本学习场景下表现出色,尤其是在面对新任务和标签分布变化时。Graph2Token通过轻量级的对齐策略,成功保留了LLM的少样本泛化能力,为分子领域的数据稀缺问题提供了有效解决方案。
21. EpicPred: predicting phenotypes driven by epitope-binding TCRs using attention-based multiple instance learning
Bioinformatics
本文提出了一种名为EpicPred的深度学习框架,通过基于注意力的多实例学习(MIL)预测由表位结合T细胞受体(TCR)驱动的表型,创新性地结合了开放集识别(OSR)和BERT模型来减少假阳性并提高表型预测的准确性。该方法首先使用BERT模型对TCR序列进行上下文学习,并通过OSR过滤掉非表位结合的TCR,随后利用MIL模型预测癌症类型或COVID-19患者的严重程度。实验使用了六个公共TCR数据库中的244,552条TCR序列和105个独特表位进行训练,并在两个癌症和四个COVID-19的TCR-seq数据集上进行了验证,结果显示EpicPred在表型预测中的平均AUROC达到0.80±0.07,优于现有方法。EpicPred为理解TCR-表位相互作用及其在表型中的贡献提供了新的工具,尤其在COVID-19和癌症的免疫治疗研究中具有重要应用价值。
22. HSSPPI: hierarchical and spatial-sequential modeling for PPIs prediction
Briefings in Bioinformatics
本文提出了一种名为HSSPPI的新型深度学习架构,通过层次化和空间-序列建模来预测蛋白质-蛋白质相互作用位点(PPIs),创新点在于将蛋白质表示为层次图,并设计了空间-序列块以同时捕捉蛋白质的空间和序列信息。方法上,HSSPPI将蛋白质表示为包含残基级和原子级图的层次图,并通过图卷积网络(GCN)和双向门控循环单元(Bi-GRU)提取特征。实验在DeepPPISP和GraphPPIS两个公开基准数据集上进行,结果表明HSSPPI在多个评估指标上优于现有方法,特别是在F1、MCC和AUPRC等关键指标上表现突出。总结而言,HSSPPI通过层次化和空间-序列建模显著提升了PPIs预测的准确性。
23. DeepES: deep learning-based enzyme screening to identify orphan enzyme genes
Bioinformatics
本文提出了一种基于深度学习的酶筛选工具DeepES,用于识别孤儿酶基因,创新点在于利用生物合成基因簇(BGC)和反应类别(RClass)进行酶功能预测,克服了传统序列相似性方法的局限性。DeepES通过将蛋白质序列输入预训练的ESM-2模型,结合多层感知机,构建了针对每个RClass的二元分类器,并通过几何平均整合多个RClass的输出,评估基因是否包含目标BGC。实验使用了来自KEGG数据库的4413788个原核基因序列和RClass数据,验证了DeepES在低序列同源环境下的预测能力,并在4744个人类肠道细菌的宏基因组组装基因组(MAGs)中成功识别了236个孤儿酶的候选基因。结果表明,DeepES能够有效捕捉蛋白质序列之间的功能相似性,为孤儿酶基因的探索提供了新方法。
24. FusionESP: Improved Enzyme–Substrate Pair Prediction by Fusing Protein and Chemical Knowledge
Journal of Chemical Information and Modeling
本文提出了一种名为FusionESP的多模态架构,通过融合蛋白质和化学语言模型,结合对比学习策略,显著提升了酶-底物对预测的准确性,创新点在于使用独立的投影头和对比学习策略,减少了计算资源和训练数据的需求。方法上,FusionESP利用ESM-2和MoLFormer分别生成酶和分子的嵌入,并通过投影头将嵌入映射到同一高维空间,计算余弦相似度进行预测。实验使用了基于实验证据和系统发育证据的数据集,结果显示FusionESP在独立测试数据上达到了94.77%的准确率,优于现有方法。总结而言,FusionESP通过简化的架构和对比学习策略,在酶-底物对预测任务中表现出色,具有广泛的应用潜力。
25. iScore: A ML-Based Scoring Function for De Novo Drug Discovery
Journal of Chemical Information and Modeling
本文介绍了一种基于机器学习的评分函数iScore,用于快速准确地预测蛋白质-配体复合物的结合亲和力,创新之处在于其无需依赖蛋白质-配体相互作用的显式知识,而是通过配体和结合口袋描述符直接评估结合亲和力,从而跳过了耗时的构象采样阶段。该方法采用了深度神经网络(iScore-DNN)、随机森林(iScore-RF)和极端梯度提升(iScore-XGB)三种机器学习算法,并开发了混合模型iScore-Hybrid,结合了各基础模型的优势。实验使用了PDBbind 2020精炼集、CASF 2016、CSAR NRC-HiQ Set1/2、DUD-E和靶点筛选数据集进行训练和验证,结果显示iScore-Hybrid在交叉验证中表现出色,Pearson相关系数为0.78,均方根误差为1.23,并在评分、排序、筛选和靶点筛选能力上均优于其他评分函数。iScore的快速筛选能力使其能够每天处理7亿个化合物,显著加速了药物发现过程。
26. Identification of Protein-nucleotide Binding Residues with Deep Multi-task and Multi-scale Learning
IEEE Journal of Biomedical and Health Informatics
本文提出了一种名为NucMoMTL的新型深度学习模型,用于预测蛋白质-核苷酸结合残基,创新点在于结合了多任务学习和多尺度特征学习,并通过参数正交约束机制提升特征多样性。该方法利用预训练的语言模型ProtT5进行蛋白质序列嵌入,采用多尺度一维卷积神经网络(MS-1D-CNN)提取共享特征,并通过核苷酸特定的多层感知机(MLP)独立捕获不同核苷酸的结合模式。实验在Nuc-1521、Nuc-207、Nuc-849和Nuc-798四个数据集上进行,结果显示NucMoMTL在AUROC和AUPRC指标上均优于现有方法,特别是在预测GDP和AMP结合残基时表现尤为突出。总结而言,NucMoMTL在蛋白质-核苷酸结合残基预测中表现出色,具有广泛的应用潜力。