AI+Drug Snapshot | 250325 | GDF-DDI,一种基于图对比学习和双视图融合的药物相互作用预测模型
关注
MindDance
微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展
1. Drug-drug interaction prediction based on graph contrastive learning and dual-view fusion
期刊: Computational Biology and Chemistry
链接: https://doi.org/10.1016/j.compbiolchem.2025.108426
代码: https://github.com/Dingshanyang/GDF-DDI
简介: 本文提出了基于图对比学习和双视图融合的药物相互作用预测模型GDF-DDI,旨在解决数据噪声和不完整问题。该模型通过知识图谱和药物相似性网络构建全局信息,结合分子结构特征的自监督学习,利用层间对比学习优化嵌入表示。实验在KEGG-drug和OGB-biokg数据集上验证,结果显示GDF-DDI在AUC、准确率等指标上优于KGCNN等基线模型,尤其在冷启动场景下表现出更强的泛化能力。研究通过消融实验和案例分析进一步验证了模型的有效性,为药物相互作用预测提供了新的解决方案。
2. pgxRpi: an R/Bioconductor package for user-friendly access to the Beacon v2 API
期刊: bioRxiv (Preprint)
链接: https://doi.org/10.1101/2025.03.20.644282
简介: 本文开发了R/Bioconductor包pgxRpi,为用户提供了通过Beacon v2 API访问Progenetix癌症基因组数据的便捷接口。该工具支持数据检索、可视化和分析,可处理个体、生物样本、分析和基因组变异等实体数据,并通过YAML配置实现多源数据的统一格式转换。实验展示了其在跨平台查询(如RD-Connect、cancercelllines.org)和并行处理中的效率,为癌症基因组学研究提供了标准化的数据探索工具。
3. Active learning meets metadynamics: Automated workflow for reactive machine learning potentials
期刊: ChemRxiv (Preprint)
链接: https://doi.org/10.26434/chemrxiv-2024-twmlz-v2
简介: 本文提出了一种结合主动学习(AL)和元动力学(WTMetaD-IB)的自动化工作流程,用于训练反应性机器学习势函数。该方法通过迭代采样和对比学习优化数据集,无需预先了解过渡态结构。实验在$S_N2$反应、甲基转移反应和糖基化反应中验证,结果表明模型在隐式和显式溶剂环境下均能准确预测反应路径和自由能垒。与传统方法相比,WTMetaD-IB AL显著减少了计算成本,为复杂化学反应的动态模拟提供了高效解决方案。
4. Optimal compound downselection to promote diversity and parallel chemistry
期刊: arXiv (Preprint)
链接: https://arxiv.org/abs/2503.13627
简介: 本文改进了SPARROW框架,提出一种综合考虑合成成本、多样性和平行化学能力的化合物筛选方法。通过引入非线性期望累积奖励函数和聚类约束,优化了化合物与合成路线的选择策略。实验在AutoMolDesigner生成的候选抗生素数据集上验证,结果表明改进后的方法在保持合成可行性的同时,显著提高了化合物多样性和并行合成效率。该研究为药物发现中的高通量筛选提供了算法支持。
5. A novel deep sequential learning architecture for drug drug interaction prediction using DDINet
期刊: Scientific Reports
链接: https://doi.org/10.1038/s41598-025-93952-z
简介: 本文提出了基于注意力机制和深度序列学习的DDINet模型,用于预测药物相互作用及其机制(如排泄、吸收等)。模型结合GRU、LSTM和多注意力层,利用药物化学结构特征(如Hall Smart、氨基酸计数)进行分类。实验在Drugbank和Kaggle数据集上验证,结果显示DDINet在准确率(95.42%)、F1分数等指标上优于LSTM、GRU等基线模型,并通过置信区间和t检验验证了统计显著性。该研究为机制导向的药物相互作用预测提供了新方法。
6. Multi-modal deep representation learning accurately identifies and interprets drug-target interactions
期刊: IEEE Journal of Biomedical and Health Informatics
链接: https://doi.org/10.1109/JBHI.2025.3553217
代码: https://github.com/joannacatj/UnitedDTA
简介: 本文提出了UnitedDTA框架,通过多模态深度表示学习整合药物和靶点的序列、图像、图和三维结构信息,提升药物-靶点相互作用预测的准确性和可解释性。模型利用对比学习和跨注意力机制对齐多模态特征,结合残差网络和图注意力网络提取深层特征。实验在Davis和KIBA数据集上验证,结果显示UnitedDTA在AUC、MCC等指标上优于DeepDTA、GraphDTA等基线模型,尤其在跨域场景中表现出更强的泛化能力。此外,模型通过可视化原子重要性揭示了药物结合的关键结构,为药物设计提供了新的见解。
7. Explaining Representations in Correlation-based Deep Multiview Representation Learning
期刊: ICASSP 2025
链接: https://doi.org/10.1109/ICASSP49660.2025.10888309
简介: 本文提出XDCCA框架,结合SHAP和CEGA解释深度多视图表示学习模型的潜在空间和相关性。通过特征规则生成和关联分析,揭示了模型在医学时间序列和合成图像数据中的学习机制。实验表明,XDCCA能够有效解释不同维度的特征贡献,帮助理解模型如何捕捉数据中的关键模式,为多视图学习在医疗领域的应用提供了可解释性支持。
8. UMPPI: Unveiling Multilevel Protein-Peptide Interaction Prediction via Language Models
期刊: Journal of Chemical Information and Modeling
链接: https://doi.org/10.1021/acs.jcim.4c02365
简介: 本文提出UMPPI框架,利用预训练蛋白质语言模型ESM2同时预测蛋白质-肽相互作用及其结合残基。模型通过多目标优化策略整合序列、结构和进化信息,在LP-PDBbind数据集上表现出优异性能,在Novel Protein、Novel Peptide和Novel Pair三种场景下均优于CAMP、TransPHLA等基线方法。消融实验验证了各模块的有效性,表明其在蛋白质-肽相互作用预测中的潜力。
9. Towards Unified Latent Space for 3D Molecular Latent Diffusion Modeling
期刊: arXiv
链接: https://arxiv.org/abs/2503.15567
简介: 本文提出UAE-3D模型,通过统一的潜在空间压缩3D分子的多模态特征(原子类型、键和坐标),结合扩散Transformer实现高效生成。实验在QM9和GEOM-Drugs数据集上验证,结果显示UAE-3D在重构精度和生成质量上均优于GeoLDM等方法,且训练速度提升2.7倍,采样速度提升7.3倍。该模型为3D分子生成提供了新的高效解决方案,适用于药物设计和材料科学。
10. A Minimalistic Deep Graph Learning Approach for Protein-Ligand Binding Affinity: One Step Towards Generalization
期刊: ChemRxiv
链接: https://doi.org/10.26434/chemrxiv-2025-0wkrd
简介: 本文提出ECIF-GCN模型,通过极简图卷积网络处理蛋白质-配体相互作用的图结构,在LP-PDBbind数据集上实现RMSE为1.52的高精度预测,优于IGN等复杂模型。模型利用扩展连接交互特征(ECIF)和距离加权边,结合早期停止策略避免过拟合。结果表明,精简的模型架构在保证泛化能力的同时,显著减少计算资源需求,为结构基药物设计提供了高效工具。
11. DeepMFFGO: A Protein Function Prediction Method for Large-Scale Multifeature Fusion
期刊: Journal of Chemical Information and Modeling
链接: https://doi.org/10.1021/acs.jcim.5c00062
简介: 本文提出DeepMFFGO框架,通过分层渐进融合结构整合蛋白质序列、结构、GO层次和PSSM信息,提升功能预测精度。模型引入全局链接聚合模块和结构感知图注意力机制,在CAFA3数据集上实现MF、BP、CC本体的Fmax值分别为0.702、0.599和0.704,优于DeepFRI、PredGO等方法。消融实验验证了各模块的有效性,为蛋白质功能预测提供了新的多模态融合方案。
12. A GENERALIZED PROTEIN DESIGN ML MODEL ENABLES GENERATION OF FUNCTIONAL DE NOVO PROTEINS
期刊: bioRxiv
链接: https://www.biorxiv.org/content/10.1101/2025.03.21.644400v1
简介: 本文提出通用蛋白质设计模型MP4,通过Transformer架构将功能文本提示转化为具有结构稳定性和功能活性的全新蛋白质序列。模型结合多任务学习和条件语言模型,在UniProt等数据集上训练,生成序列经ESMFold预测结构稳定(平均pLDDT 82.6),实验验证94个设计蛋白中84%可表达,部分热稳定性达90°C。研究表明MP4在序列多样性(seqdif 50-80)、结构合理性及实验可转化性方面表现优异,为蛋白质工程提供了高效工具。
13. An Energy-Adaptive Elastic Equivariant Transformer Framework for Protein Structure Representation
期刊: arXiv
链接: https://arxiv.org/abs/2503.16996
简介: 本文提出能量自适应弹性等变Transformer框架E³former,通过动态调整节点邻域半径和高维张量稀疏化处理,提升含噪蛋白质结构的表示鲁棒性。模型在CATH和PPBS-AF数据集上验证,结果显示在逆折叠(perplexity降低11.2%)和结合位点预测(AUPRC提升6%)任务中优于现有方法,尤其在低分辨率或噪声数据中表现更稳定。研究为处理含噪蛋白质结构数据提供了新范式,适用于药物设计和蛋白质工程。
14. Advances in Protein Representation Learning: Methods, Applications, and Future Directions
期刊: arXiv
链接: https://arxiv.org/abs/2503.16659
简介: 本文系统综述了蛋白质表示学习(PRL)的最新进展,分类讨论了基于特征、序列、结构、多模态及复合物的方法,总结了其在属性预测、结构建模、蛋白质设计和药物发现中的应用。研究指出,当前方法需进一步解决模型可解释性、跨模态整合及大规模数据适应性问题,并提出未来方向包括扩展至DNA/RNA表示、提升泛化能力及开发自解释架构。综述为跨学科研究提供了方法论框架,推动PRL在基础科学和生物医学中的应用。
15. Chem42∗: a Family of chemical Language Models for Target-aware Ligand Generation
期刊: arXiv
链接: https://arxiv.org/abs/2503.16563
简介: 本文提出Chem42,结合蛋白质语言模型Prot42的多模态化学语言模型家族,通过原子级交互建模和跨注意力机制实现目标感知的配体生成。模型在UniChem数据集上预训练,通过微调优化药物相似性(QED)、合成可及性(SA)和结合亲和力(BA)。实验在MoleculeNet、ADMET等基准任务中验证,结果显示Chem42在分子属性预测和条件生成任务中优于ChemFM等基线模型,尤其在p53突变体等靶点的配体设计中表现突出。研究为AI驱动的药物发现提供了高效工具,加速高特异性候选分子开发。
16. Gumbel-Softmax Flow Matching with Straight-Through Guidance for Controllable Biological Sequence Generation
期刊: arXiv
链接: https://arxiv.org/abs/2503.17361
简介: 本文提出Gumbel-Softmax流匹配框架,通过温度调节的Gumbel-Softmax插值和直通梯度引导(STGFlow),实现可控的生物序列生成。模型通过动态调整温度参数和引入随机噪声,在离散序列生成中平衡多样性与准确性,结合直通估计器引导流轨迹向高亲和力序列优化。实验在DNA启动子设计、蛋白质生成和靶向肽设计任务中验证,结果显示模型在生成质量、多样性及结合亲和力方面优于扩散和自回归基线模型,尤其在罕见病相关靶点的肽设计中表现突出。研究为离散序列生成提供了高效且可控的解决方案,适用于药物发现和合成生物学。
17. De novo design of miniprotein agonists and antagonists targeting G protein-coupled receptors
期刊: bioRxiv
链接: https://www.biorxiv.org/content/10.1101/2025.03.23.644666v1
简介: 本文开发了结合计算设计与高通量筛选的方法,成功生成针对GPCR的微型蛋白激动剂和拮抗剂。研究通过RFdiffusion和MetaGen算法设计蛋白骨架,结合受体转移(RD)显微镜筛选技术,在MRGPRX1、CXCR4、GLP1R等7种受体上验证了设计效果。实验结果显示,设计的微型蛋白具有高亲和力(如MRGPRX1激动剂EC₅₀达390 nM)、热稳定性及结构准确性,冷冻电镜解析证实其与受体结合的原子级匹配。该方法为GPCR靶向药物开发提供了新范式,尤其在难成药靶点上展现潜力。
18. RiboFlow: Conditional De Novo RNA Sequence-Structure Co-Design via Synergistic Flow Matching
期刊: arXiv
链接: https://arxiv.org/abs/2503.17007
简介: 本文提出RiboFlow框架,通过协同流匹配实现基于目标分子的条件RNA序列-结构共设计。模型整合RNA骨架框架、扭转角和序列特征,结合SE(3)等变神经网络和配体距离感知模块,在RiboBind数据集(含4,445个RNA-配体对)上训练。实验结果表明,RiboFlow在结构有效性(scTM≥0.45达78.5%)、结合亲和力(VinaScore低至-5.12 kcal/mol)及多样性方面显著优于RNA-FrameFlow等基线模型,尤其在少样本场景中表现稳定。研究为RNA药物设计提供了结构感知、数据高效的生成工具,推动RNA在治疗和合成生物学中的应用。