Post

AI+Drug Snapshot | 250401 | Pharmolix-FM:一种基于全原子表示的多模态生成模型,用于统一药物设计任务

AI+Drug Snapshot | 250401 | Pharmolix-FM:一种基于全原子表示的多模态生成模型,用于统一药物设计任务

关注MindDance微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展

1. MetDeeCINE: Deciphering Metabolic Regulation through Deep Learning and Multi-Omics

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.03.24.645125

简介: 该研究提出了MetDeeCINE框架,通过整合深度学习与多组学数据,解析代谢调控网络。方法上,开发了代谢信息引导的图神经网络(MiGNN),利用代谢反应的化学计量信息预测酶与代谢物间的定量关系。实验基于大肠杆菌的动力学模型数据和小鼠肝脏多组学数据,结果显示MiGNN在预测浓度控制系数(CCCs)方面优于传统模型,并成功识别了糖异生限速酶FBP1与肥胖的关联。研究为代谢疾病机制解析和药物靶点发现提供了可扩展的解释性方法。


2. PLPTP: A Motif-Based Interpretable Deep Learning Framework Based on Protein Language Models for Peptide Toxicity Prediction

期刊: Journal of Molecular Biology

链接: https://doi.org/10.1016/j.jmb.2025.169115

简介: 研究提出了基于蛋白质语言模型的可解释框架PLPTP,用于预测肽毒性。方法结合ESM2和BiLSTM模型,通过Focal Loss处理类别不平衡,并利用基序分析增强模型透明度。实验使用Jiao等构建的数据集(含2,138毒性肽和5,375非毒性肽),结果显示PLPTP在平衡准确率((BACC = 0.976))、AUC(0.997)等指标上优于现有方法,尤其在少样本场景下表现突出。研究为药物开发中肽毒性评估提供了高效工具,并搭建了在线服务器。


3. Learning Binding Affinities via Fine-tuning of Protein and Ligand Language Models

期刊: bioRxiv

链接: https://doi.org/10.1101/2024.11.01.621495

代码: https://github.com/meyresearch/BALM

简介: 研究提出BALM框架,通过微调预训练的蛋白质(ESM-2)和配体(ChemBERTa-2)语言模型预测结合亲和力。方法利用余弦相似性优化嵌入空间,并引入参数高效微调(PEFT)提升适应性。实验基于BindingDB、LP-PDBBind等数据集,结果显示BALM在零样本和少样本场景下均优于传统对接方法(如AutoDock Vina),并在USP7和Mpro靶点上实现快速适应。研究为大规模虚拟筛选提供了高效解决方案,尤其适用于缺乏结构数据的靶点。


4. Pharmolix-FM: An All-Atom Multi-Modal Foundation Model for Molecular Modeling and Generation

期刊: arXiv

链接: https://arxiv.org/abs/2503.21788

代码: https://github.com/PharMolix/OpenBioMed

简介: 该研究提出了Pharmolix-FM,一种基于全原子表示的多模态生成模型,用于统一处理蛋白质-配体相互作用、分子对接和药物设计任务。模型结合扩散模型(Diffusion)和贝叶斯流网络(BFN),通过局部蛋白口袋信息减少计算复杂度,同时保留关键原子相互作用细节。实验基于PoseBusters基准和CrossDocked数据集,结果显示Diffusion模型在自排序准确率(81.07%)和结合亲和力预测上优于PocketXMol,且生成分子的类药性(QED)和合成可行性(SA)表现良好。研究为分子建模提供了高效且可扩展的框架,尤其适用于药物发现中的虚拟筛选。


5. UITOTO: a new software for molecular diagnoses in species descriptions

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.03.26.645453

代码: https://github.com/atorresgalvis/UITOTO

简介: 该研究开发了UITOTO,一款基于R语言的分子诊断软件,通过加权随机采样和Jaccard指数构建诊断分子组合(DMCs),并通过验证模块评估其特异性和稳定性。实验基于欧洲鳞翅目(49种)、Mycetophilidae科(118种)和Megaselia属(69种)的COI序列数据,结果表明UITOTO生成的DMCs在F1分数(0.72–0.97)和准确率(0.897–0.996)上均优于现有工具MOLD,尤其在处理高复杂度数据集时表现更优。研究为物种描述提供了可靠的分子诊断工具,助力高通量分类学研究。


6. RIBOGEN: RNA SEQUENCE AND STRUCTURE CO-GENERATION WITH EQUIVARIANT MULTIFLOW

期刊: arXiv

链接: https://arxiv.org/abs/2503.02058

简介: 该研究提出了RiboGen模型,首次实现RNA序列与全原子3D结构的联合生成。模型基于多流框架(Multiflow),结合连续流匹配(Flow Matching)和离散流匹配(Discrete Flow Matching),利用欧几里得等变神经网络处理几何特征。实验使用RNASolo数据集训练,验证了生成结构的化学有效性(如二面角分布与真实数据一致)和自洽性(TM-score和RMSD指标表现良好)。研究为RNA设计提供了新方法,尤其在特定序列长度(如120 nt)下生成结构的可信度较高。


7. Efficient Data Selection for Training Genomic Perturbation Models

期刊: arXiv

链接: https://arxiv.org/abs/2503.14571

简介: 该研究提出了基于图的一次性数据选择方法(GraphReach和MaxSpec),解决主动学习中初始化偏差问题,用于训练基因组扰动预测模型。方法利用图神经网络的泛化理论,通过子模最大化选择基因扰动,避免依赖模型初始状态。实验基于Replogle(1087个扰动)和Adamson(81个扰动)数据集,结果显示GraphReach在MSE(151±4)和Pearson系数(921±8)上表现最优,且计算效率比主动学习方法TypiClust快500倍。研究为低成本、高效的基因组实验设计提供了新策略。


8. Atomic context-conditioned protein sequence design using LigandMPNN

期刊: Nature Methods

链接: https://doi.org/10.1038/s41592-025-02626-1

代码: https://github.com/dauparas/LigandMPNN

简介: 该研究提出了LigandMPNN,一种基于深度学习的蛋白质序列设计方法,通过显式建模非蛋白质原子和分子(如小分子、核苷酸和金属),解决了传统方法无法处理这些成分的问题。LigandMPNN采用蛋白质-配体图结构和消息传递机制,结合随机自回归解码策略,生成序列和侧链构象。实验在PDB数据集上验证,结果表明其在小分子、核苷酸和金属结合区域的序列恢复率显著优于Rosetta和ProteinMPNN(分别为63.3%、50.5%、77.5%),并通过晶体结构和亲和力实验证实了设计准确性。该方法已成功设计超100种实验验证的蛋白质,为酶、传感器和结合蛋白的开发提供了高效工具。


9. PharmAgents: Building a Virtual Pharma with Large Language Model Agents

期刊: arXiv

链接: https://arxiv.org/abs/2503.22164

简介: 本文提出了PharmAgents,一个基于大型语言模型(LLM)的多智能体系统,模拟从疾病靶点发现到临床前评估的全流程药物研发。系统通过疾病专家、结构专家等角色协作,结合生成模型(如DecompDiff)和虚拟筛选工具(如DrugCLIP),实现靶点识别、分子生成、优化及毒性评估。实验显示,PharmAgents在帕金森病和哮喘等疾病场景中生成的分子满足跨血脑屏障等特异性需求,成功率从15.72%提升至37.94%,毒性预测低估率仅12%,且通过经验数据库实现自我进化,成功率进一步提升至36%。该框架为自动化药物研发提供了可解释、可扩展的新范式。


10. A multi-omics data integration framework for gene regulatory network inference based on contrastive learning

期刊: IEEE Transactions on Computational Biology and Bioinformatics

链接: https://doi.org/10.1109/TCBBIO.2025.3548953

代码: https://github.com/HELLOWORLD1030/CLMOGRI

简介: 研究提出CLMOGRI框架,利用对比学习和异质网络整合多组学数据(scRNA-seq和scATAC-seq),推断基因调控网络。框架通过随机游走生成统一特征空间,结合QS注意力机制和InfoNCE损失优化节点相似性预测。在模拟数据集和人类造血分化数据上,CLMOGRI的AUPR和F-Score均优于SCENIC、scMTNI等基线方法,成功识别E2F1、KLF4等关键调控节点及模块。实验表明,其在ChIP-seq数据中表现稳定,AUPR达0.30-0.70,为解析细胞分化调控机制提供了有效工具。


11. DeePMD-GNN: A DeePMD-kit Plugin for External Graph Neural Network Potentials

期刊: Journal of Chemical Information and Modeling

链接: https://doi.org/10.1021/acs.jcim.4c02441

代码: https://gitlab.com/RutgersLBSR/deepmd-gnn 或 https://github.com/deepmodeling/deepmd-gnn

简介: 该研究开发了DeePMD-GNN插件,将外部图神经网络(GNN)模型(如NequIP和MACE)无缝集成到DeePMD-kit框架中,解决了不同机器学习势(MLP)软件互操作性差的问题。通过Python/C++接口和TorchScript模型文件,实现了GNN与分子动力学(MD)软件的高效结合,并支持范围校正的QM/MM-ΔMLP方法。实验基于QDπ数据集,对比了DPA-2、MACE和NequIP模型在能量和力预测上的性能,结果表明ΔDPA-2(L)模型在QM/MM校正中表现最优(能量MAE为0.89 kcal/mol,力MAE为0.92 kcal/(mol·Å)),且推理速度快于纯MLP模型。该框架为统一评估和应用GNN方法提供了平台,推动了药物发现和材料模拟等领域的发展。


12. UMPPI: Unveiling Multilevel Protein−Peptide Interaction Prediction via Language Models

期刊: Journal of Chemical Information and Modeling

链接: https://doi.org/10.1021/acs.jcim.4c02365

代码: https://github.com/mrjohnmpu/UMPPI

简介: 研究提出UMPPI框架,利用预训练蛋白质语言模型ESM2,结合多目标优化策略,同时预测蛋白质-肽的二元相互作用及结合残基。该方法通过CNN和ESM2分别提取局部和全局特征,并通过特征融合模块整合序列与隐含结构信息。实验基于自建的8,989个正样本数据集,在“Novel protein”“Novel peptide”和“Novel pair ”场景下验证,结果显示UMPPI在AUC和MCC指标上均优于CAMP、TransPHLA等基线方法(如“Novel pair ”场景下AUC达0.7748,MCC为0.3977)。尤其在肽结合残基预测中,UMPPI平均AUC为0.8286,MCC为0.5015,显著提升了预测精度。该框架为肽类药物开发提供了高效工具,同时揭示了结合残基的关键作用机制。


This post is licensed under CC BY 4.0 by the author.

Trending Tags