AI+Drug Snapshot | 250309 | P2DFlow:一种基于SE(3)流匹配的蛋白质构象集合生成模型
1. P2DFlow: A Protein Ensemble Generative Model with SE(3) Flow Matching
arxiv
本文提出了一种基于SE(3)流匹配的蛋白质构象集合生成模型P2DFlow,通过引入ESMFold预测加扰动的强先验和近似能量机制,显著提升了蛋白质构象集合的预测精度和多样性。该方法利用SE(3)等变流匹配框架,结合ESMFold预测和扰动生成先验分布,并通过引入近似能量维度来区分不同构象,从而有效避免生成不存在的中间态。实验在ATLAS数据集上进行,P2DFlow在有效性、保真度和动力学指标上均优于AlphaFlow和STR2STR,成功捕捉了晶体结构和MD模拟中观察到的动态波动。结果表明,P2DFlow能够快速生成高质量的蛋白质构象集合,为理解蛋白质功能提供了有力工具。
2. What Ails Generative Structure-based Drug Design: Expressivity is Too Little or Too Much?
arxiv
本文探讨了生成式结构药物设计(SBDD)中生成模型表现不佳的原因,提出了两种假设:图神经网络(GNN)的表达能力不足和模型过度参数化,并通过理论分析和实验验证了这些假设。作者提出了一种名为SimpleSBDD的简化生成模型,通过将分子图结构与原子类型解耦,并引入性能感知优化,显著减少了模型参数和计算时间。实验在CrossDocked2020数据集上进行,结果表明SimpleSBDD在结合亲和力预测和分子生成速度上均优于现有方法,且参数数量减少了100倍,速度提升了1000倍。该研究为SBDD提供了新的思路,强调了模型简化与性能优化的重要性。
3. Pushing the boundaries of Structure-Based Drug Design through Collaboration with Large Language Models
arxiv
本文提出了一种结合3D结构药物设计(SBDD)模型与大语言模型(LLMs)的协同智能药物设计框架(CIDD),旨在解决传统SBDD模型在生成药物样分子时的局限性,显著提升了分子结合能力和药物样性。CIDD框架首先通过3D-SBDD模型生成初始分子,随后利用LLMs进行多轮优化,包括相互作用分析、设计、反思和选择模块,最终生成兼具高结合亲和力和药物样性的分子。实验在CrossDocked2020数据集上进行,CIDD在多个指标上显著优于现有SOTA模型,成功率达到37.94%,较之前的15.72%有显著提升,特别是在分子合理性和药物样性方面表现突出。该研究展示了结合领域特定模型与LLMs在药物设计中的巨大潜力,为未来药物发现提供了新的方向。
4. Biomedical Foundation Model: A Survey
arxiv
本文综述了基础模型在生物医学领域的应用与挑战,重点探讨了其在计算生物学、药物发现、临床信息学、医学影像和公共卫生中的潜力与创新。通过大规模无监督预训练,基础模型能够从海量未标注数据中学习,并在多种下游任务中表现出色,如基因组分析、药物分子设计、临床数据处理和疾病预测。实验部分详细介绍了多个基础模型(如AlphaFold2、Med-PaLM等)在不同数据集(如OpenPath、PubChem等)上的表现,展示了其在生物医学领域的广泛应用和显著效果。总结指出,基础模型的进一步发展将推动精准医学和公共卫生的进步,为研究人员提供了新的研究方向和应用基础。
5. InceptionDTA: Predicting drug-target binding affinity with biological context features and inception networks
Heliyon
本文提出了一种名为InceptionDTA的新方法,用于预测药物-靶标结合亲和力,创新点在于引入了CharVec编码方案和Inception网络,以更好地捕捉蛋白质序列的生物学上下文特征和多尺度特征。该方法通过CharVec编码蛋白质序列,并结合Inception网络提取药物和蛋白质的局部和全局特征,最终通过全连接网络预测结合亲和力。实验在Davis、Kiba和PDBbind三个基准数据集上进行,结果表明InceptionDTA在多种数据划分设置下均优于现有的序列、Transformer和图神经网络方法。总结来说,InceptionDTA通过结合CharVec和Inception网络,显著提高了药物-靶标结合亲和力预测的准确性。
6. GS-DTA: integrating graph and sequence models for predicting drug-target binding affinity
BMC Genomics
本文提出了一种名为GS-DTA的新方法,通过结合图神经网络和序列模型来预测药物-靶标结合亲和力(DTA),创新点在于使用GATv2-GCN和三层GCN网络提取药物特征,并结合CNN、Bi-LSTM和Transformer提取蛋白质特征,从而更全面地捕捉药物和蛋白质的局部与全局信息。实验在Davis和KIBA数据集上进行,结果表明GS-DTA在MSE、CI和r2m指标上优于大多数现有方法,证明了其在DTA预测中的有效性。该方法通过整合多种网络模型,显著提高了预测精度,为药物发现和重定位提供了有力支持。
7. LLMs for Drug-Drug Interaction Prediction: A Comprehensive Comparison
arxiv
这篇论文首次全面评估了大语言模型(LLMs)在药物-药物相互作用(DDI)预测中的潜力,创新地通过将分子结构(SMILES)、靶标生物体和基因相互作用数据作为文本输入进行处理。研究评估了18种不同的LLMs,包括GPT-4、Claude、Gemini等专有模型和开源模型,首先测试了它们的零样本预测能力,随后对选定的模型进行了微调以优化性能。实验使用了DrugBank数据集和13个外部DDI数据集进行验证,结果显示微调后的LLMs表现优异,尤其是Phi-3.5 2.7B模型在平衡数据集上的灵敏度达到0.978,准确率为0.919,超越了零样本预测和传统机器学习方法。研究表明,LLMs能够有效捕捉复杂的分子相互作用模式,成为药物研究和临床应用中的有力工具。
8. Syn-MolOpt: a synthesis planning-driven molecular optimization method using data-derived functional reaction templates
Journal of Cheminformatics
本文提出了一种基于合成规划的分子优化方法Syn-MolOpt,创新性地利用数据驱动的功能反应模板库,在优化分子性质的同时兼顾分子的可合成性。该方法通过构建特定性质的功能反应模板库,结合合成树生成和遗传算法,实现了分子结构的精确优化,并提供了优化的合成路径。实验在GSK3β-Mutag、GSK3β-hERG、GSK3β-CYP3A4和GSK3β-CYP2C19四个多性质优化任务中,使用USPTO反应数据集和Enamine Building Blocks数据集,结果表明Syn-MolOpt在优化性能和可合成性方面均优于Modof、HierG2G和SynNet等基准模型。该方法在分子优化领域具有广泛的应用潜力,尤其在真实场景中表现出较强的鲁棒性。
9. Skittles: GNN-Assisted Pseudo-Ligands Generation and Its Application for Binding Sites Classification and Affinity Prediction
Proteins
本文提出了一种基于图神经网络(GNN)的伪配体生成方法Skittles,创新性地解决了配体-蛋白质结合位点分类和亲和力预测问题。该方法通过两步实现:首先使用GNN生成伪配体形状,然后预测每个点的原子类型,并利用这些数据训练模型进行分类和亲和力预测。实验使用了来自RCSB PDB和PDBBind的数据集,结果表明Skittles在原子类型预测、结合位点分类和亲和力预测方面表现出色,尤其在亲和力预测上优于传统方法AutoDock Vina。本文展示了Skittles在结构生物学和药物设计中的广泛应用潜力。
10. Integrating Protein Dynamics into Structure-Based Drug Design via Full-Atom Stochastic Flows
arxiv
本文提出了一种名为DYNAMICFLOW的全原子流模型,通过结合蛋白质动力学和生成模型,实现了从apo状态到holo状态的蛋白质口袋构象转换,并同时生成对应的3D配体分子,创新性地将蛋白质动态行为引入基于结构的药物设计。该方法利用流模型将apo口袋和噪声配体转化为holo口袋及其结合配体,采用SE(3)-等变几何消息传递层和残基级Transformer层捕捉蛋白质-配体相互作用。实验基于MISATO数据集,通过分子动力学模拟生成apo和多个holo状态的蛋白质-配体复合物,结果表明DYNAMICFLOW能够生成具有高结合亲和力的配体分子,并显著提升传统SBDD方法的输入质量。该研究为蛋白质动力学在药物设计中的应用提供了新的思路。
11. scDD: Latent Codes Based scRNA-seq Dataset Distillation with Foundation Model Knowledge
arxiv
本文提出了一种基于潜在编码的单细胞RNA测序数据集蒸馏框架scDD,通过将基础模型知识和原始数据集信息压缩到紧凑的潜在空间,并使用单步条件扩散生成器SCDG生成合成数据集,解决了单细胞RNA测序数据高维稀疏、批次效应和类别不平衡等问题。scDD框架通过间接更新潜在编码而非直接更新基因表达值,避免了数据特征的失真,SCDG通过单步梯度反向传播优化蒸馏质量,避免了多步反向传播带来的梯度衰减。实验在STIZ-Kidney、SCPF-Lung、SARS-Mouth、RSC-Cardiac、SMC-Blood和CTM-Brain等多个数据集上进行,结果表明scDD在单细胞类型注释、疾病状态分类、发育阶段分析和解剖实体预测等任务中均显著优于现有方法,平均任务性能提升了7.61%绝对值和15.70%相对值。本文提出的方法在单细胞RNA测序数据集蒸馏领域具有显著创新性和实用性。
12. Generative Learning of Densities on Manifolds
arxiv
本文提出了一种结合扩散模型和流形学习的生成建模框架,用于高效采样高维数据在低维流形上的密度分布,创新点在于利用双扩散映射(Double Diffusion Maps)将生成的样本从潜在空间提升回原始空间,从而保持流形结构。方法包括基于分数的扩散模型和Itô随机微分方程,分别通过神经网络和蒙特卡洛模拟进行训练和采样。实验通过S形数据集和多尺度材料系统验证了方法的有效性,结果表明生成的样本能够准确捕捉流形结构并保持数据分布。本文为处理具有低维流形结构的高维数据提供了一种有效的生成建模框架。
13. Joint Masked Reconstruction and Contrastive Learning for Mining Interactions Between Proteins
arxiv
本文提出了一种结合掩码重建和对比学习的蛋白质-蛋白质相互作用(PPI)预测方法JmcPPI,创新点在于首次将残基掩码重建与多图对比学习结合,有效解决了现有方法在计算资源消耗和泛化能力上的不足。该方法分为残基结构编码和蛋白质相互作用推断两个阶段,前者通过异构图注意力机制和重建任务提取蛋白质内部结构信息,后者通过图神经网络和多图对比学习挖掘蛋白质间的外部相互作用信息。实验在SHS27k、SHS148k和STRING三个广泛使用的PPI数据集上进行,结果表明JmcPPI在多种数据划分方案下均优于现有最优基线模型。JmcPPI通过任务分解和对比学习策略,显著提升了PPI预测的准确性和泛化能力。
14. The Signed Two-Space Proximity Model for Learning Representations in Protein-Protein Interaction Networks
arxiv
本文提出了一种名为Signed Two-Space Proximity Model (S2-SPM)的新模型,用于学习带符号的蛋白质-蛋白质相互作用网络(SPPI)的表示,创新点在于通过两个独立的潜在空间分别建模激活(正)和抑制(负)相互作用,从而更准确地反映生物系统中的复杂调控机制。该方法利用Archetypal Analysis(原型分析)在两个潜在空间中提取极端蛋白质特征,并通过Skellam分布建模相互作用的强度和符号。实验在SIGNOR 3.0数据集上进行了验证,结果表明S2-SPM在带符号链接预测任务中显著优于现有基线方法,并通过Gene Ontology (GO)术语的富集分析验证了所提取原型的生物学意义。总结而言,S2-SPM为带符号蛋白质相互作用网络提供了一种可靠且可解释的建模方法。
15. Large Language Models for Zero-shot Inference of Causal Structures in Biology
arxiv
本文提出了一种利用大型语言模型(LLMs)进行零样本推理生物因果结构的新框架,创新点在于通过实验数据评估LLMs在生物学中的因果推理能力。方法上,作者使用Perturb-seq数据集构建因果基准,并通过多种提示和检索增强策略,评估LLMs在无先验实验数据的情况下推断基因调控网络的能力。实验基于Replogle等人生成的Perturb-seq数据集,包含超过250万个人类细胞的数据,结果表明,经过优化的提示策略下,即使是较小的LLMs(如Gemma2-9B)也能捕捉到生物学系统中的因果结构,AUROC达到0.625,优于传统的STRING数据库。总结而言,LLMs在生物学因果推理中表现出潜力,能够为下游因果结构学习任务提供有效的先验信息。
16. Large Language Models in Bioinformatics: A Survey
arxiv
本文系统综述了大语言模型(LLMs)在生物信息学中的应用,重点探讨了其在基因组序列建模、RNA结构预测、蛋白质功能推断和单细胞转录组学中的创新进展,并提出了数据稀缺、计算复杂性和跨组学整合等关键挑战及未来研究方向。研究方法包括对LLMs在生物信息学中的代表性模型进行分类和总结,涵盖了编码器-解码器、解码器-仅编码器等架构的应用。实验部分详细介绍了如DNABERT、AlphaFold2、RoseTTAFold等模型在不同生物数据上的表现,使用的数据集包括ENCODE、PDB、UniProtKB等,结果表明LLMs在基因调控元件预测、蛋白质结构预测等任务中显著优于传统机器学习算法。本文强调了LLMs在推动生物信息学和精准医学创新中的巨大潜力。
17. Biological Sequence with Language Model Prompting: A Survey
arxiv
本文系统综述了基于提示工程的大语言模型(LLMs)在生物序列分析中的应用,创新点在于通过提示工程解决生物信息学中的数据稀缺问题,并展示了其在DNA、RNA、蛋白质和药物发现任务中的潜力。方法上,作者详细介绍了如何通过设计提示模板,将生物任务重新表述为自然语言处理(NLP)问题,利用LLMs进行零样本和少样本学习。实验部分涵盖了多个具体应用,如DNA启动子预测、RNA功能元件分析和蛋白质结构建模,使用了如NexLeth、PathoTME和AlphaFold等模型,并在多个数据集上取得了显著效果。总结而言,提示工程为生物序列分析提供了强大的工具,尤其在数据稀缺场景下表现出色,未来有望在多模态融合和高效适应技术方面取得进一步突破。
18. A Morse Transform for Drug Discovery
arxiv
本文提出了一种基于分段线性(PL)Morse理论的配体虚拟筛选(LBVS)新框架,通过将配体建模为简化Delaunay三角剖分,并利用多方向高度函数的临界点生成特征向量,显著提高了配体结合潜力的预测性能。该方法通过提取配体表面的关键拓扑特征(如峰值、谷值和鞍点),避免了传统深度神经网络的高计算成本,仅需轻量级分类器即可实现最先进的性能。实验在DUD-E和MUV两个标准数据集上进行,结果显示,基于Morse特征的方法在形状特征中表现最佳,而结合化学信息的Morse特征在所有特征中表现最优。该方法为早期药物发现中的配体优先排序提供了一种可解释且可扩展的解决方案。
19. All-atom Diffusion Transformers: Unified generative modelling of molecules and materials
arxiv
本文提出了一种名为All-atom Diffusion Transformer (ADiT)的统一生成模型,能够同时生成周期性和非周期性原子系统,如分子和材料,创新点在于通过共享的潜在空间和扩散变换器实现了跨领域的统一建模。方法上,ADiT采用变分自编码器将分子和材料映射到共享的潜在空间,并使用扩散变换器在潜在空间中进行生成。实验在QM9分子数据集和MP20材料数据集上进行,结果表明ADiT在生成有效且真实的分子和材料方面超越了现有的特定领域模型,且训练和推理速度显著提升。总结来说,ADiT为生成化学提供了一个通用的基础模型框架,展示了跨领域迁移学习的潜力。
20. Benchmarking Large Language Models on Multiple Tasks in Bioinformatics NLP with Prompting
arxiv
本文提出了一种基于提示的全面生物信息学基准测试框架Bio-benchmark,用于评估大语言模型(LLMs)在30个关键生物信息学任务中的表现,涵盖蛋白质、RNA、药物、电子健康记录和传统中医等领域。作者开发了BioFinder工具,用于从LLM响应中提取答案,提取准确率比现有方法提高约30%。实验评估了包括GPT-4o和Llama-3.1-70b在内的六种主流LLM在零样本和少样本链式思维(CoT)设置下的表现,结果显示LLM在蛋白质、RNA和药物设计等任务中表现良好,特别是在少样本学习场景下。总结表明,该研究为LLM在生物信息学中的应用提供了全面的评估框架和工具。
21. A Generalist Cross-Domain Molecular Learning Framework for Structure-Based Drug Discovery
arxiv
本文提出了一种名为BIT(Biomolecular Interaction Transformer)的通用跨域分子学习框架,用于基于结构的药物发现,其创新点在于通过引入Mixture-of-Domain-Experts(MoDE)和Mixture-of-Structure-Experts(MoSE)机制,实现了对小分子、蛋白质及其复合物的多模态编码,并有效捕捉了分子间的精细相互作用。BIT采用统一的Transformer架构,通过自监督去噪任务进行预训练,能够处理2D和3D结构数据。实验部分,BIT在多个基准数据集(如PDBbind、CSAR-HiQ、DUD-E、LIT-PCBA和MoleculeNet)上进行了测试,结果显示其在结合亲和力预测、虚拟筛选和分子性质预测等任务中均表现出色,特别是在GluN1/GluN3A NMDA受体的虚拟筛选中成功识别出两个具有显著抑制活性的化合物。总体而言,BIT在药物发现领域展现了强大的通用性和应用潜力。
22. Multimodal AI predicts clinical outcomes of drug combinations from preclinical data
arxiv
本文提出了一种名为MADRIGAL的多模态AI模型,用于从临床前数据预测药物组合的临床效果,创新点在于其能够处理缺失数据并整合多种数据模态,显著提升了预测准确性。该方法通过对比学习对齐不同模态的表示,并使用Transformer瓶颈模块进行多模态融合,从而在训练和推理阶段处理缺失数据。实验使用了TWOSIDES和DrugBank数据集,MADRIGAL在预测药物组合安全性和疗效方面表现优异,特别是在处理新药组合时表现出色。总结来说,MADRIGAL为药物组合设计提供了更精确的预测工具,具有重要的临床应用价值。