AI+Drug Snapshot | 250311 | KGDRP结合基因表达数据、化学分子结构和生物网络信息,解决了药物冷启动问题
关注
MindDance
微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展
1. A Knowledge-Guided Graph Learning Approach Bridging Phenotype- and Target-Based Drug Discovery
Advanced Science
本文提出了一种名为KGDRP的知识引导图学习方法,通过整合多模态生物医学数据,显著提升了表型筛选和靶点发现的预测性能。该方法利用异质图神经网络(HGNN)构建生物医学异质图(BioHG),结合基因表达数据、化学分子结构和生物网络信息,解决了药物冷启动问题,并在药物反应预测和靶点发现任务中表现出色。实验使用了GDSC数据集进行药物反应预测,并在COVID-19零样本评估中展示了较高的成功率,结果表明KGDRP在冷启动场景下提高了12%的Spearman相关系数,并在靶点发现中提升了26%的召回率。KGDRP为多模态数据的无缝整合提供了强大的基础设施,加速了治疗分子的发现。
2. Knowledge-guided diffusion model for 3D ligand-pharmacophore mapping
Nature Communications
本文提出了一种名为DiffPhore的知识引导扩散模型,用于3D配体-药效团映射,创新性地结合了药效团匹配知识和校准采样技术,显著提升了配体结合构象预测的准确性。该方法通过知识引导的药效团编码器、基于扩散的构象生成器和校准构象采样器三个模块,实现了配体构象的生成与药效团模型的最佳匹配。实验使用了自建的两个数据集CpxPhoreSet和LigPhoreSet,并在PDBBind测试集和PoseBusters集上验证了DiffPhore在预测配体结合构象和虚拟筛选中的优越性能,成功识别出人谷氨酰环化酶的结构独特抑制剂。该研究为AI驱动的药效团引导药物发现技术提供了重要进展。
3. A Generalist Cross-Domain Molecular Learning Framework for Structure-Based Drug Discovery
arxiv
本文提出了一种名为BIT(Biomolecular Interaction Transformer)的通用跨域分子学习框架,用于基于结构的药物发现,创新点在于引入了Mixture-of-Domain-Experts(MoDE)和Mixture-of-Structure-Experts(MoSE)机制,能够同时处理小分子、蛋白质和蛋白质-配体复合物,并捕捉跨域分子相互作用。方法上,BIT基于Transformer-M模型,通过自监督去噪任务进行预训练,并结合MoDE和MoSE实现深度融合和域特定编码。实验在多个基准数据集上进行,包括PDBbind、CSAR-HiQ、DUD-E和LIT-PCBA,结果显示BIT在结合亲和力预测、虚拟筛选和分子性质预测任务中均表现出色,特别是在GluN1/GluN3A NMDA受体的虚拟筛选中成功识别出两个具有显著抑制活性的化合物。总结而言,BIT通过跨域预训练和灵活的微调策略,显著提升了基于结构的药物发现效率。
4. RIGR: Resonance Invariant Graph Representation for Molecular Property Prediction
ChemRxiv
本文提出了一种共振不变图表示(RIGR)方法,用于解决分子性质预测中因共振结构不同导致的预测不一致问题,创新地通过消除共振相关特征来实现共振不变性。该方法基于Chemprop的D-MPNN架构,通过保留仅与共振无关的原子和键特征,确保所有共振结构映射到同一表示。实验使用了包含共振活性分子和闭壳分子的QuantumPioneer数据集,并与其他数据集(如MoleculeNet、OGB等)进行广泛基准测试,结果表明RIGR在减少特征数量的同时,性能优于或与原生Chemprop相当,且避免了数据增强的复杂性和高成本。RIGR不仅解决了共振问题,还展示了作为通用图特征化器的潜力。
5. PocketDTA: A pocket-based multimodal deep learning model for drug-target affinity prediction
Computational Biology and Chemistry
本文提出了一种基于口袋的多模态深度学习模型PocketDTA,用于药物-靶标亲和力预测,创新点在于通过口袋图结构编码蛋白质残基特征,并结合序列和结构信息提升预测精度。方法上,PocketDTA利用预训练的生物语言模型生成蛋白质残基嵌入,构建口袋图,并采用关系图卷积网络提取药物和蛋白质的结构特征,最终通过深度神经网络整合多模态信息进行预测。实验在Davis、Filtered Davis、KIBA和PDBbind v2020四个基准数据集上进行,结果表明PocketDTA在多种数据分割下均优于现有模型,验证了口袋方法的有效性。总结而言,PocketDTA通过结合序列和结构信息,显著提高了药物-靶标亲和力预测的准确性和泛化能力。
6. Prediction of drug target interaction based on under sampling strategy and random forest algorithm
PLoS ONE
本文提出了一种基于欠采样策略和随机森林算法的药物-靶点相互作用预测方法,创新点在于结合了多种药物分子指纹和蛋白质序列信息,并通过随机投影降维和NearMiss欠采样策略有效解决了数据不平衡问题。方法上,首先提取药物和靶点的多维特征,使用随机投影降维减少计算复杂度,再通过NearMiss方法平衡正负样本,最后利用随机森林分类器进行预测。实验在Gold Standard Dataset的四个子数据集(酶、GPCR、离子通道和核受体)上进行,结果表明该方法在auROC指标上分别达到了99.33%、97.65%、98.21%和92.26%,优于现有方法。总结而言,该方法在药物-靶点相互作用预测中表现出色,具有较高的准确性和泛化能力。
7. Mol-CADiff: Causality-Aware Autoregressive Diffusion for Molecule Generation
arxiv
Mol-CADiff是一种基于因果注意力机制的自回归扩散模型,用于文本条件分子生成,创新点在于通过显式建模文本提示与分子结构之间的因果关系,实现了更精确的分子生成控制。该方法结合了扩散模型和自回归策略,利用因果注意力机制增强跨模态和模态内的依赖建模,生成多样、新颖且化学有效的分子。实验在PubChem、ChEBI-20、PCDes和MoMu四个数据集上进行,结果表明Mol-CADiff在生成分子的有效性、新颖性、多样性和与指定属性的对齐性上均优于现有方法。Mol-CADiff通过自然语言指令实现了细粒度的分子生成控制,为药物发现和材料科学提供了新的可能性。
8. Toward an Evaluation Science for Generative AI Systems
arxiv
本文主张建立生成式AI系统的评估科学,强调当前静态基准测试的不足,并提出借鉴其他领域(如交通、航空航天和制药工程)的安全评估实践,提出评估指标应具备现实适用性、迭代优化和建立评估机构与规范。作者通过分析生成式AI的独特挑战,如开放性和非确定性,提出采用行为评估方法,并结合预部署测试和后部署监控来全面评估系统性能与安全性。实验部分未提及具体数据集,但强调了评估反馈循环的重要性,通过比较预部署基准测试和后部署监控结果,优化早期评估设计。总结指出,生成式AI的广泛应用亟需成熟的评估科学,以确保其安全性和可靠性。
9. MV-CLAM: Multi-View Molecular Interpretation with Cross-Modal Projection via Language Model
arxiv
本文提出了一种名为MV-CLAM的多视图分子解释框架,通过跨模态投影语言模型实现对分子结构的精细对齐,创新点在于利用多查询Transformer(MQ-Former)将多视图分子表示统一到文本空间,解决了现有单视图对齐策略的不一致性和信息丢失问题。方法上,MV-CLAM通过MQ-Former整合2D和3D分子表示,并引入多令牌对比损失来保留分子特征的多样性。实验在PubChem324K数据集上进行,结果表明MV-CLAM在分子-文本检索和分子描述生成任务中均达到了最先进的性能。总结来说,MV-CLAM通过多视图对齐和精细的对比损失,显著提升了分子理解的准确性和解释性。
10. HILGEN: Hierarchically-Informed Data Generation for Biomedical NER Using Knowledgebases and Large Language Models
arxiv
本文提出了一种名为HILGEN的分层数据生成方法,结合了统一医学语言系统(UMLS)的领域知识和GPT-3.5生成的大语言模型(LLMs)的合成数据,用于提升生物医学命名实体识别(NER)在少样本学习中的表现。该方法通过UMLS的层次结构扩展训练数据,并利用LLMs生成上下文相关的合成实例,显著提高了NER模型的性能。实验在MIMIC III、BC5CDR、NCBI-Disease和Med-Mentions四个生物医学数据集上进行,使用BERT-Large和DANN模型进行评估,结果显示,结合UMLS和GPT-3.5的最佳集成方法在BERT-Large模型上平均F1分数提升了42.29%,在DANN模型上提升了25.03%。研究表明,结合领域知识和生成模型能够有效提升少样本学习中的NER性能。
11. Generative Flows on Synthetic Pathway for Drug Design
arxiv
本文提出了一种名为RXNFLOW的合成导向生成框架,通过引入动作空间子采样技术,解决了大规模合成路径生成中的计算开销问题,并利用生成流网络(GFlowNets)生成多样且高效的药物分子。该方法通过预定义的分子构建块和化学反应模板,约束合成化学路径,并在不重新训练的情况下适应新的构建块和目标。实验在LIT-PCBA和CrossDocked2020数据集上进行,结果显示RXNFLOW在口袋特异性优化和口袋条件生成任务中均优于现有方法,平均Vina得分为-8.85 kcal/mol,合成可行性达到34.8%。RXNFLOW展示了其在真实药物发现流程中的潜力和适应性。
12. TRain: T-cell receptor automated immunoinformatics
BMC Bioinformatics
本文介绍了一个名为TRain的Python工具,旨在简化从T细胞受体(TCR)序列到预测的TCR-肽-MHC(pMHC)三维复合物的建模和对接过程,创新点在于整合了现有工具并提供了自动化流程。TRain通过将单细胞测序数据转换为完整的TCR氨基酸序列,利用TCRModel2或Rosetta进行建模,并与pMHC晶体结构进行无偏对接,最终使用RosettaDock进行对接并分析接口。实验中使用JM22 TCR及其已知结合表位IAV M1和阴性表位MART-1进行案例研究,结果表明TRain能够有效区分不同结合对的结合强度和质量。TRain为免疫学研究提供了一个高效的工具,有助于从序列数据生成结构模型并探索TCR-pMHC相互作用。
13. DrBioRight 2.0: an LLM-powered bioinformatics chatbot for large-scale cancer functional proteomics analysis
Nature Communications
本文介绍了DrBioRight 2.0,一个基于大语言模型(LLM)的生物信息学聊天机器人,旨在通过自然语言交互简化大规模癌症功能蛋白质组学数据的分析。该方法结合了反向蛋白质阵列(RPPA)技术,整合了来自癌症基因组图谱(TCGA)和癌症细胞系百科全书(CCLE)的近9000个样本数据,涵盖了447个蛋白质标记物,显著扩展了癌症相关通路的覆盖范围。实验结果表明,DrBioRight 2.0能够高效处理复杂数据,并通过自然语言查询实现数据探索、分析和可视化,成功率达到90%,显著优于传统工具和通用LLM。该平台通过降低技术门槛,为生物医学研究人员提供了一个直观、灵活且高度可定制的分析工具,推动了癌症蛋白质组学研究的进展。
14. Large Language Models in Bioinformatics: A Survey
arxiv
这篇论文系统综述了大语言模型(LLMs)在生物信息学中的应用,重点探讨了其在基因组序列建模、RNA结构预测、蛋白质功能推断和单细胞转录组学中的创新应用。作者详细介绍了LLMs的三种主要架构(编码器、解码器、编码器-解码器)及其在生物信息学任务中的适用性,并通过多个代表性模型(如DNABERT、AlphaFold2、RoseTTAFold等)展示了LLMs在DNA、RNA、蛋白质和单细胞数据分析中的显著进展。实验部分涉及多种数据集(如ENCODE、PDB、UniProtKB等),结果表明LLMs在这些任务中表现出色,尤其是在基因表达预测、蛋白质结构预测和单细胞注释等方面。总结指出,尽管LLMs在生物信息学中展现出巨大潜力,但仍面临数据稀缺、计算复杂性和跨组学整合等挑战,未来应关注多模态学习和临床应用的进一步发展。
15. InfoSEM: A Deep Generative Model with Informative Prions for Gene Regulatory Network Inference
arxiv
本文提出了一种名为InfoSEM的无监督生成模型,通过引入文本基因嵌入作为信息先验,显著提升了基因调控网络(GRN)推断的准确性,并避免了监督模型中的基因特异性偏差。该方法结合了变分贝叶斯和文本基因嵌入,能够在不依赖昂贵的地面真值标签的情况下进行GRN推断,并在地面真值标签可用时进一步整合这些标签以提升性能。实验在BEELINE套件的四个细胞系数据集(hESC、hHEP、mDC、mESC)上进行,结果表明InfoSEM在无先验模型基础上提升了38.5%的性能,并在整合标签数据后进一步提升了11.1%。本文还提出了一个新的生物启发的基准框架,更好地反映了真实世界应用中的GRN推断需求。