AI+Drug Snapshot | 250331 | UniMoMo首次实现用单一模型设计多种分子类型的结合物
关注
MindDance
微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展
1. Functional prediction of DNA/RNA-binding proteins by deep learning
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.03.641203
简介: 该研究利用深度学习,基于基因共表达数据预测DNA/RNA结合蛋白的功能,改进了以往预测方法依赖实验数据的不足。研究修改了基于转录因子DNA结合位点预测基因表达水平的深度学习方法,使用多个细胞类型的基因表达数据。数据集包含多种细胞的RNA-seq数据及相关的ChIP-seq等数据。实验结果表明,引入共表达数据后,预测基因表达水平的相关系数从0.70提升到0.80左右,还发现了与已知功能注释相符及新的功能注释。该研究为DNA/RNA结合蛋白功能预测提供了新途径。
2. MDPath: Unraveling Allosteric Communication Paths of Drug Targets through Molecular Dynamics Simulations
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.27.645168
代码: https://github.com/wolberlab/mdpath
简介: 论文介绍了MDPath,这是一个用Python开发的通过分子动力学模拟分析变构通讯路径的工具,有助于基于结构的合理药物设计。该工具整合归一化互信息和基于图的路径跟踪方法。研究以多个GPCR和ABL1激酶为模型系统,使用从PDB获取并处理后的结构进行分子动力学模拟。结果显示,MDPath能识别保守基序,关联受体突变与激活变化,绘制配体诱导的变构路径,还适用于非GPCR系统,为理解蛋白变构机制提供了有效手段。
3. COMIC: Explainable Drug Repurposing via Contrastive Masking for Interpretable Connections
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.26.645428
代码: https://drp.opendfki.de/
简介: COMIC是一种通过对比掩蔽实现可解释连接的药物重新利用预测器,可平衡预测性能和可解释性。它采用多通道架构,利用对比学习从稀疏数据中提取关键特征和路径。研究基于PrimeKG知识图谱进行评估,该图谱包含多种生物数据。实验对比了COMIC与多种基线方法,在九个疾病领域的预测任务中,COMIC平均性能提升9.55%,在预测近期FDA批准的药物再利用对时,能成功识别70%。这为药物再利用研究提供了新的有效工具。
4. MetDeeCINE: Deciphering Metabolic Regulation through Deep Learning and Multi-Omics
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.24.645125
简介: 该研究提出MetDeeCINE框架,结合深度学习与多组学数据,通过代谢信息指导的神经网络预测酶与代谢物间定量关系,突破传统方法局限。研究构建大肠杆菌代谢动力学模型生成模拟数据,结合小鼠肝脏多组学实验数据,训练并评估MetDeeCINE中的MiBiNN和MiGNN模型。结果显示,MiGNN在预测浓度控制系数上表现最佳,能准确反映复杂酶-代谢物关系,还识别出小鼠体内糖异生的限速酶。MetDeeCINE为代谢调控研究提供了新途径,有助于疾病研究、药物发现和代谢工程优化。
5. NAND Hybrid Riboswitch Design by Deep Batch Bayesian Optimization
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.28.645907
代码: https://github.com/Self-Organizing-Systems-TUDarmstadt/NANDRiboswitchDesignByBayesOpt
简介: 论文提出结合体内筛选和深度贝叶斯优化的方法设计模拟布尔与非(NAND)逻辑的杂交核糖开关,改进了传统设计方法的不足。研究先筛选出具有NAND行为的杂交核糖开关模板,再通过随机化通讯模块筛选优化,并利用贝叶斯优化和深度集成神经网络进一步提升性能。实验使用酵母进行体内筛选和荧光测量,对筛选出的序列进行分析。结果得到了能精确模拟NAND逻辑的核糖开关,且优化后的候选者性能显著提升。该研究为遗传电路设计提供了新方法,有助于实现复杂逻辑操作。
6. fpocketR: A platform for identification and analysis of ligand-binding pockets in RNA
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.25.645323
代码: https://github.com/Weeks-UNC/fpocketR
简介: 本文介绍了fpocketR软件包,它能识别、表征和可视化RNA中的配体结合口袋,优化了现有工具在RNA口袋预测方面的不足。研究利用该软件分析多种RNA结构,包括大RNA、低分辨率和建模结构、动态RNA等,同时使用多个配体数据库评估口袋与配体的结合能力。结果表明,fpocketR能在不同类型RNA结构中有效检测口袋,且检测到的口袋形状与FDA批准的配体相似。fpocketR为RNA靶向配体发现和研究提供了有力工具,有助于推动RNA相关药物研发。
7. UniMoMo: Unified Generative Modeling of 3D Molecules for De Novo Binder Design
期刊: arXiv
链接: https://arxiv.org/abs/2503.19300v1
简介: 论文提出UniMoMo框架,首次实现用单一模型设计多种分子类型的结合物,创新地将分子表示为基于块的图,并利用几何潜在扩散模型生成3D分子。研究构建多种分子数据集,采用迭代全原子自动编码器和几何潜在扩散模型进行训练和生成。实验结果显示,在肽、抗体和小分子的生成任务上,UniMoMo优于现有特定领域模型,能生成具有高亲和力和合理几何结构的分子,且跨领域训练可提升性能。该研究为分子结合物的生成建模提供统一框架,有助于药物研发等领域发展。
8. SpaBatch: Batch Alignment of Spatial Transcriptomics Data using Graph Deep Learning
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.24.645150
简介: SpaBatch利用变分图自动编码器、自监督学习和三重态学习等技术,实现多切片空间转录组数据的批量对齐,解决了传统方法在处理此类数据时的不足。研究收集多种组织类型和实验条件下的数据集,对数据进行预处理和增强后训练模型。结果表明,SpaBatch在空间域识别和批效应校正方面表现出色,能有效分析多切片空间转录组数据,揭示新的生物学信息,在多个数据集上的性能优于现有方法。该框架为空间生物学研究提供了有力工具,有助于推动相关领域的发展。
9. MultiCTox: Empowering Accurate Cardiotoxicity Prediction through Adaptive Multimodal Learning
期刊: Journal of Chemical Information and Modeling
链接: https://doi.org/10.1021/acs.jcim.5c00022
代码: https://github.com/3505675604/MultiCTox
简介: MultiCTox通过自适应多模态学习,整合分子多种数据提升心脏毒性预测准确性,创新地设计融合层并利用对比学习优化模型。研究构建多个包含化合物对不同心脏离子通道活性和毒性信息的数据集,训练模型并对比多种方法。结果显示,MultiCTox在多个数据集上表现优异,优于现有模型,且通过消融实验等验证了各组件的有效性。该模型为心脏药物研发和安全性评估提供了新方法,但仍需优化以减少模态内冗余等问题。
10. CompBioAgent: AN LLM-POWERED AGENT FOR SINGLE-CELL RNA-SEQ DATA EXPLORATION
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.17.643771
代码: https://github.com/interactivereport/compbioagent
简介: CompBioAgent借助大语言模型(LLMs)实现单细胞RNA测序(scRNA-seq)数据的自然语言交互探索,打破分析技术壁垒。它通过提示工程将自然语言转为JSON命令,调用CellDepot数据库和Cellxgene VIP平台进行数据查询与可视化。研究使用包含多种疾病的CellDepot公共数据集进行测试,结果显示该工具能准确生成多种可视化图表,帮助研究人员分析基因表达模式等。CompBioAgent为科研人员提供便捷的scRNA-seq数据分析方式,推动生物研究发展,但仍需拓展功能以更好满足研究需求。
11. Lignature: A Comprehensive Database of Ligand Signatures to Predict Cell-Cell Communication
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.22.644770
代码: https://github.com/yingxinac/LignatureData; https://github.com/yingxinac/Lignature
简介: Lignature构建了包含362种人类配体转录组特征的数据库,结合预测框架,比现有方法更准确地预测细胞间通信中的活性配体。该数据库整合多种数据源,经处理生成基因和通路层面的配体特征。研究利用体外实验和单细胞测序数据集,对比多种方法评估其性能。结果表明,Lignature在识别活性配体上表现更优,能有效应用于多种生物场景。它为研究细胞间通信提供了有力资源,但覆盖范围受实验数据限制,有待整合多组学数据进一步完善。
12. Development of DeepPQK and DeepQK sequence-based deep learning models to predict protein-ligand affinity and application in the directed evolution of ferulic esterase DLfae4
期刊: International Journal of Biological Macromolecules
链接: https://doi.org/10.1016/j.ijbiomac.2025.141790
代码: https://github.com/KK-SW1207/DeepPQK_QK
简介: 研究构建DeepPQK和DeepQK深度学习模型预测蛋白质-配体结合亲和力,并用于指导阿魏酸酯酶DLFae4的定向进化,克服了传统方法依赖蛋白质晶体结构的局限。模型以ESM-2编码的蛋白质序列等为输入,通过卷积神经网络等进行特征提取和预测。在PDB-bind 2016核心数据集上测试,两模型的皮尔逊相关系数分别达0.805和0.804。基于模型设计的DLFae4突变体实验显示,最优突变体酶活性和催化效率显著提升。这两个模型为研究蛋白质-配体相互作用和酶的定向进化提供了新途径。
13. A Reinforcement Learning-Driven Transformer GAN for Molecular Generation
期刊: arXiv
链接: https://arxiv.org/abs/2503.12796v1
简介: RL-MolGAN创新性地采用基于Transformer的离散GAN框架,结合强化学习和蒙特卡洛树搜索技术,解决分子生成难题,可进行从头和基于支架的分子设计。该模型利用Transformer解码器生成分子,编码器评估分子,通过奖励计算优化分子属性。研究使用QM9和ZINC数据集训练模型,从多个指标评估性能。结果表明,RL-MolGAN在生成有效、独特且新颖分子方面表现出色,能优化分子化学属性。其为分子设计提供了有效方法,有助于药物研发和化学合成领域的发展。