AI+Drug Snapshot | 250315 | DockEM通过局部密度图和物理能量优化,结合REMC模拟,实现了高精度配体定位
关注
MindDance
微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展
1. DockEM: an enhanced method for atomic-scale protein–ligand docking refinement leveraging low-to-medium resolution cryo-EM density maps
本文提出了一种名为DockEM的蛋白质-配体对接方法,创新性地利用中低分辨率冷冻电镜密度图进行精确对接。该方法通过局部密度图和物理能量优化,结合REMC模拟,实现了高精度配体定位。实验在DUDE和COACH数据集上进行了测试,结果显示DockEM在121个蛋白质-配体目标上表现优于其他先进对接方法。该方法显著提升了冷冻电镜密度图在虚拟药物筛选中的应用,为药物发现提供了更可靠的框架。
2. Identifying RNA-small Molecule Binding Sites Using Geometric Deep Learning with Language Models
本文开发了RNABind,一种基于几何深度学习和RNA语言模型的RNA-小分子结合位点预测框架,创新性地整合了多链RNA结构和预训练RNA语言模型。实验在HARIBOSS数据集和多个单链RNA数据集上进行了评估,RNABind在大多数数据集上表现优于现有方法,特别是在多链RNA结构上表现出更强的预测能力。该方法为RNA靶向药物发现提供了新的工具。
3. Multi-View Mixture-of-Experts for Predicting Molecular Properties Using SMILES, SELFIES, and Graph-Based Representations
本文提出了MoL-MoE,一种多视图专家混合框架,创新性地整合了SMILES、SELFIES和分子图表示来预测分子性质。实验在MoleculeNet基准数据集上进行了评估,MoL-MoE在9个数据集上的表现均优于现有方法,特别是在k=6的路由激活设置下表现最佳。该框架通过动态调整不同分子表示的使用,显著提升了分子性质预测的准确性和鲁棒性。
4. Expanding the Synthome: Generating and integrating novel reactions into retrosynthesis tools
本文提出了RetroMix,一种新的逆合成工具,创新性地整合了未充分利用的化学反应,显著提升了逆合成性能。实验在激酶和非激酶靶标分子上进行了测试,结果显示RetroMix在近70%的测试案例中表现更好,平均预测合成成本降低了约20%。该工具能够识别并优先考虑新的化学反应,为化学空间的探索和复杂分子的合成提供了新的方法。
5. Equivariant Masked Position Prediction for Efficient Molecular Representation
本文提出了一种名为等变掩码位置预测(EMPP)的自监督学习方法,用于增强图神经网络(GNN)在分子表示中的性能,解决了传统掩码和去噪方法在分子数据有限情况下的不足。该方法通过随机掩码原子的3D位置并保留其他属性,利用量子力学原理预测掩码原子的位置,避免了高斯混合分布的近似问题。实验表明,EMPP在多个分子任务中显著提升了先进等变GNN的泛化能力,超越了现有的自监督方法。总结来说,EMPP为分子学习提供了一种新的路径,有效解决了现有方法的局限性。
6. Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics
本文介绍了Helix-mRNA,一种结合状态空间模型(SSM)和注意力机制的混合模型,用于优化mRNA序列的设计,解决了现有模型在处理长序列和保留生物结构信息方面的不足。该方法采用单核苷酸和密码子编码,通过两阶段预训练策略,先进行通用预训练,再进行高质量数据的专门训练。实验结果显示,Helix-mRNA在翻译效率、稳定性和降解预测等任务中优于现有模型,特别是在处理长序列时表现出色。总结来说,Helix-mRNA为mRNA治疗和疫苗设计提供了更高效和灵活的工具。
7. Concept-Driven Deep Learning for Enhanced Protein-Specific Molecular Generation
本文提出了一种基于概念驱动的深度学习框架,用于增强蛋白质特异性分子生成,解决了现有原子级和片段级方法在合成可行性和药物相似性方面的不足。该方法通过构建蛋白质亚口袋和分子臂的概念神经网络,结合相互作用力和几何互补性信息,生成分子臂,并使用扩散模型连接这些臂,确保结构完整性和化学多样性。实验表明,该方法在合成可行性和结合亲和力方面显著优于传统方法,药物相似性提高了4%,合成可行性提高了6%。总结来说,该方法为药物发现提供了一种更高效和可解释的分子生成框架。
8. ProtTeX: Structure-In-Context Reasoning and Editing of Proteins with Large Language Models
本文提出了ProtTeX,一种将蛋白质序列、结构和文本信息统一离散化的框架,解决了现有大语言模型(LLM)在处理蛋白质结构信息时的局限性。该方法通过将蛋白质结构和序列编码为离散令牌,结合链式思维(CoT)推理范式,使LLM能够进行多模态蛋白质推理和生成。实验表明,ProtTeX在蛋白质功能预测和结构生成任务中显著优于现有的领域专家模型,准确率提高了两倍。总结来说,ProtTeX为蛋白质科学提供了一种统一的多任务学习框架,扩展了LLM在蛋白质领域的应用能力。
9. evoBPE: Evolutionary Protein Sequence Tokenization
本文提出了一种名为evoBPE的新型蛋白质序列分词方法,创新点在于将进化突变模式整合到序列分割中,克服了传统Byte-Pair Encoding(BPE)在蛋白质序列分析中的局限性。该方法通过利用已知的替换矩阵生成候选词对,并根据配对对齐分数和频率阈值进行评估。实验使用UniRef50数据集中的蛋白质序列进行,结果表明evoBPE在多个维度上优于标准BPE,特别是在词汇量增加时,evoBPE在域保守性和嵌入相似性分析中表现更佳。evoBPE为蛋白质序列表示提供了一种进化感知的分词方法,推动了蛋白质功能预测、结构建模和进化分析的发展。
10. Exploiting Edited Large Language Models as General Scientific Optimizers
本文提出了一种名为General Scientific Optimizers(GSO)的双层优化方法,创新点在于利用大语言模型(LLMs)作为知识渊博的科学家,通过模型编辑与内层模拟平台进行交互,生成新的解决方案。GSO通过内层模拟平台提供观测反馈,外层LLM优化生成假设,并通过模型编辑更新LLM知识。实验在六个不同的LLM骨干上对七个任务进行了测试,结果表明GSO在多个任务上均优于现有最先进方法。GSO为科学场景中的数学优化提供了一种通用且有效的方法,显著提升了优化效率和效果。
11. Technical Insights and Legal Considerations for Advancing Federated Learning in Bioinformatics
本文探讨了联邦学习在生物信息学中的应用,创新点在于通过联邦学习在多机构间共享模型更新而非原始数据,以保护患者隐私并提高临床发现的效率。文章回顾了联邦学习的方法论、基础设施和法律问题,并提供了实现联邦学习的建议。实验表明,联邦学习在乳腺癌密度分类、COVID-19结果预测和罕见肿瘤分割等任务中显著提升了模型性能。联邦学习为生物信息学研究提供了一种安全且高效的数据共享和模型训练方法,推动了多中心研究的进展。
12. Constrained Language Generation with Discrete Diffusion Models
本文提出了一种名为Constrained Discrete Diffusion(CDD)的约束语言生成方法,创新点在于将离散扩散模型与可微分优化相结合,直接在扩散采样过程中施加约束。CDD通过投影操作在每一步生成过程中确保输出满足预定义规则,解决了传统生成模型在约束满足上的不足。实验在毒性缓解、指令跟随任务和分子序列生成等用例中测试了CDD,结果显示CDD在约束满足和生成质量上均优于现有方法。CDD为约束语言生成提供了一种高效且可靠的解决方案,显著提升了生成模型的安全性和可控性。
13. A practical guide to machine learning interatomic potentials – Status and future
本文综述了机器学习原子间势(MLIPs)的最新进展,重点介绍了其在分子建模中的应用、不同类型的MLIPs的基本结构、通用MLIPs的潜力、执行速度的估算方法、MLIP选择指南、基础设施、现有局限性及未来发展方向。文章通过提供实用的指南,帮助非专家研究人员理解和使用MLIPs,涵盖了从硬件资源到预训练势的选择等多个方面。总结指出,MLIPs在原子模拟领域具有革命性潜力,能够弥合传统物理势与从头算分子动力学之间的差距。
14. Predicting Chemical Reaction Outcomes Based on Electron Movements Using Machine Learning
本文提出了Reactron,首个基于电子运动的机器学习模型,用于预测化学反应结果,并通过生成详细的箭头推图来解释反应机制。模型通过扩展反应机制数据集并训练图神经网络,实现了对反应结果和机制的准确预测。实验使用USPTO反应数据集进行基准测试,结果显示Reactron在预测准确性和速度上均优于现有模型,并能通过少量示例进行微调,预测复杂的命名反应。总结指出,Reactron在化学反应预测和发现方面具有显著优势,能够模拟人类化学推理。
15. Representation Learning, Large-Scale 3D Molecular Pretraining, Molecular Property
本文提出了SpaceFormer,一种新的分子预训练表示框架,通过建模分子周围的3D空间来增强分子表示。框架采用网格化空间离散化、网格采样/合并和高效的3D位置编码,结合掩码自编码器进行预训练。实验在多个下游任务中验证了SpaceFormer的优越性能,表明建模3D空间能显著提升分子表示的效果。总结指出,SpaceFormer为分子预训练表示提供了新的范式,强调了3D空间建模的重要性。
16. DrugAgent: Multi-Agent Large Language Model-Based Reasoning for Drug-Target Interaction Prediction and Repurposing
本文提出了DrugAgent,一种基于多智能体大语言模型的药物-靶点相互作用(DTI)预测系统,结合了机器学习预测、知识图谱和文献证据。系统通过协调器架构整合多个智能体的输出,并使用链式思维和反应框架生成透明的推理。实验在激酶抑制剂数据集上进行,结果显示DrugAgent在F1分数上显著优于非推理模型,并提供了详细的解释。总结指出,DrugAgent在DTI预测中表现出色,提供了可解释的推理,适用于生物医学应用。
17. ArchOnML; an open-source python package for machine-learning assisted molecular design
本文介绍了开源Python包ArchOnML,用于机器学习辅助的分子设计,其创新点在于通过Kernel Ridge Regression模型实现了对多达数百万结构衍生物的虚拟筛选,并支持从量子化学计算到模型训练和预测的完整工作流程。方法上,ArchOnML通过模块化设计,支持添加新的描述符、模型和外部量子化学程序接口,简化了ML与化学计算的集成。实验中,作者对超过130万蒽醌衍生物进行了虚拟筛选,预测了其激发态能量和振子强度,结果显示ArchOnML相比非ML计算协议加速了400倍,且激发态能量的平均绝对误差仅为0.1 eV。总结而言,ArchOnML为大规模分子筛选提供了一种高效且灵活的工具,显著提升了计算化学研究的效率。
18. Comparing Massively-Multitask Regression Algorithms for Drug Discovery
本文比较了六种大规模多任务回归算法(MMRMs)在药物发现中的性能,创新点在于首次系统评估了这些算法在虚拟筛选中的准确性和适用性。研究方法包括使用相同的训练/测试集划分,分别对159个激酶和4276个ChEMBL数据集进行模型训练和测试,评估了算法的预测精度和冷启动预测能力。实验结果表明,MMRMs在虚拟筛选中显著优于单任务随机森林回归模型,尤其是在数据丰富的情况下,但冷启动预测的准确性较低。总结而言,MMRMs在药物发现中的虚拟筛选、多靶点预测等方面具有显著优势,但在处理全新化合物时表现有限。
19. ECTS: An ultra-fast diffusion model for exploring chemical reactions with equivariant consistency
本文提出了一种超快速的扩散模型ECTS,通过等变一致性生成方法统一了过渡态生成、反应能垒预测和反应路径搜索,显著提高了化学反应的探索效率。ECTS采用一致性模型框架,通过非均匀时间序列加速去噪过程,仅需少量步骤即可生成高精度的过渡态结构,并在去噪过程中持续优化能垒预测,实现了过渡态结构的0.12Å均方根偏差和能垒预测的2.4 kcal/mol中位误差。实验在Transition1x数据集上进行,包含10,073个基元反应,结果表明ECTS的效率比传统扩散模型高出至少两个数量级,且能够生成与真实反应路径一致的反应路径。ECTS为化学反应机制的研究提供了一种高效且精确的工具。
20. MOLGAECL: Molecular Graph Contrastive Learning via Graph Auto-Encoder Pretraining and Fine-Tuning Based on Drug–Drug Interaction Prediction
Journal of Chemical Information and Modeling
本文提出了一种基于图自编码器预训练和分子图对比学习的药物-药物相互作用(DDI)预测方法MOLGAECL,通过预训练大量未标记分子图并结合对比学习,显著提升了模型的表达能力和泛化性能。该方法首先使用图自编码器对约1000万个未标记分子图进行预训练,并通过子图移除策略进行对比学习,随后在不同数据集上进行全参数微调以适配DDI预测任务。实验在ZhangDDI和DrugBank数据集上进行,结果表明MOLGAECL在准确率、AUROC和AUPRC等指标上均优于现有方法,平均提升分别为6.13%、6.14%和8.16%。MOLGAECL通过有效整合分子结构信息和对比学习策略,显著提升了DDI预测的准确性和稳定性。
21. CMDmpnn: Combining Comparative Molecular Dynamics and ProteinMPNN to Rapidly Expand Enzyme Substrate Spectrum
Journal of Chemical Information and Modeling
本文提出了一种结合比较分子动力学(MD)模拟和ProteinMPNN的虚拟筛选方法CMDmpnn,用于快速扩展酶底物谱,显著提高了酶工程效率。该方法通过MD模拟建立野生型酶的动态模型库,利用ProteinMPNN生成新序列,并通过短MD模拟筛选出具有扩展底物谱的酶变体。以拟南芥糖基转移酶(AtGT)为模型,作者对18种酚类化合物进行了实验验证,成功筛选出多个能够催化广泛酚类化合物的变体,且这些变体的热稳定性未受影响。CMDmpnn方法为酶底物谱的快速扩展提供了一种高效工具,推动了可持续生物催化的发展。