AI+Drug Snapshot | 250314 | DyRAMO结合了贝叶斯优化和生成模型,实现了多目标优化与预测可靠性的平衡
关注
MindDance
微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展
1. A data-driven generative strategy to avoid reward hacking in multi-objective molecular design
本文提出了一种名为DyRAMO的动态可靠性调整框架,用于在多目标分子设计中避免奖励黑客问题,其创新点在于通过动态调整预测模型的可靠性水平,确保设计的分子在多个目标属性上具有高预测可靠性。方法上,DyRAMO结合了贝叶斯优化和生成模型,通过迭代设置可靠性水平、设计分子和评估结果,实现了多目标优化与预测可靠性的平衡。实验以抗癌药物EGFR抑制剂设计为例,使用了ChemTSv2生成模型和多个预测模型,成功设计了包括已批准药物在内的分子,验证了框架的有效性。总结而言,DyRAMO为多目标分子设计提供了一种可靠且高效的解决方案。
2. Collaborative Expert LLMs Guided Multi-Objective Molecular Optimization
本文提出MultiMol系统,利用协作式大语言模型进行多目标分子优化。系统包括数据驱动的工作代理和文献指导的研究代理,前者生成优化分子,后者通过文献搜索筛选候选分子。实验在六个多目标优化任务中,MultiMol成功率达到82.30%,显著优于现有方法。研究还通过优化XAC和Saquinavir分子验证了其实际应用价值。MultiMol为多目标分子优化提供了高效的工具,有望加速药物开发进程。
3. VenusMutHub: A systematic evaluation of protein mutation effect predictors on small-scale experimental data
本文介绍VenusMutHub基准,用于评估蛋白质突变效应预测模型在小规模实验数据上的表现。通过收集905个小规模实验数据集,涵盖527种蛋白质的稳定性、活性、结合亲和力和选择性等属性,评估了23种计算模型。实验结果表明,不同模型在不同功能属性上表现各异,VenusMutHub为蛋白质工程应用中的模型选择提供了实用指导。该研究填补了小规模实验数据评估的空白,为蛋白质突变效应预测提供了更准确的评估标准。
4. Towards Interpretable Protein Structure Prediction with Sparse Autoencoders
本文提出稀疏自编码器(SAE)用于解释蛋白质结构预测模型ESMFold的机制。通过将SAE扩展到ESM2-3B模型,并引入Matryoshka SAE,实现了对蛋白质结构预测的层次化特征学习。实验在CASP14数据集上评估了SAE的结构预测能力,结果表明SAE在保持预测性能的同时,能够有效压缩模型表示。该研究为蛋白质结构预测模型的解释性提供了新的方法,有助于深入理解模型内部机制。
5. evoBPE: Evolutionary Protein Sequence Tokenization
本文提出evoBPE,一种基于进化突变模式的蛋白质序列分词方法。通过整合替代矩阵,evoBPE生成候选词对并进行评分,优于传统的BPE方法。实验在人类蛋白质序列上进行,结果表明evoBPE在域保守性和嵌入相似性分析中表现更优。该研究为蛋白质序列表示提供了新的分词方法,有助于更好地捕捉进化动态。
6. Multi-Modal Foundation Models for Computational Pathology: A Survey
本文综述了多模态基础模型在计算病理学中的应用,重点介绍了基于H&E染色全切片图像的多模态模型,并将其分为视觉-语言、视觉-知识图谱和视觉-基因表达三类。文章系统分析了32种多模态基础模型和28个多模态数据集,并提出了未来研究方向。
7. SCOPE-DTI: Semi-Inductive Dataset Construction and Framework Optimization for Practical Usability Enhancement in Deep Learning-Based Drug Target Interaction Prediction
本文提出了SCOPE-DTI框架,通过构建大规模半归纳人类DTI数据集,结合三维蛋白质和化合物表示、图神经网络和双线性注意力机制,显著提升了药物-靶点相互作用预测的性能。实验验证了Ginsenoside Rh1的抗癌靶点,展示了该框架的实际应用价值。
8. Evaluating Machine Learning Models for Molecular Property Prediction: Performance and Robustness on Out-of-Distribution Data
本文评估了12种机器学习模型在分子性质预测中的表现,特别是它们在分布外数据上的鲁棒性。通过使用TDC数据库中的8个数据集和7种数据分割策略,研究发现基于化学相似性聚类的分割对模型最具挑战性,且ID和OOD性能的相关性因分割策略而异。
9. GNINA 1.3: the next increment in molecular docking with deep learning
本文介绍了GNINA 1.3分子对接软件,更新了深度学习框架至PyTorch,并引入了共价对接功能和知识蒸馏CNN评分函数,提升了对接效率和准确性。实验基于CrossDocked2020 v1.3数据集进行模型训练,结果显示GNINA 1.3在虚拟筛选中表现出色。
10. BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning
本文提出BioMaze数据集和PATHSEEKER模型,用于评估和增强大语言模型在生物通路推理中的能力。通过引入5.1K复杂生物通路问题,评估了CoT和图增强推理方法,发现大语言模型在干预和扰动系统中表现不佳,因此提出PATHSEEKER,通过子图导航增强推理能力。实验基于BioMaze数据集,结果表明PATHSEEKER在处理复杂生物系统时表现更优。该研究为大语言模型在生物通路推理中的应用提供了新的解决方案。