AI+Drug Snapshot | 250312 | CheapVS通过整合专家知识、多目标优化和扩散模型,有效解决了虚拟筛选中的长期挑战
关注
MindDance
微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展
1. Preferential Multi-Objective Bayesian Optimization for Drug Discovery
本文提出了一种名为CheapVS的新型框架,通过结合偏好多目标贝叶斯优化和扩散对接模型,显著提高了药物发现中虚拟筛选的效率和可靠性。该方法利用化学家的成对偏好反馈,优化多个药物属性(如结合亲和力、溶解度和毒性),从而在有限的计算预算内识别出更多潜在药物。实验在包含10万个化学候选物的EGFR靶点库上进行,结果显示CheapVS在仅扫描6%的库时能够恢复37种已知药物中的16种,优于现有对接方法。总结而言,CheapVS通过整合专家知识、多目标优化和扩散模型,有效解决了虚拟筛选中的长期挑战,提升了药物发现的效率和准确性。
2. MERMaid: Universal multimodal mining of chemical reactions from PDFs using vision-language models
本文提出了MERMaid,一种基于视觉-语言模型的多模态化学反应数据提取平台,创新地解决了从PDF文献中自动提取和结构化化学反应信息的难题。该方法通过三个模块——VisualHeist、DataRaider和KGWizard,分别实现图表分割、信息提取和知识图谱构建,利用GPT-4o等模型进行核心推理和上下文补全。实验使用了MERMaid-100数据集,涵盖有机电合成、光催化和有机合成三个领域,结果显示VisualHeist的准确率超过93%,DataRaider的硬匹配准确率超过70%,KGWizard的知识图谱构建准确率达到96%。MERMaid展示了其在多模态数据提取和知识图谱构建中的高效性和通用性,为化学文献的数字化提供了强大工具。
3. Protein–Peptide Docking with ESMFold Language Model
Journal of Chemical Theory and Computation
本文评估了ESMFold语言模型在蛋白质-肽段对接中的应用,创新点在于首次将ESMFold用于该领域,并展示了其在某些情况下优于AlphaFold-Multimer和AlphaFold 3的潜力。研究方法包括使用多甘氨酸连接器、随机掩码策略和加权pLDDT评分来提高对接质量。实验使用了两个数据集(Dataset 1和Dataset 2),结果表明ESMFold在Dataset 1中产生了23个可接受或更高质量的模型,在Dataset 2中表现更优,达到了28.3%的成功率。总结来说,ESMFold在蛋白质-肽段对接中表现出一定的竞争力,尤其是在高通量设置中具有显著的计算效率优势。
4. MAEST: accurately spatial domain detection in spatial transcriptomics with graph masked autoencoder
本文提出了一种名为MAEST的新型图神经网络模型,通过结合图掩码自编码器和图对比学习,有效提升了空间转录组数据中空间域的识别精度。MAEST利用图掩码自编码器进行去噪,并通过图对比学习防止特征崩溃,增强模型鲁棒性,同时整合一跳和多跳表示以捕捉局部和全局空间关系。实验在人类大脑、小鼠海马体、嗅球和胚胎等多个数据集上进行,结果表明MAEST在空间域识别任务中优于七种现有方法,并能够高精度地整合多切片数据。MAEST在处理复杂组织空间结构方面展现出强大的通用性和有效性。
5. Hashing based Contrastive Learning for Virtual Screening
本文提出了一种基于哈希的对比学习方法DrugHash,用于虚拟筛选,创新点在于首次将哈希技术引入虚拟筛选,显著降低了内存和时间成本,同时提高了准确性。该方法通过设计一种简单有效的哈希策略,实现了蛋白质和分子模态的端到端二进制哈希码学习,将虚拟筛选任务转化为检索任务。实验在DUD-E和LIT-PCBA数据集上进行,结果表明DrugHash在AUROC、BEDROC和EF等指标上均优于现有方法,内存成本至少降低了32倍,速度提升了4.6倍。总结来说,DrugHash在虚拟筛选中实现了高效且准确的分子检索,具有广泛的应用前景。
6. Towards Conversational AI for Disease Management
本文提出了一种基于大语言模型(LLM)的对话式AI系统AMIE,用于疾病管理,通过多轮对话和临床推理优化疾病进展、治疗反应和药物处方。AMIE在虚拟OSCE研究中与21名初级保健医生(PCP)进行了100个多轮病例场景的对比,结果显示AMIE在治疗和检查的精确性以及临床指南的遵循上优于PCP,并在药物推理基准RxQA中表现更佳。实验表明,AMIE在疾病管理中的推理能力与PCP相当,甚至在某些方面更优,为AI在临床管理中的应用迈出了重要一步。
7. Precise Insulin Delivery for Artificial Pancreas: A Reinforcement Learning Optimized Adaptive Fuzzy Control Approach
本文提出了一种基于强化学习和自适应模糊控制的胰岛素控制器,用于人工胰腺系统,通过结合强化学习的适应性和模糊控制的稳定性,优化了血糖控制。实验在极端条件下测试了三种控制器(直接强化学习控制器、非自适应模糊控制器和自适应模糊控制器),结果显示自适应模糊控制器在正常和极端情况下均表现最佳,具有更强的鲁棒性和适应性。该研究为医疗应用中的控制器设计提供了重要参考。
8. Learning-Order Autoregressive Models with Application to Molecular Graph Generation
本文提出了一种学习顺序自回归模型(LO-ARM),通过动态学习数据生成的顺序,解决了传统自回归模型在图像和分子图生成中顺序固定的问题。实验在MNIST、QM9和ZINC250K数据集上进行,LO-ARM在分子图生成任务中取得了最先进的Fréchet ChemNet Distance(FCD)结果,并展示了其学习有意义生成顺序的能力。该模型为无自然顺序的数据生成提供了灵活且高效的解决方案。
9. A Transformer Model for Predicting Chemical Reaction Products from Generic Templates
本文提出了一种基于Transformer的化学反应产物预测模型ProPreT5,创新性地结合了模板和模板无关的方法,解决了现有模型在化学空间探索中的局限性。该方法通过引入Broad Reaction Set (BRS)数据集,利用T5模型进行训练,实现了对化学反应产物的准确预测。实验在USPTO MIT和BRS数据集上进行,结果显示ProPreT5在模板和模板无关设置下均表现出色,特别是在BRS数据集上实现了85.8%的准确率。该研究为化学反应预测提供了一种更灵活且高效的解决方案。
10. Learning conformational ensembles of proteins based on backbone geometry
本文提出了一种基于蛋白质骨架几何的生成模型BBFlow,创新性地通过流匹配模型生成蛋白质构象,无需依赖进化信息或预训练折叠模型。该方法通过条件流匹配和先验分布,显著提高了生成效率。实验在ATLAS数据集上进行,BBFlow在生成蛋白质构象时表现出与AlphaFlow相当的准确性,且推理速度更快。该研究为蛋白质构象生成提供了一种高效且无需进化信息的新方法。
11. Pretraining Generative Flow Networks with Inexpensive Rewards for Molecular Graph Generation
本文提出了原子级生成流网络(A-GFN),创新性地使用原子作为构建块,通过无监督预训练和目标任务微调,探索了更广泛的药物化学空间。该方法利用药物相似性、拓扑极性表面积等廉价分子描述符作为奖励,指导模型生成具有理想药理特性的分子。实验在ZINC数据集上进行,A-GFN在分子生成任务中表现出较高的多样性和新颖性,并在目标任务微调中显著优于从头训练的模型。该研究为药物设计提供了一种高效且灵活的生成框架。
12. UniGenX: Unified Generation of Sequence and Structure with Autoregressive Diffusion
本文提出了UniGenX框架,创新性地结合了自回归模型和扩散模型,实现了序列和结构的统一生成,解决了科学数据生成中的精度和多样性问题。该方法通过自回归模块进行序列预测,扩散模块处理数值数据,显著提高了生成精度。实验在材料和小分子生成任务中进行,UniGenX在晶体结构预测和小分子结构生成等任务中取得了显著的性能提升。该研究为科学数据生成提供了一种多功能且高效的统一框架。
13. Efficient Evolutionary Search Over Chemical Space with Large Language Models
本文提出了一种名为MoLLEO的分子优化框架,创新性地将大语言模型(LLMs)引入进化算法(EAs)中,通过LLMs重新设计交叉和变异操作,显著提升了分子生成的效率和质量。该方法利用GPT-4、BioT5和MoleculeSTM等LLMs作为遗传操作符,生成具有更高目标函数值的分子,并在多个单目标和多目标优化任务中进行了实验验证,结果表明MoLLEO在所有基线模型上均表现出色,尤其是在蛋白质-配体对接等复杂任务中表现优异。实验使用了PMO和TDC数据集,结果显示MoLLEO在收敛速度和最终解的质量上均优于传统方法。总结而言,MoLLEO通过结合LLMs和EAs,显著提升了分子优化的效率和效果。
14. DeepMVD: A Novel Multiview Dynamic Feature Fusion Model for Accurate Protein Function Prediction
Journal of Chemical Information and Modeling
本文提出了一种名为DeepMVD的多视图动态特征融合模型,创新性地通过多维感知提取模块、双核池化提取模块和全景视图提取模块,从蛋白质序列中提取丰富的特征,并利用自适应融合机制进行优化,显著提高了蛋白质功能预测的准确性。该方法在CAFA4、HUMAN和YEAST数据集上进行了实验,结果显示DeepMVD在BP、MF和CC术语上的Fmax值分别为0.523、0.712和0.740,均优于现有模型。总结而言,DeepMVD通过多视图特征融合和自适应机制,为蛋白质功能预测提供了更准确和高效的解决方案。