AI+Drug Snapshot | 250319 | LigUnity利用对比学习,采用列表排序方法,在虚拟筛选和先导化合物优化中均表现出色
关注
MindDance
微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展
1. A foundation model for protein-ligand affinity prediction through jointly optimizing virtual screening and hit-to-lead optimization
biorxiv
本文提出了名为LigUnity的基础模型,通过联合优化虚拟筛选和先导化合物优化来预测蛋白质-配体结合亲和力,创新点在于将两个任务统一在一个模型中提升性能。方法上,利用对比学习进行虚拟筛选,采用列表排序方法进行先导化合物优化,并在八个基准数据集上验证。结果显示在DUD-E和DEKOIS 2.0基准上性能提升超50%,在未见蛋白质上泛化能力良好。实验表明,LigUnity在虚拟筛选和先导化合物优化方面表现出色,能有效加速药物发现流程。
2. Protein–Ligand Affinity Prediction via Jensen–Shannon Divergence of Molecular Dynamics Simulation Trajectories
biorxiv
本文提出基于Jensen-Shannon散度的蛋白质-配体结合亲和力预测方法,创新点在于引入JS散度降低计算成本,利用AutoDock Vina粗估结果确定PC1与ΔG相关性符号。该方法在BRD4、PTP1B和JNK1数据集上验证,结果显示在200ns模拟时间内准确性与400ns相当,计算时间显著减少。实验表明,该方法在降低计算成本的同时,能有效预测蛋白质-配体结合亲和力。
3. Concept-Driven Deep Learning for Enhanced Protein-Specific Molecular Generation
arxiv
本文提出基于概念驱动的深度学习框架用于生成特定蛋白质的分子,创新点在于整合蛋白质亚口袋和分子臂概念,结合扩散模型生成分子骨架,提高合成可行性和结合亲和力。该方法在PDBbind2020和Crossdocked数据集上训练和测试,结果显示生成分子的药物相似性和合成可行性分别提高4%和6%。实验表明,该方法在分子生成中具有较高解释性和实用性。
4. Integrated Computational and Experimental Insights Into MEK1/2 Inhibitors: Structural Validation, Docking, ADMET, Molecular Dynamics, and Anticancer Evaluation
Chemistry & Biodiversity
本研究整合计算和实验方法,深入探讨MEK1/2抑制剂的结构验证、分子对接、ADMET分析、分子动力学模拟及抗癌活性评估,创新地揭示RO5126766作为高效MEK1/2抑制剂的潜力。研究采用分子对接、分子动力学模拟、DFT计算和ADMET预测等计算方法,结合体外抗癌实验,验证RO5126766与MEK1/2的高结合亲和力和稳定性,在MCF-7、MDA-MB-231和A549细胞系中展现显著抗癌活性(IC50值分别为12.87±98.36 nM、15.08±94.36 nM和60.89±70.58 nM)。实验数据来自Protein Data Bank(PDB ID: 1S9J和1S9I)和PubChem数据库,结果表明RO5126766胃肠道吸收高、血脑屏障通透性低,适合作为靶向抗癌药物。综上所述,本研究通过多学科交叉方法,验证RO5126766作为MEK1/2抑制剂的临床潜力,为癌症治疗提供新候选药物。
5. Multidependency Graph Convolutional Networks and Contrastive Learning for Drug Repositioning
Journal of Chemical Information and Modeling
本文提出基于多依赖图卷积网络(MDGCN)和对比学习的药物重定位方法,创新点在于构建多依赖图,结合跨视图和跨层对比学习,解决现有方法处理节点特定信息和数据稀疏性的不足。MDGCN利用药物和疾病相似性矩阵以及药物-疾病关系矩阵构建多依赖图,通过多层图卷积网络传播节点特定信息,引入对比学习增强节点嵌入一致性。实验在四个基准数据集(Fdata、Cdata、LRSSL、Ldata)和一个多关系数据集(DB-KEGG)上进行,结果表明MDGCN在药物-疾病关联预测中优于七种先进方法,尤其在AUPRC和AUROC指标上表现突出。MDGCN整合多依赖图和对比学习,显著提升药物重定位任务性能。
6. Enhancing Unconditional Molecule Generation via Online Knowledge Distillation of Scaffolds
Molecules
本文提出基于在线知识蒸馏的框架(OMG),结合GPT模型和Transformer模型,将分子骨架信息融入无条件分子生成任务,提高生成分子的有效性和新颖性。该方法通过互学习和对抗蒸馏策略,使GPT模型生成SMILES字符串时学习骨架结构信息且避免引入偏差。实验在MOSES和GuacaMol两个公开数据集上进行,结果表明OMG框架在有效性和新颖性方面优于现有方法,生成分子在化学性质和生物活性上平衡良好。该研究为药物发现中的分子生成提供新思路,展示探索新药物候选分子的潜力。
7. Protein-ligand interaction prediction based on heterogeneity maps and data enhancement
Journal of Biomolecular Structure and Dynamics
本文提出基于异构图和数据增强的蛋白质-配体相互作用预测模型HGEF-Net,创新地结合异构图表示和对比学习策略,解决现有模型在稀疏和不平衡数据集上性能不佳的问题。方法上,HGEF-Net通过异构图信息学习模块分析分子子图和子结构,利用多级对比学习进行数据增强,通过异质注意力融合模块整合分子内和分子间特征。实验在BindingDB和Davis数据集上进行,结果表明HGEF-Net在AUC、AUPRC、Precision和Recall等指标上优于现有模型,在Davis数据集上数据增强模块显著提升各项性能。该研究为药物发现中的蛋白质-配体相互作用预测提供更高效、鲁棒的解决方案。
8. A Reinforcement Learning-Driven Transformer GAN for Molecular Generation
arxiv
本文提出基于Transformer和强化学习的生成对抗网络RL-MolGAN,用于生成具有特定化学性质的分子,创新点在于首次采用先解码后编码的Transformer结构,结合强化学习和蒙特卡洛树搜索优化分子生成。方法上,RL-MolGAN通过Transformer解码器生成SMILES字符串,编码器作为判别器,通过RL和MCTS增强生成分子的化学性质。实验在QM9和ZINC数据集上进行,验证模型在生成高质量分子结构方面的有效性。总结来说,RL-MolGAN为分子生成提供新颖且高效的框架。
9. Scalable Runtime Architecture for Data-driven, Hybrid HPC and ML Workflow Applications
arxiv
本文介绍可扩展的运行时架构,用于支持混合HPC和ML工作流应用,创新点在于通过服务化执行扩展RADICAL-Pilot,实现分布式ML能力和高效资源管理。方法上,该架构通过服务接口支持本地和远程平台的HPC/ML耦合,设计通用服务接口执行异构计算任务。实验在LUCID项目的三个代表性工作流中进行,验证架构在并发执行ML模型时低开销和高效性。总结来说,该架构为AI-out-HPC混合工作流提供可扩展解决方案。
10. SMPR: A structure-enhanced multimodal drug-disease prediction model for drug repositioning and cold start
arxiv
本文提出结构增强的多模态药物-疾病关系预测模型SMPR,用于药物重定位和冷启动问题,创新点在于通过Mol2VEC方法生成药物嵌入表示,结合异构图神经网络学习疾病嵌入表示。方法上,SMPR利用药物SMILES结构和异构图神经网络分别生成药物和疾病的嵌入表示,构建药物-疾病关系矩阵。实验在Fdataset、Cdataset和KEGG等数据集上进行,验证模型在重定位和冷启动任务中的高AUC和ACUPR表现。总结来说,SMPR为药物重定位和冷启动提供有效的多模态预测方法。
11. SynLlama: Generating Synthesizable Molecules and Their Analogs with Large Language Models
arxiv
本文提出基于Llama3大语言模型(LLMs)的SynLlama工具,用于生成可合成的分子及其类似物,创新点在于通过微调LLMs生成包含常见构建块和有机反应模板的完整合成路径,减少数据需求并扩展可合成化学空间。方法上,SynLlama通过监督微调(SFT)策略,使用SMILES和SMARTS格式的化学反应数据训练模型生成合成路径。实验使用Enamine构建块和ChEMBL数据集,结果显示SynLlama在合成路径规划、类似物生成和命中扩展任务中表现优异,在未训练的外部构建块上也能有效泛化。总结而言,SynLlama为药物发现提供高效且数据需求低的工具,提升分子合成的可行性和多样性。
12. PERC: a suite of software tools for the curation of cryoEM data with application to simulation, modelling and machine learning
arxiv
本文介绍名为PERC的开源Python软件工具集,旨在简化冷冻电镜(cryoEM)数据的整理和应用,支持模拟、建模和机器学习。PERC包含三个主要工具:profet用于从PDB和AlphaFold数据库下载蛋白质结构,EMPIARreader支持从EMPIAR档案中懒加载数据集,CAKED用于将数据加载到PyTorch中进行机器学习训练。实验展示如何使用这些工具从PDB和AlphaFold下载蛋白质结构,从EMPIAR加载冷冻电镜图像数据集,并通过CAKED进行数据处理和模型训练。这套工具降低数据整理负担,提升冷冻电镜数据的可访问性和处理效率,为结构生物学研究提供有力支持。