AI+Drug Snapshot | 250313 | Llama-Gram通过整合蛋白质折叠嵌入、图分子表示和不确定性估计,解决了幻觉问题
关注
MindDance
微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展
1. Folding-Based End-To-End Chemical Drug Design with Uncertainty Estimation: Tackling Hallucination in the Post-GPT Era
Journal of Medicinal Chemistry
本文提出了一种基于折叠的端到端药物设计框架Llama-Gram,通过整合蛋白质折叠嵌入、图分子表示和不确定性估计,解决了传统大语言模型在药物设计中的幻觉问题。该方法利用冻结梯度的ESMFold模型和Graph Transformer变体,结合分组查询注意力机制和支持点理论的Gram层,提高了蛋白质-配体相互作用的预测准确性和可靠性。实验在ChEMBL 23、激酶和GPCR数据集上进行,Llama-Gram在AUROC和AUPRC指标上均优于现有模型,并在虚拟筛选中表现出色。Llama-Gram为药物发现提供了一种高效且可靠的计算工具,显著加速了药物设计过程。
2. Drug target affinity prediction based on multi-scale gated power graph and multi-head linear attention mechanism
本文提出了一种基于多尺度门控幂图和多头线性注意力机制的药物靶点亲和力预测模型MAPGraphDTA,通过多尺度图神经网络和多头线性注意力机制捕捉分子图的全局特征。该方法在Davis、Kiba、Metz和DTC数据集上进行了实验,MAPGraphDTA在所有评估指标上均优于其他模型,并在冷启动实验中表现出良好的预测能力。MAPGraphDTA为药物靶点亲和力预测提供了一种新的高效方法,显著提升了预测精度。
3. GraphEPN: A Deep Learning Framework for B-Cell Epitope Prediction Leveraging Graph Neural Networks
本文提出了一种基于图神经网络的B细胞表位预测框架GraphEPN,结合了向量量化变分自编码器(VQ-VAE)和图变换器,通过两阶段训练策略捕捉蛋白质残基的离散和连续特征。实验在SAbDab_1323、SAbDab_665和Blind_42数据集上进行,GraphEPN在AUC和AUPRC指标上均优于现有方法,特别是在复杂蛋白质结构中表现出色。GraphEPN为B细胞表位预测提供了一种强大的计算工具,显著提升了预测的准确性和鲁棒性。
4. Identifying RNA-small Molecule Binding Sites Using Geometric Deep Learning with Language Models
本文提出了一种基于几何深度学习和语言模型的RNA-小分子结合位点预测框架RNABind,通过整合RNA语言模型嵌入和几何深度学习网络,捕捉RNA序列和结构信息。实验在HARIBOSS数据集和多个现有单链RNA数据集上进行,RNABind在ROC-AUC和PR-AUC指标上均优于现有方法,特别是在多链RNA结构中表现出色。RNABind为RNA-小分子结合位点预测提供了一种高效且可靠的工具,显著提升了预测精度。
5. DTI-BGCGCN: A Novel Bipartite Graph-based Cluster Graph Convolutional Network for Drug-Target Interaction Prediction in Modern and Traditional Chinese Medicine
Computational Biology and Chemistry
本文提出了一种新的药物-靶点相互作用预测模型DTI-BGCGCN,创新地结合了二分图属性图和ClusterGCN,适用于现代和传统中药。该方法通过二分图属性图高效表示药物-靶点关系,并利用ClusterGCN加速训练过程。实验在传统中药和现代药物数据集上进行,结果表明DTI-BGCGCN在预测性能上优于现有方法。该模型为加速药物发现提供了新的途径。
6. Antibiotic Resistance Microbiology Dataset (ARMD): A De-identified Resource for Studying Antimicrobial Resistance Using Electronic Health Records
本文介绍了抗菌素耐药性微生物学数据集(ARMD),这是一个基于电子健康记录(EHR)的去识别化资源,旨在促进抗菌素耐药性(AMR)研究。该数据集通过整合微生物培养、抗生素敏感性、临床和人口统计学数据,支持抗菌药物管理、因果推断和临床决策研究。ARMD数据集从斯坦福医疗保健系统的EHR中提取,经过标准化处理和去识别化,涵盖了尿液、血液和呼吸道培养的详细记录,并包括55种抗生素的敏感性数据。实验结果显示,ARMD数据集包含751,075份培养记录,涵盖了283,715名患者,主要病原体包括大肠杆菌、金黄色葡萄球菌和肺炎克雷伯菌,且抗生素耐药性随时间变化显著。该数据集为AMR研究提供了全面的数据支持,有助于推动全球应对抗菌素耐药性的努力。
7. DPR: Diffusion Preference-based Reward for Offline Reinforcement Learning
本文提出了基于扩散模型的偏好奖励方法DPR和C-DPR,创新地利用扩散模型直接建模偏好分布,解决了传统MLP和Transformer模型在奖励建模中的不足。实验在离线强化学习算法中应用,结果表明扩散模型在奖励获取上显著优于传统方法。该方法为离线偏好强化学习提供了新的解决方案。
8. Equivariant Interaction-Aware Graph Network for Predicting the Binding Affinity of Protein-Ligand
IEEE Transactions on Computational Biology and Bioinformatics
本文提出了等变交互感知图网络EIGN,创新地通过距离启发的边门控注意力层和等变图卷积层来学习蛋白质-配体复合物的3D几何结构和节点间交互。实验在PDBbind和CSAR-HiQ数据集上进行,EIGN在预测蛋白质-配体结合亲和力上表现出色。该模型强调了准确交互建模在药物发现中的重要性。
9. Concept-Driven Deep Learning for Enhanced Protein-Specific Molecular Generation
本文提出了一种基于片段的概念驱动深度学习框架,用于增强蛋白质特异性分子生成,创新点在于结合了蛋白质亚口袋和分子臂的概念,并通过扩散模型生成分子骨架,显著提高了合成可行性和结合亲和力。方法包括构建蛋白质亚口袋和分子臂的概念神经网络,以及使用扩散模型生成分子骨架。实验使用CrossDocked2020数据集,结果显示该方法在药物相似性和合成可行性上分别提高了4%和6%。总结表明,该方法在分子生成中具有显著优势,特别是在合成可行性和结合亲和力方面。
10. ProTeX: Structure-In-Context Reasoning and Editing of Proteins with Large Language Models
本文介绍了ProTeX框架,创新点在于将蛋白质序列、结构和文本信息统一编码,使大语言模型能够通过Next-Token Prediction范式进行多模态蛋白质推理和生成。方法包括将蛋白质序列和结构编码为离散标记,并通过多任务提示进行训练。实验使用AlphaFold Protein Structure Database和SwissProt数据集,结果显示ProTeX在蛋白质功能预测上比现有模型准确率提高了一倍。总结表明,ProTeX框架能够有效提升大语言模型在蛋白质科学中的理解和生成能力。
11. GraphT5: Unified Molecular Graph-Language Modeling via Multi-Modal Cross-Token Attention
本文提出了GraphT5模型,创新点在于通过跨标记注意力模块整合1D SMILES文本和2D分子图表示,用于分子语言建模任务。方法包括使用T5模型作为骨干,结合图编码器和跨标记注意力模块。实验使用PubChem324k和ChEBI-20数据集,结果显示GraphT5在分子描述和IUPAC名称预测任务上优于现有基线模型。总结表明,GraphT5通过跨模态交互显著提升了分子语言建模的效果。
12. Chemical reasoning in LLMs unlocks steerable synthesis planning and reaction mechanism elucidation
本文展示了大型语言模型(LLMs)作为化学推理引擎的潜力,创新点在于将LLMs与传统搜索算法结合,实现了策略感知的逆合成规划和反应机制解析。方法包括使用LLMs评估化学策略并引导搜索算法,实验通过多个复杂合成任务和反应机制解析任务验证了其有效性。总结表明,LLMs在化学推理中的应用为计算机辅助化学提供了新的范式,特别是在策略感知和机制解析方面。
13. Large Scale Multi-Task Bayesian Optimization with Large Language Models
本文提出了一种基于大语言模型(LLM)的多任务贝叶斯优化方法BOLT,通过微调LLM生成高质量初始化点,加速新任务的优化过程,创新点在于利用LLM与贝叶斯优化形成正反馈循环,提升优化效率。方法是通过贝叶斯优化生成高质量解,用于微调LLM,LLM再生成初始化点用于后续优化任务。实验在数据库查询优化和抗菌肽设计两个领域进行,结果表明BOLT在多任务场景下显著优于传统方法,且LLM生成的初始化点逐渐接近甚至超越贝叶斯优化的结果。总结表明BOLT能够有效处理大规模多任务优化问题。
14. MuCoS: Efficient Drug Target Discovery via Multi Context Aware Sampling in Knowledge Graphs
本文提出了MuCoS框架,通过多上下文感知采样和BERT模型结合,提升药物-靶标关系预测的准确性和效率,创新点在于通过密度采样减少计算开销,同时结合结构信息和文本嵌入。方法是通过密度采样选择高密度邻居,结合BERT模型进行关系预测。实验在KEGG50k数据集上进行,结果显示MuCoS在药物-靶标关系预测中表现优于现有方法,MRR提升了6%。总结表明MuCoS在药物靶标发现中具有高效性和准确性。
15. Regulatory DNA sequence Design with Reinforcement Learning
本文提出了一种基于强化学习的顺式调控元件(CRE)设计方法TACO,创新点在于结合了TFBS(转录因子结合位点)信息和强化学习,生成高适应性的CRE序列。方法是通过强化学习微调预训练的DNA生成模型,结合TFBS频率特征进行优化。实验在酵母启动子和人类增强子数据集上进行,结果显示TACO生成的序列在适应性和多样性上优于现有方法。总结表明TACO在CRE设计中具有显著优势。
16. Large Language Model as Meta-Surrogate for Data-Driven Many-Task Optimization: A Proof-of-Principle Study
本文提出了一种基于大语言模型(LLM)的元代理框架,用于多任务优化中的适应度预测,创新点在于将数值决策变量和任务元数据统一表示为文本序列,利用LLM进行跨任务知识共享。方法是通过微调LLM,将任务元数据和决策变量编码为文本序列,进行适应度预测。实验在多个优化任务上进行,结果显示元代理在未见过的任务维度上表现出零样本泛化能力。总结表明LLM作为元代理在多任务优化中具有广泛的应用潜力。
17. Towards Large-scale Chemical Reaction Image Parsing via a Multimodal Large Language Model
本文提出了一种名为RxnIM的多模态大语言模型,首次实现了从化学反应图像中解析出机器可读的反应数据,创新性地结合了图像和文本信息,显著提升了化学反应的自动化解析能力。该方法通过三阶段训练策略,首先在合成数据集上进行预训练,随后在合成数据集上进行反应成分识别和反应条件解释任务的训练,最后在真实数据集上进行微调。实验使用了Pistachio数据集生成60,200张合成图像,并结合少量手动标注的真实数据集进行训练和测试,RxnIM在反应成分识别任务中的平均F1得分达到88%,在反应条件解释任务中的OCR准确率达到94.9%,显著优于现有方法。该研究为化学领域的大规模机器可读反应数据库的自动构建提供了重要工具,推动了AI在化学研究中的应用。