Post

AI+Drug Snapshot | 250321 | DrugFlow通过多领域分布学习,生成蛋白质结合分子的三维结构,并扩展了蛋白质侧链构象的采样

AI+Drug Snapshot | 250321 | DrugFlow通过多领域分布学习,生成蛋白质结合分子的三维结构,并扩展了蛋白质侧链构象的采样

关注MindDance微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展

1. From Atoms to Fragments: A Coarse Representation for Functional and Efficient Protein Design

biorxiv
本文提出了一种基于片段的蛋白质表示方法,通过使用40个进化保守的片段来显著降低蛋白质表示的维度,同时保留功能信息,创新地解决了传统蛋白质设计方法计算成本高的问题。该方法通过将蛋白质结构分解为片段图或片段集,利用滑动窗口算法和多种距离度量进行片段检测,并在PDBench和PFD数据集上验证了其有效性。实验结果表明,片段表示在功能聚类、数据库搜索和蛋白质设计中均优于传统方法,特别是在功能聚类中,片段表示在≤30%序列同一性下表现更优,且搜索速度比RMSD方法快68.7倍。总结来说,片段表示为下一代蛋白质设计工具提供了可扩展且可解释的替代方案。


2. The Use of DeepQSAR Models for The Discovery of Peptides with Enhanced Antimicrobial and Antibiofilm Potential

biorxiv
本文开发了一种结合回归模型和循环神经网络的深度QSAR模型,用于预测抗菌肽的抗菌和抗生物膜活性,创新地通过转移学习提高了模型的预测能力。该方法利用TCGA和CCLE数据集中的RNA-seq和miRNA-seq数据,通过网格搜索优化XGBoost模型,并在MRSA上验证了预测的肽的活性。实验结果显示,模型在五折交叉验证中达到了近90%的准确率,并成功设计出100种新型肽,其中44种表现出更强的抗生物膜活性,31种表现出更强的抗菌活性。总结来说,该模型为抗菌肽的发现提供了一种高效的计算方法。


3. STmiR: A Novel XGBoost-Based Framework for Spatially Resolved miRNA Activity Prediction

biorxiv
本文提出了STmiR,一种基于XGBoost的框架,用于在空间转录组学中预测miRNA活性,创新地解决了现有方法在空间异质性组织中预测miRNA活性的局限性。该方法整合了TCGA和CCLE的RNA-seq数据,通过XGBoost模型预测miRNA活性,并在10X Visium空间转录组数据上验证了其准确性。实验结果表明,STmiR在四种主要癌症类型中表现出高预测准确性(Spearman’s (p>0.8) ),并识别出六种在九种癌症中保守的miRNA。总结来说,STmiR为研究miRNA在肿瘤微环境中的调控机制提供了强大的工具。


4. AACDB: Antigen-Antibody Complex Database - a Comprehensive Database Unlocking Insights into Interaction Interface

biorxiv
本文介绍了抗原 - 抗体复合物数据库(AACDB),旨在通过提供详细的相互作用界面信息,帮助抗体药物开发。方法包括从PDB数据库中筛选和手动处理抗原 - 抗体复合物,并整合抗体可开发性和抗原 - 药物靶点关系数据。实验基于超过32000个PDB结构,最终筛选出7498个抗原 - 抗体复合物,并通过AACDB网站提供搜索和可视化工具。该数据库为免疫信息学研究提供了可靠的基准数据集。


5. 3D Structure-based Generative Small Molecule Drug Design: Are We There Yet?

biorxiv
github
本文提出了一种基于3D结构的生成算法,用于评估生成分子的化学合理性,并提出了两种新的评估指标。方法包括使用预训练模型生成分子,并通过ZINC20和ZINC22数据库中的药物分子进行比对。实验在CrossDock2020数据集上进行,生成了1000个分子,结果显示部分算法生成的分子化学合理性较低。该研究为生成算法的改进提供了有价值的工具。


6. Directed Chemical Evolution via Navigating Molecular Encoding Space

biorxiv
本文提出了Ouroboros框架,通过将分子表示学习与生成模型结合,实现了化学空间的高效探索。方法包括使用图神经网络(GNN)进行分子编码,并通过Transformer解码器生成分子结构。实验在DUD-E和LIT-PCBA数据集上进行,结果显示Ouroboros在虚拟筛选和分子属性预测中表现优异,并成功发现了多靶点抑制剂。该框架为AI驱动的药物发现提供了新的范式。


7. Multi-domain Distribution Learning for De Novo Drug Design

ICLR 2025 Poster
本文提出了一种名为DRUGFLOW的生成模型,用于基于结构的药物设计,创新点在于结合了连续流匹配和离散马尔可夫桥,并引入了不确定性估计和偏好对齐策略。该方法通过多领域分布学习,生成蛋白质结合分子的三维结构,并扩展了蛋白质侧链构象的采样。实验使用CrossDocked数据集进行训练和测试,结果表明DRUGFLOW在分子性质和结构特征上能够准确匹配训练数据分布,且在多指标上表现优异。总结而言,DRUGFLOW在药物设计中的分布学习能力显著,且通过偏好对齐策略能够生成具有改进目标属性的分子。


8. Enhancing Ligand Validity and Affinity in Structure-Based Drug Design with Multi-Reward Optimization

AAAI 2025
本文提出了一种多奖励直接偏好优化方法,用于增强基于结构的药物设计中的配体有效性和亲和力,创新点在于通过多奖励优化同时提高结合亲和力和配体有效性。该方法基于Bayesian Flow Networks,通过直接偏好优化技术对预训练模型进行微调,结合外部软件的有效性检查反馈。实验使用PDBbind数据集进行训练,结果表明多奖励方法在生成有效配体和提高结合亲和力方面优于单奖励模型和基线模型。总结而言,多奖励直接偏好优化方法能够生成更现实且具有高结合亲和力的药物分子。


9. VenusFactory: A Unified Platform for Protein Engineering Data Retrieval and Language Model Fine-Tuning

arxiv
VENUSFACTORY是一个统一的蛋白质工程数据检索和语言模型微调平台,创新地整合了生物数据检索、标准化任务基准测试和模块化微调功能,解决了跨学科合作中的数据收集、基准测试和应用难题。该平台通过多线程下载和索引技术,从RCSB PDB、UniProt、InterPro和AlphaFold DB等主要生物数据库中高效获取数据,并支持40多个蛋白质相关数据集和40多个流行的蛋白质语言模型(PLMs)的微调。实验评估了多个PLM在不同任务中的表现,使用了DeepLoc、DeepSol、EC、GO等数据集,结果显示SES-ADAPTER微调方法在溶解度和突变预测任务中表现最佳,而PROTT5-XL-U50在注释和突变预测任务中整体表现最优。VENUSFACTORY为计算机科学和生物学研究者提供了一个强大且易用的工具,推动了AI在蛋白质工程中的应用。


10. Efficient Data Selection for Training Genomic Perturbation Models

arxiv
本文提出了一种基于图神经网络(GNN)的一次性数据选择方法,用于高效训练基因表达预测模型,解决了主动学习在基因组研究中因模型初始化偏差导致的资源浪费问题。该方法通过图结构信息预先选择基因扰动样本,避免了模型初始化对样本选择的影响,并利用子模最大化优化选择标准。实验在Replogle和Adamson两个PerturbSeq数据集上进行,结果表明,所提出的GRAPHREACH和MAXSPEC方法在预测准确性上优于现有的主动学习方法,尤其是在有限的实验周期内表现更为稳定。总结而言,本文的方法在减少实验成本和提升模型性能方面具有显著优势。


11. Potential Score Matching: Debiasing Molecular Structure Sampling with Potential Energy Guidance

arxiv
本文提出了一种名为Potential Score Matching (PSM)的新方法,通过引入势能梯度来引导生成模型,解决了传统分子动力学模拟和扩散模型在采样分子构象分布时的偏差问题,显著提高了采样效率。PSM方法利用势能导数近似玻尔兹曼分布,无需精确的能量函数,仅需力标签即可在有限且偏差的数据上进行训练,有效降低了计算成本。实验在Lennard-Jones (L J)势能模型、MD17和MD22数据集上进行验证,结果表明PSM生成的分子分布更接近玻尔兹曼分布,且在复杂高维分子系统中表现优异。本文通过理论分析和实验验证,展示了PSM在分子采样任务中的显著优势,为分子动力学模拟提供了一种高效且准确的替代方案。


This post is licensed under CC BY 4.0 by the author.

Trending Tags