AI+Drug Snapshot | 250329 | OpenComplex能统一预测蛋白质、RNA及蛋白质-RNA复合物的三维结构
关注
MindDance
微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展
1. OpenComplex I: Predicting Three-Dimensional Atomic-Level Structures of Biomolecular Complexes
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.25.643589
代码: https://github.com/baaihealth/OpenComplex
简介: 本文提出OpenComplex,这是一个基于AlphaFold2和AlphaFoldMultimer架构的开源平台,能统一预测蛋白质、RNA及蛋白质-RNA复合物的三维结构。它设计了特定的深度学习架构,利用MSA编码器等组件,并在多个数据库上训练。研究使用CASP15、RNA-Puzzles等数据集进行实验,结果显示在RNA单体、二聚体及蛋白质-RNA复合物结构预测上,OpenComplex性能优异,如在CASP15的R1108序列预测中RMSD为3.55,优于其他方法。该平台为生物分子结构预测提供了有力工具。
2. AIPAMPDS: an AI platform for antimicrobial peptide design and screening
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.24.644774
代码: https://github.com/LYRHeidi/AIPAMPDS
简介: AIPAMPDS是一个人工智能驱动的计算平台,能通过生成模型和多阶段筛选设计高活性、非溶血的抗菌肽。它整合多个深度学习模型,利用从多个公共数据库收集并处理的数据集进行训练。在实验中,该平台生成并筛选出的候选抗菌肽对多种细菌展现出良好抗菌活性和低溶血毒性。AIPAMPDS提供了易用的网络界面,为抗菌肽开发提供了有效工具,推动了相关研究进展。
3. MolAI: A Deep Learning Framework for Data-driven Molecular Descriptor Generation and Advanced Drug Discovery Applications MolAI: Data-driven Molecular Descriptor Generator
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.24.644888
代码: https://github.com/i-TripleD/MolAI-Publication
简介: MolAI是一种用于数据驱动分子描述符生成的深度学习模型,可助力药物发现等应用。它基于神经机器翻译的自动编码器模型,在包含22100万个化合物的数据集上训练。通过多种实验评估,如预测分子质子化状态、虚拟筛选和预测ADMET特征等,结果表明MolAI在生成分子描述符方面准确性高,在各项实验任务中性能出色。该模型为药物研发提供了新的有效手段。
4. Fast, Modular, and Differentiable Framework for Machine Learning-Enhanced Molecular Simulations
期刊: arXiv
链接: https://arxiv.org/abs/2503.20541
代码: https://github.com/nec-research/DIMOS
简介: 本文提出端到端可微分子模拟框架DIMOS,它能整合机器学习原子间势和经典力场,具有模块化、速度快等优势。该框架基于PyTorch实现,涵盖多种模拟算法和力场组件。研究通过水盒、蛋白质等系统模拟实验,使用TIP3P水模型等数据集,结果显示,在与torchMD对比中,DIMOS运行速度提升高达170倍,在蛋白质模拟和蒙特卡罗模拟参数优化中也表现出色。DIMOS为分子模拟研究提供了有力工具,有助于推动相关领域发展。
5. HySurvPred: Multimodal Hyperbolic Embedding with Angle-Aware Hierarchical Contrastive Learning and Uncertainty Constraints for Survival Prediction
期刊: arXiv
链接: https://arxiv.org/abs/2503.13862
简介: 文章提出HySurvPred框架,利用双曲空间探索组织病理和基因组数据的层次结构,以解决现有生存预测方法的局限。该框架包含多模态双曲映射、角度感知排序对比损失和审查条件不确定性约束等模块。在五个来自TCGA的癌症数据集上实验,结果表明,与现有方法相比,HySurvPred在多数数据集上取得了更高的C-index分数,能更有效地分层患者风险。该框架为癌症生存预测提供了新的有效方法。
6. RXRX3-CORE: BENCHMARKING DRUG-TARGET INTERACTIONS IN HIGHCONTENT MICROSCOPY
期刊: LMRL Workshop at ICLR 2025
链接: https://arxiv.org/abs/2503.20158
代码: https://github.com/recursionpharma/EFAAR_benchmarking
简介: 本文推出RxRx3-core数据集及相关药物-靶点相互作用(DTI)基准任务,旨在解决高内涵筛选(HCS)数据缺乏可用数据集和稳健基准的问题。RxRx3-core是RxRx3的精选压缩子集,包含222,601张显微镜图像等数据。研究在该数据集上评估了多种表征学习方法,结果显示,基于自监督视觉Transformer的模型在捕捉生物信号和预测DTI方面表现更优。该数据集和基准为HCS数据的表征学习研究提供了重要资源。
7. Multi-dataset and Transfer Learning Using Gene Expression Knowledge Graphs
期刊: arXiv
链接: https://arxiv.org/abs/2503.20400
代码: https://github.com/ritatsousa/expressionKGplus
简介: 论文提出一种新方法,通过构建知识图谱整合多个基因表达数据集和领域知识,以解决数据集成和患者诊断难题。该方法先对基因表达数据预处理,再构建知识图谱并利用RDF2vec学习节点表示,最后用图卷积神经网络(GCN)或多层感知器(MLP)进行患者诊断。在糖尿病、冠心病和乳腺癌相关的9个GEO数据集上实验,结果表明,该方法在单数据集、多数据集学习和迁移学习设置下均提升了诊断性能。这为基因表达数据分析和患者诊断提供了有效途径。
8. GEP‑DNN4Mol: automatic chemical molecular design based on deep neural networks and gene expression programming
期刊: Health Information Science and Systems
链接: https://doi.org/10.1007/s13755-025-00344-8
简介: 文章提出GEP-DNN4Mol分子生成方法,结合SMILES和SELFIES分子表示,解决现有分子设计方法生成分子多样性不足的问题。该方法以基因表达编程算法为生成器,深度神经网络为评估器,通过迭代优化生成分子。研究使用ZINC化学数据集和QM9数据集构建基准数据集进行实验,结果显示,GEP-DNN4Mol在生成分子的有效性、新颖性和多样性方面优于对比的9种基线模型。该方法为化学分子设计提供了新途径,有望助力新药研发,但在平衡分子多样性和优化等方面还有待进一步探索。
9. PVLens: Enhancing Pharmacovigilance Through Automated Label Extraction
期刊: arXiv
链接: https://arxiv.org/abs/2503.20639v2
代码: https://github.com/jlpainter/AMIA2025/tree/main/pvlens
简介: PVLens是一种从FDA结构化产品标签(SPLs)中提取安全信息并映射到MedDRA的自动化系统,可解决现有药物安全参考数据库过时等问题。它通过多阶段提取管道处理SPL XML数据,集成UMLS和RxNorm映射。在对97个药物标签的验证中,PVLens的F1分数达到0.882,召回率为0.983,精度为0.799。该系统能有效捕获相关术语,为药物警戒提供了有价值的资源,未来将聚焦提升精度并拓展其应用范围。
10. PCLSurv: a prototypical contrastive learning-based multi-omics data integration model for cancer survival prediction
期刊: Briefings in Bioinformatics
链接: https://doi.org/10.1093/bib/bbaf124
代码: https://github.com/LiangSDNULab/PCLSurv
简介: 本文提出PCLSurv深度学习框架,用于癌症生存预测,通过多模块设计有效整合多组学数据,捕捉样本特征和语义关系。该框架利用自动编码器提取特征,结合对比学习和双线性融合模块,并引入原型对比学习优化。在11个癌症数据集上,PCLSurv对比多种先进方法进行实验,结果显示其在C-Index和AUC等指标上表现优异,能有效区分高低风险患者群体。PCLSurv为癌症生存预测提供了有力工具,但在处理大规模和不完整数据集方面仍有改进空间。
11. Complex structure-free compound-protein interaction prediction for mitigating activity cliff-induced discrepancies and integrated bioactivity learning
期刊: ChemRxiv
链接: https://doi.org/10.26434/chemrxiv-2025-96p6b
代码: https://github.com/gu-yaowen/GGAP-CPI
简介: 文章构建了CPI2M数据集并提出GGAP-CPI模型,以解决化合物-蛋白质相互作用(CPI)预测中生物活性数据异质性和活性悬崖问题。GGAP-CPI模型通过先进的蛋白质表示建模和集成生物活性学习进行训练。研究在多个基准数据集上与多种基线模型对比实验,结果表明,GGAP-CPI在预测准确性、处理活性悬崖样本及虚拟筛选能力等方面表现出色。该研究推动了CPI预测领域的发展,但数据集构建和模型在实际应用中的优化仍需进一步探索。
12. INTEGRATING LARGE LANGUAGE MODELS FOR MONTE CARLO SIMULATION OF CHEMICAL REACTION NETWORKS
期刊: arXiv
链接: https://arxiv.org/abs/2503.21178v1
简介: 文章提出利用大语言模型(LLMs)自动化化学反应网络的随机蒙特卡罗模拟,解决手动构建反应动力学耗时久的问题。该方法用LLMs解析反应描述,转化为反应动力学和化学计量矩阵,结合吉莱斯皮随机模拟算法(SSA)进行模拟,并集成到Copasi工具中。研究使用文献中的多个反应动力学及相关数据进行实验,结果显示该框架能成功模拟复杂反应,且与原研究结果相符,在处理含4个物种的反应时,开源大语言模型也展现出一定潜力。该研究为化学反应网络模拟提供了新途径,但大语言模型在处理复杂反应描述时还存在局限性。
13. From Traditional Methods to Deep Learning Approaches: Advances in Protein–Protein Docking
期刊: Wiley Interdisciplinary Reviews: Computational Molecular Science
链接: https://doi.org/10.1002/wcms.70016
简介: 该论文系统回顾了蛋白质-蛋白质对接从传统方法到深度学习技术的发展,指出传统方法在采样效率和稳定性上存在挑战,深度学习方法则展现出显著优势。文中介绍传统方法的采样和评分策略及各类搜索算法,详细阐述深度学习在刚性和柔性蛋白对接中的应用,还总结了常用数据集和评估指标。研究使用多个数据集对不同模型评估,结果表明深度学习方法在速度上有优势,但在准确性等方面仍需提升。该综述为蛋白质-蛋白质对接算法的发展提供了全面参考,有助于推动相关研究的进一步发展。
14. TransDiffSBDD: Causality-Aware Multi-Modal Structure-Based Drug Design
期刊: arXiv
链接: https://arxiv.org/abs/2503.20913v1
简介: 文章提出TransDiffSBDD框架,以解决基于结构的药物设计(SBDD)中忽视模态差异和因果关系的问题,通过整合自回归变压器和扩散模型,实现多模态信息处理和因果建模。该框架设计混合模态序列,分别用自回归变压器和扩散模型处理离散和连续信息,并采用联合损失函数和强化学习进行训练。在CrossDocked2020基准数据集上,模型与多个基线方法对比,结果显示其在Vina Dock、SA和成功率等指标上表现最优。案例研究也验证了该方法在药物设计中的实用性,但模型仍存在因数据稀缺无法充分建模、难以模拟动态过程和缺乏可解释性等问题。
15. A Comprehensive Benchmark for RNA 3D Structure-Function Modeling
期刊: arXiv
链接: https://arxiv.org/abs/2503.21681v1
代码: https://github.com/cgoliver/rnaglib
简介: 论文针对RNA 3D结构功能建模缺乏标准化基准的问题,引入七个基准测试数据集,为RNA结构功能预测提供统一框架。通过从RCSB-PDB数据库收集数据,经质量过滤、拆分等处理构建任务数据集,并提供多种评估指标。实验用关系图卷积网络(RGCN)在这些任务上进行测试,与部分现有方法对比,结果表明该框架下的方法具有一定竞争力。该基准测试数据集和框架为RNA 3D结构相关研究提供了重要资源,有助于推动RNA结构功能预测模型的发展,但仍有拓展新任务和改进模型表现的空间。