Post

AI+Drug Snapshot | 250326 | ProteiNN为蛋白质结构预测研究提供了新的思路和方法,推动了结构生物信息学的发展

AI+Drug Snapshot | 250326 | ProteiNN为蛋白质结构预测研究提供了新的思路和方法,推动了结构生物信息学的发展

关注MindDance微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展

1. Deep Learning for Protein Structure Prediction: Advancements in Structural Bioinformatics

期刊: bioRxiv

链接: https://doi.org/10.1101/2023.04.26.538026

简介: 本文提出基于Transformer的蛋白质结构预测模型ProteiNN,利用其强大的表征学习能力从氨基酸序列预测蛋白质结构,为该领域研究提供可复现、有教育意义的基准。研究采用ProteinNet数据集,通过均方根偏差(RMSD)等指标评估模型性能。实验结果显示,ProteiNN在预测二级结构上表现良好,但预测三级结构存在挑战,未来可通过整合更多数据和优化模型架构改进。该研究为蛋白质结构预测研究提供了新的思路和方法,推动了结构生物信息学的发展。


2. OpenSpliceAI: An efficient, modular implementation of SpliceAI enabling easy retraining on non-human species

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.03.20.644351

代码: https://github.com/Kuanhao-Chao/OpenSpliceAI

简介: 文章介绍了OpenSpliceAI,这是一种用PyTorch实现的可训练开源剪接位点预测框架,改进了原SpliceAI的不足,支持从头训练和迁移学习。研究使用人类MANE注释及小鼠、蜜蜂、斑马鱼、拟南芥等物种的数据集进行实验,通过创建数据、训练模型、校准等步骤评估性能。结果表明,OpenSpliceAI在处理速度、内存使用和GPU效率上优于原模型,在不同物种上重新训练后精度有显著提升,为基因调控和剪接研究提供了有力工具。


3. SpatialRNA: a python package for easy application of Graph Neural Network models on single-molecule spatial transcriptomics dataset

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.03.20.644258

代码: https://gitlab.svi.edu.au/biocellgen-public/spatialrna

简介: 本文介绍了Python包SpatialRNA,可在单分子空间转录组数据集上便捷应用图神经网络(GNN)模型,帮助分析组织中复杂的分子和细胞表型。该工具通过构建空间RNA图、采样子图、训练GNN模型和推断转录本嵌入等步骤进行分析,利用PyG框架实现。研究使用来自肺组织和卵巢癌组织的Xenium平台数据集进行案例研究,结果显示,该方法能有效识别空间组织域,且分子龛与细胞结果相关,具有生物学意义。


4. De novo design of miniprotein agonists and antagonists targeting G proteincoupled receptors

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.03.23.644666

简介: 文章提出了针对G蛋白偶联受体(GPCRs)的微型蛋白激动剂和拮抗剂的从头设计方法,结合计算设计和高通量实验筛选技术获得高亲和力、高活性和高选择性的结合蛋白。研究运用RFdiffusion和MetaGen等方法设计针对多种GPCRs的微型蛋白,通过酵母展示、受体转移(RD)等实验进行筛选和表征。结果成功得到了MRGPRX1激动剂和CXCR4、GLP1R等受体的拮抗剂,且冷冻电镜结构证实了设计的准确性,为GPCR相关药物研发开辟了新途径。


5. A GUIDE TO BAYESIAN NETWORKS SOFTWARE PACKAGES FOR STRUCTURE AND PARAMETER LEARNING - 2025 EDITION

期刊: arxiv

链接: https://arxiv.org/abs/2503.17025

简介: 本文全面介绍贝叶斯网络结构和参数学习的软件工具,为初学者提供指导和建议。文章先阐述贝叶斯网络相关概念,后对gCastle、bnlearn等十多种开源和商业软件进行综述,介绍其功能特点。实验通过实际案例展示不同软件在因果发现、参数学习等方面的表现。结果表明,不同软件各有优劣,如gCastle对初学者友好,bnlearn功能全面。该综述有助于初学者选择合适工具,推动贝叶斯网络在各领域的应用。


6. Advances in Protein Representation Learning: Methods, Applications, and Future Directions

期刊: arxiv

链接: https://arxiv.org/abs/2503.16659

简介: 文章全面综述蛋白质表示学习(PRL),涵盖方法、应用及未来方向。通过对基于特征、序列、结构、多模态和复合物的方法进行分类阐述,展示不同方法的优劣。利用UniProtKB、PDB等数据库,在蛋白质属性预测、结构预测等多领域进行实验。结果显示,各方法在不同任务中各有成效,但也面临模型可解释性、泛化性等挑战。该综述为研究人员提供全面参考,助力推动PRL发展。


7. Preferential Multi-Objective Bayesian Optimization for Drug Discovery

期刊: arxiv

链接: https://arxiv.org/abs/2503.16841

代码: https://github.com/vietai/cheapvs

简介: 本文提出CheapVS框架,将优先多目标贝叶斯优化与对接模型结合,辅助化学家进行虚拟筛选,提高药物发现效率。通过构建偏好模型、测量结合亲和力和进行主动虚拟筛选,在EGFR和DRD2靶点实验中,使用合成数据和真实人类数据。结果显示,该框架能有效学习潜在效用函数,在筛选少量配体时,比仅基于亲和力的方法能识别更多已知药物。CheapVS为药物发现提供了更高效的方法。


8. Accelerating Antibiotic Discovery with Large Language Models and Knowledge Graphs

期刊: arxiv

链接: https://arxiv.org/abs/2503.16655

简介: 针对抗生素研发难题,文章提出基于大语言模型(LLM)和知识图谱(KG)的管道系统,防止重复发现已知化合物。该系统整合文献和数据库信息,通过多步骤处理数据并分类证据。在对73种潜在产抗生素微生物的测试中,发现12个阴性结果。该系统能有效审查证据、减少假阴性,但也存在文献覆盖不足等问题,为抗生素发现提供了新的思路和方法。


9. Gene42∗: Long-Range Genomic Foundation Model With Dense Attention

期刊: arxiv

链接: https://arxiv.org/abs/2503.16565

代码: https://huggingface.co/inceptionai

简介: 文章介绍了Gene42,这是一种新型基因组基础模型,采用解码器架构和密集注意力机制,可处理长达192,000碱基对的序列。通过在人类参考基因组和多物种数据上训练,以perplexity等指标评估模型性能,并在多种下游任务中与其他模型对比。结果显示,Gene42在生物型分类、调控区域识别等任务上表现优异。该模型为基因组分析提供了强大的工具,推动精准医学和遗传研究发展。


10. OmniScience: A Domain-Specialized LLM for Scientific Reasoning and Discovery

期刊: arxiv

链接: https://arxiv.org/abs/2503.17604

简介: 文章提出OmniScience,这是一种针对科学领域的大型推理模型,通过领域自适应预训练、指令调整和基于推理的知识蒸馏提升性能,在科学推理任务中表现出色。研究采用特定科学文献数据集对模型进行训练,并在多个公共和领域特定基准上进行评估。实验结果显示,该模型在GPQA Diamond基准测试中得分0.72,在电池相关任务上也优于多数基线模型。OmniScience为科学研究提供了有力的工具,有望推动科学发现和创新。


11. Multi-Modality Representation Learning for Antibody-Antigen Interactions Prediction

期刊: ICME 2025

链接: https://arxiv.org/abs/2503.17666

代码: https://github.com/trashTian/MuLAAIP

简介: 本文提出MuLAAIP框架,融合抗体和抗原的3D结构与1D序列数据进行相互作用预测,解决现有方法的局限性。研究构建了包含多种标签的多模态基准数据集,并在该数据集上进行实验。结果表明,在结合亲和力和中和预测任务中,MuLAAIP模型表现优于当前的主流模型,且多模态信息的融合提升了模型性能。该研究为抗体 - 抗原相互作用预测提供了更有效的方法,推动了相关领域的发展。


12. NaFM: Pre-training a Foundation Model for Small-Molecule Natural Products

期刊: arxiv

链接: https://arxiv.org/abs/2503.17656

简介: 文章提出NaFM,通过独特的预训练策略为小分子天然产物构建基础模型,在相关下游任务中表现优异。该模型采用掩蔽学习和对比学习,结合支架子图重建和支架感知对比学习任务进行训练。研究使用多个数据集进行实验,如NPClassifier数据集用于分类任务、LOTUS数据集用于挖掘生物信息等。结果显示,NaFM在自然产物分类、生物信息挖掘和虚拟筛选等任务上均优于传统方法和其他预训练框架。NaFM为天然产物研究提供了更强大的工具。


13. OPPORTUNITIES AND CHALLENGES OF FRONTIER DATA GOVERNANCE WITH SYNTHETIC DATA

期刊: ICLR 2025

链接: https://arxiv.org/abs/2503.17414

简介: 论文探讨合成数据在前沿数据治理中的机遇与挑战,提出应对策略以解决相关问题。研究分析了合成数据带来的如恶意利用、模型脱离现实、产生偏差等挑战,并提出用于对抗训练、平衡统计分布和强化价值的三种技术机制。研究中提及利用生成对抗网络等生成合成数据用于实验,虽面临一些挑战,但能提升模型鲁棒性、平衡数据分布和强化积极价值。合成数据在AI治理中利弊共存,需合理监管。


14. MODIS: MULTI-OMICS DATA INTEGRATION FOR SMALL AND UNPAIRED DATASETS

期刊: arxiv

链接: https://arxiv.org/abs/2503.18856

代码: https://github.com/VILLOUTREIXLab/MODIS

简介: 论文提出MODIS,一种半监督方法,用于解决小且未配对的多组学数据集的整合问题,通过训练耦合自编码器学习共享潜在空间,提升对疾病的预测能力。研究使用InterSIM R包生成模拟数据集,包含DNA甲基化、基因表达和蛋白质丰度数据。实验设置多种场景,如半监督、类别不平衡和缺失模态等,以评估模型性能。结果表明,MODIS在少量监督下就能实现较高的类别预测准确率,且能有效处理缺失模态数据。该方法为稀有疾病研究等领域提供了有效的多组学数据整合方案。


期刊: arxiv

链接: https://arxiv.org/abs/2503.17368

简介: 文章利用sactipeptides构建新基准,评估进化基础的蛋白质结构预测模型,发现现有模型在预测含特殊硫醚交联结构的sactipeptides时存在局限。研究选取10种已知的sactipeptides,其中5种结构未解析,使用AlphaFold 2、Boltz-1等6种模型预测其交联结构,以GDT-TS和RMSD为指标评估。结果显示,所有模型表现有限,平均GDT-TS约11.5%,且常误判交联结构。该研究表明现有模型在处理稀有翻译后修饰结构时存在不足,为后续研究指明方向。


16. The Role of Artificial Intelligence in Enhancing Insulin Recommendations and Therapy Outcomes

期刊: arxiv

链接: https://arxiv.org/abs/2503.18592

简介: 文章探讨人工智能在胰岛素推荐和治疗结果提升方面的作用,提出RL算法可实现个性化胰岛素给药,但面临算法评估、透明度、可及性等挑战。研究回顾了胰岛素推荐系统的发展,介绍基于RL的算法在闭环和开环系统中的应用,分析影响治疗效果的因素。通过对相关文献研究结果进行分析,表明RL算法能改善血糖控制,但仍需更多临床验证。AI在胰岛素治疗中有应用潜力,但需解决诸多问题以更好服务糖尿病患者。


17. Discriminative Protein Sequence Modelling with Latent Space Diffusion

期刊: arxiv

链接: https://arxiv.org/abs/2503.18551

简介: 论文提出Latent Space Diffusion(LSD)架构,通过分解任务学习蛋白质序列表示,设计两种自编码器架构并训练扩散模型。研究在Uniref50数据集上训练模型,以ESM2和DPLM等为基准,在蛋白质属性预测任务中评估模型判别能力。结果显示,LSD的扩散模型在部分任务上优于基于掩码语言模型的扩散模型,但整体表现仍不及基于令牌的重建学习方法。该研究为蛋白质序列建模提供新思路,未来可进一步优化架构和探索应用。


This post is licensed under CC BY 4.0 by the author.

Trending Tags