AI+Drug Snapshot | 250327 | IgCraft, 一种基于贝叶斯流网络的多功能配对人类抗体序列生成模型,统一解决多种抗体序列设计任务
关注
MindDance
微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展
1. IgCraft: A VERSATILE SEQUENCE GENERATION FRAMEWORK FOR ANTIBODY DISCOVERY AND ENGINEERING
期刊: arxiv
链接: https://arxiv.org/abs/2503.19821v1
代码: https://github.com/mgreenig/IgCraft
简介: 本文介绍了IgCraft,这是一种基于贝叶斯流网络的多功能配对人类抗体序列生成模型,能统一解决多种抗体序列设计任务,性能出色。该模型运用贝叶斯流网络,通过特定架构和训练方式,对抗体序列进行生成。研究使用了多个抗体序列数据集,并进行了结构数据筛选。实验结果表明,IgCraft在无条件序列生成、序列修复、逆折叠和CDR嫁接等任务上表现良好,生成的序列能较好地模拟天然抗体,在CDR嫁接任务中,相比其他方法,能更好地提高抗体的人源化程度并保留功能。总之,IgCraft为抗体发现和工程提供了有效的统一框架。
2. Unified Generative Modeling of 3D Molecules for De Novo Binder Design
期刊: arxiv
链接: https://arxiv.org/abs/2503.19300v1
简介: 论文提出UniMoMo,这是首个用单一模型设计多种分子结合剂的统一框架,通过统一分子表示和几何潜扩散模型提升性能。该框架将分子表示为基于块的图,利用迭代全原子自动编码器和潜空间扩散模型进行分子设计。研究使用了肽、抗体和小分子相关的多个数据集进行实验。结果显示,UniMoMo在生成与参考分子相似的结构和具有良好理化性质的分子方面表现优异,在不同分子类型的结合剂设计任务上超越了特定领域的模型。这表明UniMoMo在分子设计领域具有重要的应用价值。
3. Machine Learning-Driven Materials Discovery: Unlocking Next-Generation Functional Materials – A minireview
期刊: arxiv
链接: https://arxiv.org/abs/2503.18975v1
简介: 该综述文章阐述了机器学习在材料发现、性能预测和设计中的关键作用,能加速研究进程并降低成本。文中介绍了多种机器学习算法及其在材料科学中的应用,如预测材料性能、设计新合金和发现新材料等。研究涉及多个材料相关数据集和实验。机器学习在预测材料性能方面准确性较高,在材料设计和发现领域成果显著,例如设计出具有特定性能的钢和发现新化合物等。总体而言,机器学习为材料科学发展带来新机遇,但仍面临数据和模型等方面的挑战。
4. Protein Structure-Function Relationship: A Kernel-PCA Approach for Reaction Coordinate Identification
期刊: arxiv
链接: https://arxiv.org/abs/2503.19186v1
代码: https://github.com/pmollaei/ProtKernel
简介: 文章提出Kernel-PCA模型来揭示蛋白质结构-功能关系并识别反应坐标,可对反应坐标进行排序。该模型结合核函数和主成分分析,通过对蛋白质分子动力学模拟轨迹的处理,得到蛋白质的有效表示。研究以β2肾上腺素能受体和四种小蛋白为研究对象,使用其分子动力学模拟轨迹数据。实验结果表明,模型能有效识别与蛋白质属性相关的反应坐标,如在β2肾上腺素能受体中找到了关键反应坐标,在小蛋白中也确定了与折叠状态相关的重要残基。这一模型为理解蛋白质功能和生物过程提供了有力工具。
5. Systematic comparison of Generative AI-Protein Models reveals fundamental differences between structural and sequence-based approaches
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.23.644844
代码: https://github.com/hewittlab/Systematic-comparison-of-Generative-AIProteinModels
简介: 该论文系统比较13种生成式蛋白质模型,揭示了基于结构和序列的方法在生成蛋白质单体能力上的差异。研究通过在谷歌Colab平台实现各模型并生成蛋白质设计,使用PISCES数据库等进行分析。实验结果显示,结构扩散模型在预测结构的置信度和能量分布的合理性上表现较好,但多样性有限且存在序列偏差;蛋白质语言模型生成的设计更具多样性和新颖性,但结构置信度较低。在条件设计实验中,5种模型设计的烟草蚀纹病毒蛋白酶虽有部分显示出潜在活性,但与野生型相比活性仍较低。该研究为评估和选择生成式蛋白质模型提供了基础。
6. CompBioAgent: AN LLM-POWERED AGENT FOR SINGLE-CELL RNA-SEQ DATA EXPLORATION
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.17.643771
代码: https://github.com/interactivereport/compbioagent
简介: CompBioAgent是一款由大语言模型驱动的单细胞RNA测序数据探索工具,能将自然语言查询转换为结构化命令并生成可视化结果。它通过提示工程将用户输入转化为JSON格式,查询CellDepot等数据库,利用Cellxgene VIP平台生成可视化图表。研究使用多个公共数据集进行测试,结果显示该工具可有效处理多种查询,如在不同疾病背景下分析基因表达、生成热图等,能帮助研究人员直观地探索和分析数据。CompBioAgent为单细胞RNA测序数据分析提供了便捷途径,降低了使用门槛,但仍有拓展功能的空间。
7. FAIRification of computational models in biology
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.21.644517
代码: 后端: https://github.com/FAIR-CA-indicators/fair-ca-indicators-backend;前端: https://github.com/FAIR-CA-indicators/fair-ca-indicators-frontend
简介: 论文提出采用FAIR指标评估生物学计算模型,以提升模型的可信度和可重复性。研究人员通过多步社区流程定义了适用于COMBINE模型和档案的FAIR指标,并对来自BioModels和PMR的5种不同模型及相关档案进行评估。结果表明,COMBINE社区在模型的FAIR性方面已取得一定成果,但元数据存在不足,如分布分散、质量有待提高等。该研究为COMBINE模型和档案的FAIR化提供了评估框架,提出了改进建议,并开发了半自动评估工具,有助于推动计算生物学研究的FAIR化进程。
8. SynBioGPT: A Retrieval-Augmented Large Language Model Platform for AIGuided Microbial Strain Development
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.23.644789
简介: SynBioGPT v2.0是一个用于微生物菌株开发的检索增强大语言模型平台,通过分解查询和基于关键词搜索,改善了知识检索的准确性。该平台先进行数据采集与清洗,接着创建并存储索引,最后部署外部服务。研究人员用100个合成生物学问题对其进行测试,并与v1.0对比。结果显示,v2.0使用Claude-3.7-sonnet后端时准确率达98%,比v1.0提高了10%。这表明v2.0在合成生物学知识检索和应用方面有显著提升,但关键词搜索存在局限性,未来需进一步优化。
9. AMULETY: A Python package to embed adaptive immune receptor sequences
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.21.644583
代码: https://github.com/immcantation/amulety; https://pypi.org/project/amulety/
简介: AMULETY是一个用Python编写的开源软件包,可利用多种预训练模型为适应性免疫受体序列生成嵌入,降低使用门槛。它先将输入的AIRR格式数据处理成氨基酸序列,再用多种预训练模型生成嵌入,支持GPU加速。研究人员用其处理结合SARS-CoV-2刺突蛋白受体结合域的抗体序列,结果显示不同模型在区分抗原表位组时各有优势。该工具为免疫受体序列分析提供便利,能帮助研究人员从复杂数据中提取有意义信息,但目前尚未纳入针对TCR的嵌入方法,有待进一步拓展。
10. Discriminative Protein Sequence Modelling with Latent Space Diffusion
期刊: arxiv
链接: https://arxiv.org/abs/2503.18551v1
简介: 文章提出一种潜在空间扩散框架,通过构建新型自编码器结合扩散模型学习蛋白质序列表示,以解决蛋白质序列建模挑战。研究采用两种自编码器架构,在Uniref50数据集上训练模型,并与基于掩码语言建模的基线对比。结果表明,该框架的扩散模型在判别能力上优于基线,但整体性能仍不及基于标记的重建学习方法。该研究为蛋白质序列建模提供新思路,不过在寻找合适潜在空间、结合结构数据及提升模型性能等方面还有待探索。
11. CMDmpnn: Combining Comparative Molecular Dynamics and ProteinMPNN to Rapidly Expand Enzyme Substrate Spectrum
期刊: Journal of Chemical Information and Modeling
链接: https://doi.org/10.1021/acs.jcim.5c00117
代码: https://github.com/lzlinn801/CMDmpnn
简介: 该研究开发出CMDmpnn虚拟筛选方法,结合分子动力学模拟和ProteinMPNN来拓宽酶的底物谱,且不影响酶的其他重要属性。该方法先对野生型酶进行MD模拟构建动态模型库,再用ProteinMPNN生成新序列,经短时间MD模拟筛选变体。以拟南芥糖基转移酶为例,在不到2周内发现多个能催化多种酚类化合物的变体。CMDmpnn为酶工程提供高效工具,但存在分子对接不确定性等局限,未来结合更多计算工具可提升其性能。
12. NetTCR-struc, a structure driven approach for prediction of TCR-pMHC interactions
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.22.644721
代码: https://github.com/mnielLab/NetTCR-struc
简介: 论文提出NetTCR-struc方法,利用图神经网络改进TCR-pMHC复合物的对接质量评分和结构模型选择,助力免疫识别研究。研究人员用基于AlphaFold-Multimer的管道建模,构建GVP-GNN回归模型训练并评估。结果显示,该方法提升了预测质量与DockQ的相关性,在排名候选结构和区分结合与非结合复合物上表现更好,但当前结构建模方法仍存在局限性。该研究为TCR-pMHC相互作用预测提供了更准确的方法,不过受结构建模质量影响,后续需进一步改进。
13. SuperMetal: A Generative AI Framework for Rapid and Precise Metal Ion Location Prediction in Proteins
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.21.644685
代码: https://github.com/XiaoboLinlin/SuperMetal/
简介: SuperMetal是一种生成式人工智能框架,能利用基于分数的扩散模型和置信度模型高效精准地预测蛋白质中的金属离子结合位点。它先将蛋白质结构预处理为图,经扩散模型采样、置信度模型筛选和聚类确定金属离子位置。在与Metal3D等方法的对比实验中,使用ZincBind数据库,SuperMetal在精度、覆盖率和空间精度上表现更优,且速度快、不受蛋白质大小影响。不过该模型依赖特定数据集,未考虑RNA等结构元素。总体而言,它为金属离子定位预测提供了有力工具,具有重要应用价值。
14. Folding-Based End-To-End Chemical Drug Design with Uncertainty Estimation: Tackling Hallucination in the Post-GPT Era
期刊: Journal of Medicinal Chemistry
链接: https://doi.org/10.1021/acs.jmedchem.5c00271
简介: 文章提出Llama-Gram框架,创新地整合蛋白质折叠嵌入、图分子表示和不确定性估计,解决传统大语言模型在药物设计中的幻觉问题,提升预测准确性。该框架利用冻结梯度的ESMFold模型和图Transformer变体,通过分组查询注意力和Gram层进行药物设计。研究使用ChEMBL 23等数据集,经模型训练、超参数搜索和对比实验,结果显示Llama-Gram在AUROC和AUPRC指标上优于Transformer CPI 2.0等模型。此外,在Galectin-3抑制剂和Eucarbwenstols D的靶点预测案例中也表现出色。总之,Llama-Gram为药物设计提供了高效可靠的新方法。
15. Computational and Experimental Exploration of Protein Fitness Landscapes: Navigating Smooth and Rugged Terrains
期刊: Biochemistry
链接: https://doi.org/10.1021/acs.biochem.4c00673
简介: 论文探讨蛋白质适应性景观,阐述其理论框架,分析平滑与崎岖景观的差异及成因,提出新研究方向,助力理解蛋白质进化和工程设计。通过理论分析、实验研究和数学建模等方法,结合LacI等案例,揭示了景观拓扑结构对进化的影响。研究使用多种数据集和模型,结果表明蛋白质可通过构象采样等机制跨越崎岖景观,机器学习在预测景观方面有重要作用但也面临挑战。该研究加深了对蛋白质适应性景观的理解,为蛋白质工程和设计提供了理论指导。
16. RNALoc-LM: RNA subcellular localization prediction using pre-trained RNA language model
期刊: Bioinformatics
链接: https://academic.oup.com/bioinformatics/advance/article/doi/10.1093/bioinformatics/btaf127/8090438
代码: https://github.com/CSUBioGroup/RNALoc-LM
简介: RNALoc-LM利用预训练RNA语言模型预测RNA亚细胞定位,可同时处理多种RNA,且具有可解释性。它通过RNA-FM模型编码序列,结合TextCNN、BiLSTM模块和多头注意力机制进行预测。研究构建了包含lncRNA、miRNA和circRNA的基准数据集,经5折交叉验证和与现有预测器对比,结果显示RNALoc-LM在预测三类RNA的亚细胞定位上性能优异,还能有效捕捉重要序列基序。该模型为RNA亚细胞定位预测提供了新途径,但存在样本数量受限等问题。
17. Exploring chemical space for “druglike” small molecules in the age of AI
期刊: Frontiers in Molecular Biosciences
链接: https://doi.org/10.3389/fmolb.2025.1553667
简介: 文章综述了AI时代小分子药物发现的进展,介绍传统方法局限,阐述AI在分子库开发、筛选和知识整合中的应用及优势。研究采用开发化学模板库、构建数据库和设计计算方法等手段,开发了如RASPD+、BAPPL+等工具。通过多个案例分析,结果表明这些工具能有效筛选化合物、预测结合亲和力,整合知识资源可提升预测准确性。该研究为小分子药物发现提供了全面的思路,推动了AI在药物设计领域的应用。
18. RNAtranslator: Modeling protein-conditional RNA design as sequence-to-sequence natural language translation
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.04.641375
代码: https://github.com/ciceklab/RNAtranslator
简介: RNAtranslator将蛋白质条件RNA设计问题转化为序列到序列的自然语言翻译任务,首次实现直接为给定蛋白质生成结合RNA序列,无需额外优化。该模型基于编码器-解码器Transformer架构,利用大规模RNA-蛋白质相互作用数据集进行端到端训练。研究使用RNAInter等数据集,针对10种蛋白质进行实验,结果显示RNAtranslator生成的RNA序列新颖且与天然结合RNA相似,在结合亲和力上优于现有方法,对未在训练集中出现的蛋白质也能有效设计结合RNA。总之,RNAtranslator为RNA设计提供了新途径,具有重要的应用潜力。
19. AmesNet: A Deep Learning Model Enhancing Generalization in Ames Mutagenicity Prediction
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.20.644379
代码: https://github.com/Model-Medicines/tSNE-Chemical-Data-Splitting
简介: AmesNet通过改进ChemPrint,将其应用于Ames致突变性预测,在平衡准确率和敏感性上超越现有算法,尤其在处理域外数据时表现出色。该模型基于ChemPrint的分子嵌入结合Ames致突变性特征进行学习预测,采用t-SNE数据划分和网格搜索优化超参数。研究使用来自多个数据源的Ames注释数据集,与单任务和多任务Ames QSAR算法对比,结果表明AmesNet在域内和域外数据预测中,平衡准确率和敏感性均领先,能有效识别多环芳烃类化合物的致突变性。AmesNet为药物安全性评估提供了更可靠的工具。
20. Computer-aided drug design and pharmacophore modeling towards the discovery of novel anti-Ebola agents
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.23.644818
代码: https://github.com/IoDiakou/anti-ebola-drugs-vae
简介: 该研究构建计算流程,利用机器学习、化学大数据和结构生物信息学,旨在发现新型抗埃博拉病毒药物。通过从公共数据库收集数据构建内部数据库,训练条件变分自编码器生成新分子,再经筛选、构象搜索和对接实验,基于结果设计药效团。研究使用ChEMBL、PubChem等数据库,生成1400个新分子并进行对接和药效团建模,发现多个分子能与埃博拉病毒聚合酶形成关键相互作用。该流程为抗埃博拉病毒药物研发提供了新方法,具有可扩展性和灵活性。
21. polars-bio – fast, scalable and out-of-core operations on large genomic interval datasets
期刊: Bioinformatics
链接: https://doi.org/10.1101/2025.03.21.644629
代码: https://github.com/biodatageeks/polars-bio
简介: polars-bio是一个Python库,结合多种技术实现对大规模基因组区间数据集的快速、并行和核外操作,解决了现有方法的效率和可扩展性问题。它以Apache DataFusion和Apache Arrow为基础,提供丰富的基因组操作功能,支持多种文件格式。研究使用AIList手稿中的测试数据集,在Linux和macOS平台进行基准测试,结果显示在单线程模式下,其计数重叠操作速度比bioframe快38倍,覆盖操作快15倍,且内存消耗更少;多线程模式下可实现高达282倍的加速。polars-bio为基因组数据分析提供了高效工具。
22. Deep Learning for Protein Structure Prediction: Advancements in Structural Bioinformatics
期刊: bioRxiv
链接: https://doi.org/10.1101/2023.04.26.538026
代码: https://github.com/danielathome19/ProteiNN-Structure-Predictor
简介: 论文提出基于Transformer的蛋白质结构预测模型ProteiNN,将其作为可复现、具教育意义的单序列结构预测基准,区别于现有大型模型。该模型利用Transformer架构的强大能力,直接从整数编码的氨基酸序列预测蛋白质的二级和三级结构。研究使用ProteinNet等数据集训练和评估模型,实验结果显示,模型在预测二级结构上表现良好,如预测α -螺旋和β -折叠的F1分数达到0.6756,但在预测三级结构上存在挑战。总之,ProteiNN为蛋白质结构预测提供了新的思路,对后续研究有一定的参考价值。
23. Explainable AI Based Coronary Heart Disease Prediction: Enhancing Model Transparency in Clinical Decision Making
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.20.644456
简介: 该研究对比八种机器学习模型预测冠心病的准确性,并利用SHAP和LIME方法提升模型可解释性。研究人员使用克利夫兰诊所心脏病数据集,经数据预处理后,用多种模型进行训练和测试,并通过计算准确率、AUROC等指标评估模型性能。结果显示,XGboost和随机森林模型表现最佳,测试准确率分别为0.839和0.805,测试AUROC均为0.885;ECG相关特征对预测影响较大,胆固醇等传统风险因素影响较小。这表明机器学习模型在冠心病预测上有潜力,后续应扩展数据集并结合可解释AI技术提升临床应用效果。
24. A Folding–Docking–Affinity framework for protein–ligand binding affinity prediction
期刊: bioRxiv
链接: https://doi.org/10.1101/2024.04.16.589805
代码: https://github.com/ZhiGroup/FDA
简介: 研究提出Folding-Docking-Affinity(FDA)框架,通过整合蛋白折叠、对接和亲和力预测过程,解决无高分辨率结合结构时的蛋白-配体结合亲和力预测问题,且框架组件可替换。该框架使用ColabFold折叠蛋白、DiffDock进行对接、GIGN预测亲和力。在DAVIS和KIBA数据集上的实验结果表明,FDA在多数情况下与现有先进的无对接方法性能相当,在“both-new”测试场景中优势明显;实验还发现框架引入的噪声可提升预测性能。FDA为结合结构预测亲和力提供了新途径,但仍面临一些挑战,需进一步研究。
25. DiNovo: high-coverage, high-confidence de novo peptide sequencing using mirror proteases and deep learning
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.20.643920
简介: DiNovo软件利用镜像蛋白酶和深度学习,实现高覆盖率、高可信度的从头肽测序,解决现有方法的不足。它通过镜像蛋白酶消化蛋白质,用MirrorFinder识别镜像光谱对,MirrorNovo或pNovoM2算法测序,并采用目标诱饵映射评估结果。在大肠杆菌和酵母蛋白质组数据集实验中,相比单蛋白酶策略及其他算法,DiNovo测序的高可信度氨基酸数量更多,序列覆盖率更高,且在识别蛋白质方面与数据库搜索相当。DiNovo为从头肽测序提供了有效工具,不过在大规模光谱处理和算法训练数据规模上还有提升空间。