AI+Drug Snapshot | 250330 | QuickProt是用于DIA和PRM质谱蛋白质组学数据集分析和可视化的工具,可提高分析效率
关注
MindDance
微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展
1. Dimensionality Reduction of Genetic Data using Contrastive Learning
期刊: bioRxiv
链接: https://doi.org/10.1101/2024.09.30.615901
代码: https://github.com/filtho/ContrastiveLosses
简介: 该论文提出用对比学习对遗传数据集进行降维,以创建类似PCA的群体可视化。通过定义新损失函数和针对SNP基因型数据集的数据增强方案,构建深度学习框架。研究使用狗和人类基因型的两个数据集进行实验,将该方法与PCA等方法对比,从保留局部和全局结构、对新数据的泛化能力等方面评估性能。结果显示,该方法在保留全局结构和泛化性能上表现良好。研究表明,该对比学习框架为遗传数据分析提供了有效途径。
2. Smile-to-Bert: a pre-trained Transformer model for molecular property prediction using SMILES representations
期刊: bioRxiv
链接: https://doi.org/10.1101/2024.10.31.621293
代码: https://github.com/m-baralt/smile-to-bert, https://github.com/m-baralt/smile-to-bert-tdc
简介: 论文提出Smile-to-Bert,一种基于BERT的预训练模型,用于从SMILES表示预测分子属性。模型利用PubChem分子数据进行预训练,预测113个分子描述符,并在22个ADMET数据集上进行微调与评估。研究将其与其他模型对比,结果表明Smile-to-Bert在一个数据集上表现最佳,与其他模型结合可在8个数据集上提升性能。该研究为分子属性预测提供了新的模型和思路,不过模型在多数数据集上表现有待提高。
3. OctopusV and TentacleSV: a one-stop toolkit for multi-sample, cross-platform structural variant comparison and analysis
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.24.645012
代码: https://github.com/ylab-hi/OctopusV
简介: 文章介绍了OctopusV和TentacleSV工具,旨在解决结构变异(SV)分析中的挑战。 OctopusV可将模糊的断裂端注释标准化为规范的SV类型,并通过灵活的集合操作整合变异调用;TentacleSV是自动化管道,实现从原始数据到最终结果的一站式分析。研究使用模拟和真实数据集评估工具性能,结果显示其在精度、召回率和一致性等方面表现良好。这两个工具为SV分析提供了有效的一体化解决方案,有助于相关研究的开展。
4. Herbal ingredient-target interaction prediction via multi-modal learning
期刊: Information Sciences
链接: https://doi.org/10.1016/j.ins.2025.122115
代码: https://github.com/Xudong-Liang/Multi-ITI
简介: 论文提出Multi-ITI多模态学习框架,用于预测草药成分与靶点的相互作用。该框架整合多模态数据,利用预训练模型学习生物特征,通过异构图学习模块捕捉网络交互并减少噪声影响。 在BindingDB、BioSNAP和HIT数据集上,与六种方法对比,结果表明Multi-ITI在多数情况下表现更优。消融实验验证了模型各部分的有效性,案例研究进一步证实其预测的可靠性。该框架为草药成分-靶点相互作用预测提供了新方法。
5. Improving Stereochemical Limitations in Protein-Ligand Complex Structure Prediction
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.25.645362
代码: https://github.com/cddlab/boltz_ext
简介: 该论文针对AlphaFold3及Boltz-1在预测蛋白质-配体复合物结构时存在的配体立体化学问题,提出约束引导推理方法。通过在反向扩散过程中应用立体化学约束,改进配体结构预测。研究选取PDBbind2020数据集中4500个条目,评估模型性能。结果显示,新方法能100%重现输入分子的手性,且在键长和键角几何结构上有显著改善。该方法为解决蛋白质-配体复合物结构预测中的立体化学错误提供了有效方案,具有重要应用价值。
6. QuickProt: A bioinformatics and visualization tool for DIA and PRM mass spectrometry-based proteomics datasets
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.24.645047,https://github.com/ylab-hi/TentacleSV, https://github.com/qingxiangguo/OctopusV_paper
代码: https://github.com/OmarArias-Gaguancela/QuickProt
简介: QuickProt是用于DIA和PRM质谱蛋白质组学数据集分析和可视化的工具,可提高分析效率并简化流程。它包含多个模块,以不同算法处理数据并输出多种分析结果。研究用人类红细胞生成过程中的数据集进行实验,DIA数据集分析展示了蛋白质组动态变化,PRM数据集分析测定了BAF复合物亚基绝对丰度。结果表明,QuickProt能有效处理和分析数据,为相关研究提供有价值的信息,助力蛋白质组学研究。
7. siRNA Features-Reproducible Structure-Based Chemical Features for Off-Target Prediction
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.24.645065
代码: https://github.com/mrichter0/siRNAFeatures
简介: 论文提出一种生成基于结构的化学特征框架,用于预测siRNA脱靶效应,结合分子指纹和siRNA-AGO2复合物结构提升预测准确性。研究通过RNA-Seq实验生成数据,设计九种数据集对比不同特征表示策略。结果显示,Dataset 3(使用扩展连接性指纹编码siRNA和mRNA特征)表现最佳,能量最小化数据集7R次之。该研究为siRNA脱靶预测和治疗设计提供了新方向,对优化siRNA疗法有重要意义。
8. ARGContextProfiler: Extracting and Scoring the Genomic Contexts of Antibiotic Resistance Genes using Assembly Graphs
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.24.645075
代码: https://github.com/NazifaMoumi/ARGContextProfiler
简介: ARGContextProfiler是一种利用组装图提取和可视化抗生素抗性基因(ARG)基因组上下文的工具,能有效减少嵌合错误。该工具对输入的双端短读数据进行质量控制和组装图生成,通过多种步骤确定基因路径和提取基因组上下文。研究使用合成、半合成及真实的污水处理厂和医院污水等数据集进行测试,结果表明,与传统方法相比,它在ARG检测数量、基因覆盖长度、精度和召回率等方面表现更优。这为研究ARG传播机制提供了有力支持。
9. How Important Are GNN Architectures For QSAR Modelling?
期刊: ChemRxiv
链接: https://doi.org/10.26434/chemrxiv-2025-k1xlg
简介: 该论文探究了图神经网络(GNN)架构和分子描述符在定量构效关系(QSAR)建模中的作用,发现超参数和分子描述符比架构更重要。研究利用9个葛兰素史克(GSK)内部QSAR数据集,运用PyTorch Geometric开发GNNs,借助Optuna评估不同超参数和描述符组合。结果显示,没有一种架构始终优于其他架构,学习率、辍学率等超参数对性能影响重大,且分子描述符的选择也十分关键,同时发现互变异构体对部分描述符有显著影响。该研究为QSAR模型开发提供了重要参考,有助于优化模型开发和部署效率。
10. Comparative study of protein X-ray and NMR structures: molecular docking-based virtual screening
期刊: bioRxiv
链接: https://doi.org/10.1101/2025.03.25.645374
简介: 此论文通过分子对接虚拟筛选,对比研究蛋白质X射线和NMR结构对筛选性能的影响,发现X射线全酶结构总体表现更优。研究选取18种蛋白质,用Glide软件进行虚拟筛选,以配体富集度(logAUC)评估性能。实验结果表明,在无配体(apo)结构中,当配体富集度高于随机选择阈值时,X射线apo结构表现更优;对于单holo结构,两者筛选性能无显著差异,但多holo结构中,X射线结构优于NMR构象。这一研究为基于分子对接的虚拟筛选中蛋白质结构的选择提供了参考依据。
11. Active learning FEP using 3D-QSAR for prioritizing bioisosteres in medicinal chemistry
期刊: ChemRxiv
链接: https://doi.org/10.26434/chemrxiv-2024-d9fwk-v2
简介: 该论文提出将3D-QSAR和相对结合自由能计算结合到主动学习工作流程中,用于优先筛选生物电子等排体,提高药物发现效率。以人醛糖还原酶为测试案例,从辉瑞取代噻唑系列中选取化合物cmp126作为起始分子,用Spark软件生成生物电子等排体,通过FEP计算和构建3DQSAR模型进行筛选。结果显示,该工作流程能以较低计算成本快速找到结合力最强的生物电子等排体替代物,为药物研发中生物电子等排体的选择提供了有效方法。
12. Generative deep learning for de novo drug design – a chemical space odyssey
期刊: ChemRxiv
链接: https://doi.org/10.26434/chemrxiv-2025-1zs8j
简介: 论文探讨生成式深度学习在从头药物设计中的应用,分析其面临的挑战与机遇,并讨论分子表示、模型架构等关键问题。研究介绍了多种分子表示方法和深度学习架构,分析不同分子生成策略的优劣,还探讨了模型评估指标及面临的困境。虽然生成式深度学习发展迅速,但在设计质量评估、数据稀缺等方面存在挑战。该研究为深入理解和改进生成式深度学习在药物设计中的应用提供了全面视角,推动该领域发展。
13. Linking Virtual and Real Worlds: Mathematical Framework to Identify Optimal Molecule based on Virtual Ligand Strategy
期刊: ChemRxiv
链接: https://doi.org/10.26434/chemrxiv-2025-0snj5
简介: 该论文提出一种数学框架,将虚拟配体(VL)参数与真实分子联系起来,实现基于VLAO计算识别最优配体,且能给出可靠性指标。研究构建VL与真实配体关系的数学模型,通过计算描述符向量、转换描述符为VL参数及预测配体性能三步来评估真实配体在目标反应中的表现。研究以21种单齿膦配体为数据集,在四个反应中进行内部和外部验证,结果表明该算法能成功识别出性能较好的配体。该框架为过渡金属催化配体设计提供了新方法,有助于提高催化剂设计效率。
14. INTEGRATIVE DESIGN OF ADAMTS PARTIAL AGONISTS WITHIN A MULTIHALLMARK THERAPEUTIC FRAMEWORK: THE BEGINNING OF PAVING THE WAY TOWARD A FUNCTIONAL CURE FOR NEURODEGENERATIVE DISORDERS
期刊: ChemRxiv
链接: https://doi.org/10.26434/chemrxiv-2025-4n2nb-v3
简介: 论文聚焦于神经退行性疾病治疗,提出开发ADAMTS酶的部分激动剂,结合多靶点治疗范式,推动实现功能性治愈。研究采用多学科综合方法,结合计算化学、分子对接等技术,筛选潜在的ADAMTS部分激动剂。通过整合多个大语言模型、生成式人工智能和分子对接软件,对一系列候选分子进行评估。研究确定了几种有潜力的药物分子,如Drug Hit 2适合直接抑制,Drug Hit 5适用于长期治疗等。该研究为神经退行性疾病的治疗提供了新的策略和潜在药物靶点,不过仍需进一步实验验证。