Post

AI+Drug Snapshot | 250323 | Nature | geneBurdenRD, 一个罕见变异基因负担分析框架

AI+Drug Snapshot | 250323 | Nature | geneBurdenRD, 一个罕见变异基因负担分析框架

关注MindDance微信公众号,每日推送AI+Drug的最新文章和资讯,获取领域最新的技术进展

1. geneBurdenRD: 一个罕见变异基因负担分析框架

期刊: Nature

链接: https://doi.org/10.1038/s41586-025-08623-w

简介: 本研究开发了名为geneBurdenRD的罕见变异基因负担分析框架,并应用于100,000基因组计划中的34,851例罕见疾病患者,发现了141个新的疾病 - 基因关联,其中69个经过筛选和优先排序。该方法结合Exomiser变异优先级工具和Firth逻辑回归模型,使用100,000基因组计划的数据集,最终确定了5个具有强遗传和实验证据的关联,如UNC13A与单基因糖尿病的关联。此研究为罕见疾病的基因发现和诊断提供了新工具和见解。


2. Leveraging AI to Explore Structural Contexts of Post-Translational Modifications in Drug Binding

期刊: bioRxiv

链接: https://doi.org/10.1101/2025.01.14.633078

简介: 本文利用AI技术探索翻译后修饰(PTMs)在药物结合中的结构背景,结合AlphaFold3等AI工具大规模预测PTMs对药物结合的影响。通过生成PTMs修饰的蛋白质结构模型,并结合小分子结合位点进行分析。实验使用DrugDomain数据库中的6131个PTMs,生成了14178个模型,结果表明磷酸化等PTMs显著影响药物结合口袋的结构。该研究为理解PTMs在药物结合中的作用提供了新的结构视角。


3. SynLlama: Generating Synthesizable Molecules and Their Analogs with Large Language Models

期刊: arXiv

链接: https://arxiv.org/abs/2503.12602

简介: 本文提出SynLlama模型,通过微调Llama3大语言模型生成可合成分子及其合成路径,利用少量数据生成广泛的合成化学空间。通过构建合成路径数据,对Llama3进行监督微调,并利用重建算法生成合成路径。实验在Enamine和ChEMBL数据集上进行,结果表明SynLlama在合成规划和类似物生成任务中表现优异,且能够扩展到未见的可购买构建块。SynLlama为药物发现提供了一种高效且可扩展的合成路径生成工具。


4. A Reinforcement Learning-Driven Transformer GAN for Molecular Generation

期刊: arXiv

链接: https://arxiv.org/abs/2503.12796

简介: 本文提出基于Transformer和强化学习的生成对抗网络RL-MolGAN,用于生成具有特定化学性质的分子。首次采用先解码后编码的Transformer结构,并结合强化学习和蒙特卡洛树搜索优化分子生成。RL-MolGAN通过Transformer解码器生成SMILES字符串,编码器作为判别器,并引入Wasserstein距离和小批量判别技术提升模型稳定性。实验在QM9和ZINC数据集上进行,验证了模型在生成高质量分子结构方面的有效性。RL-MolGAN在分子生成任务中表现出色,能够生成多样且具有目标化学性质的分子。


5. H2GnnDTI: hierarchical heterogeneous graph neural networks for drug target interaction prediction

期刊: Bioinformatics

链接: https://doi.org/10.1093/bioinformatics/btaf117

简介: 本文提出分层异构图神经网络H2GnnDTI,用于预测药物 - 靶标相互作用。通过低层和高层图神经网络分别捕捉药物和蛋白质的结构特征及其相互作用。H2GnnDTI首先通过低层图神经网络提取药物和蛋白质的结构特征,再通过高层图神经网络结合结构和属性信息融合模块捕捉药物 - 靶标相互作用。实验在DrugBank、Davis和KIBA数据集上进行,结果表明H2GnnDTI在预测精度上优于现有方法。H2GnnDTI能够有效整合药物和蛋白质的结构信息,提升药物 - 靶标相互作用预测的准确性。


6. Molecular deep learning at the edge of chemical space

期刊: chemRxiv

链接: https://doi.org/10.26434/chemrxiv-2025-qj4k3

简介: 本文提出一种联合建模方法,通过分子重建和性质预测的结合,引入“陌生度”指标来量化分子在训练数据分布之外的偏离程度,利用分子重建误差作为模型泛化能力的评估指标。模型通过自编码器进行分子重建,并结合贝叶斯分类器进行性质预测,陌生度通过重建损失计算。实验在33个生物活性数据集上进行,结果表明陌生度能够有效识别分布外分子,并与分类器性能强相关。陌生度作为一种新的可靠性指标,能够帮助模型在化学空间的边缘进行更可靠的预测。


7. kMoL: an open-source machine and federated learning library for drug discovery

期刊: Journal of Cheminformatics

链接: https://doi.org/10.1186/s13321-025-00967-9

简介: kMoL是一个用于药物发现的开源机器学习和联邦学习库,旨在解决数据隐私和协作之间的冲突,提供先进的模型架构、贝叶斯优化和联邦学习机制。通过本地基准测试和分布式联邦学习实验评估了kMoL的性能和灵活性,使用了MoleculeNet、Toxicity和DruMAP等数据集,结果表明kMoL在分类和回归任务中表现优异,尤其是在联邦学习策略下能够有效保护数据隐私。kMoL为药物发现中的隐私保护机器学习模型部署提供了有价值的指导。


8. Molecular property prediction based on graph contrastive learning with partial feature masking

期刊: Journal of Molecular Graphics and Modelling

链接: https://doi.org/10.1016/j.jmgm.2025.109014

简介: 本文提出基于部分特征掩码的分子图对比学习模型(FMGCL),用于分子性质预测。通过掩码分子图的特征来保留分子核心语义,从而提升对比学习的效果。通过构建掩码分子图,利用图对比学习捕获先验知识,并在下游任务中微调预训练的编码器。实验在MoleculeNet和ChEMBL的12个基准数据集上进行,结果表明FMGCL在分类和回归任务中均优于现有方法。FMGCL通过部分特征掩码策略有效提升了分子性质预测的准确性。


9. scNET: learning context-specific gene and cell embeddings by integrating single-cell gene expression data with protein–protein interactions

期刊: Nature Methods

链接: https://doi.org/10.1038/s41592-025-02627-0

简介: scNET是一种通过整合单细胞RNA测序数据和蛋白质 - 蛋白质相互作用网络来学习基因和细胞嵌入的深度学习方法,旨在解决单细胞数据中的噪声和零膨胀问题。采用双视图图神经网络架构,结合PPI网络和细胞相似性,使用疟疾相关B细胞数据集和小鼠胶质母细胞瘤数据集进行验证,结果表明scNET在基因功能注释、细胞聚类和通路分析方面优于传统方法。scNET为单细胞数据的深入分析提供了新的工具和视角。


10. DeepWalk-Based Graph Embeddings for miRNA–Disease Association Prediction Using Deep Neural Network

期刊: Biomedicines

链接: https://doi.org/10.3390/biomedicines13030536

简介: 本文提出基于DeepWalk的图嵌入方法(DWMDA),用于预测miRNA与疾病的关联。结合DeepWalk和深度神经网络(DNN)来提取低维向量并进行分类。通过DeepWalk从miRNA和疾病网络中提取低维向量,并利用DNN进行分类,实验使用了HMDD、miR2Disease和dbDEMC等数据集,结果显示DWMDA在全局和局部留一法交叉验证中分别达到了0.9260和0.9101的AUC值,显著优于其他现有方法。该研究为miRNA与疾病关联预测提供了一个高效且可推广的框架。


11. CoLiNN: A Tool for Fast Chemical Space Visualization of Combinatorial Libraries Without Enumeration

期刊: Molecular Informatics

链接: https://doi.org/10.1002/minf.202400263

简介: 本文介绍名为CoLiNN的神经网络工具,用于在不枚举化合物的情况下快速可视化组合库的化学空间。通过构建块和反应信息直接预测化合物在化学空间中的投影。使用Graph Convolutional Network(GCN)生成构建块和反应嵌入,并预测化合物在Generative Topographic Mapping(GTM)上的投影,实验基于2.5K虚拟DNA编码库(DELs)进行训练,结果显示CoLiNN能够准确预测化合物的投影,且与真实GTM生成的投影高度一致。该工具为组合库设计提供了一种高效且无需枚举的化学空间可视化方法。


This post is licensed under CC BY 4.0 by the author.

Trending Tags