打开网易新闻 查看精彩图片

撰文丨王聪

编辑丨王多鱼

排版丨水成文

尽管药物研发领域取得了诸多进展,但仍有约 90% 的可成药疾病靶点缺乏小分子药物。随着诸如AlphaFold等蛋白质结构预测技术的进步,全基因组药物发现已成为一个更可实现的目标。然而,目前使用的虚拟筛选(Virtual Screening)工具远不能满足这一需求。现有的方法(无论是经典的分子对接还是深度学习方法),仍存在着计算成本都太高、无法覆盖全基因组靶点等问题。

因此,研究人员希望能够开发出一种有效的全基因组虚拟筛选方法,以快速识别人类基因组中每个可成药靶点的小分子配体。

如今,这一局面正被打破。来自清华大学的研究团队推出了 AI 驱动的超高通量药物虚拟筛选平台——DrugCLIP,首次实现全基因组规模的虚拟筛选,将传统方法需数年的计算任务压缩至 24 小时内,效率提升最高达 1000 万倍。

该研究于 2026 年 1 月 8 日,清华大学智能产业研究院(AIR)兰艳艳教授联合清华大学生命科学学院学院张伟副教授、闫创业副教授及化学系刘磊教授(贾寅君高博文谭佳郑济青洪鑫为论文共同第一作者),在国际顶尖学术期刊Science上发表了题为:Deep contrastive learning enables genome-wide virtual screening 的研究论文,该研究旨在通过 AI 技术构建快速且精准的药物筛选引擎,为后 AlphaFold时代的创新药物发现提供新范式。

打开网易新闻 查看精彩图片

三大突破:速度、精度、覆盖面的全面革新

研究团队面对的首要挑战是计算效率。传统分子对接方法如同「试钥匙」,需要将每个小分子与蛋白口袋进行三维匹配,耗时长且计算量大。即使使用最新硬件,筛选 10 亿分子对应单个靶点,也需上万 CPU 核心运行两周时间。

DrugCLIP的创新之处在于,将虚拟筛选转化为「语义搜索」任务。研究团队通过对比学习,让 AI 同时学习蛋白口袋和小分子的向量表示,使两者在共享的潜在空间中对齐,从而实现超快速且精准的虚拟筛选。

具体而言,研究团队开发了两阶段训练策略:先利用自创的 ProFSA 策略生成 550 万伪蛋白-配体对进行预训练,再使用 4 万个实验测定的复合物结构微调。这种设计使模型不依赖精确的局部几何结构,即使仅凭 AlphaFold 预测的蛋白结构也能做出准确结合预测。

打开网易新闻 查看精彩图片

DrugCLIP 框架

在标准测试集 DUD-E 和 LIT-PCBA 上,DrugCLIP 的 EF1%(衡量前1%化合物中活性分子富集能力)全面超越传统对接方法和深度学习模型,速度更是提升数个数量级。

湿实验验证:从精神疾病靶点到不可成药靶点

为验证实用性,研究团队针对抑郁症、多动症等疾病的关键靶点去甲肾上腺素转运蛋白(NET)进行实验。

在针对 NET 筛选中,DrugCLIP 从 100 个候选分子中找出 15 个抑制率超 60% 的化合物,命中率高达 15%。其中两个抑制剂活性优于常用抗抑郁药安非他酮,且结构新颖——它们不含传统 NET 抑制剂必需的脂肪胺基团,却通过芳香环与靶点形成全新相互作用。

更令人振奋的是对TRIP12的挑战,该蛋白与癌症及帕金森病相关,且该蛋白既无实验结构也无已报道的抑制剂,研究团队仅凭 AlphaFold 预测的结构,结合自研的 GenPack 口袋生成优化模块,成功获得 17.5% 的命中率,两个先导化合物亲和力达微摩尔级别。

全基因组筛选:覆盖半个人类基因组的化学空间

最终,研究团队将 DrugCLIP 推向极致:对约 1 万个人类蛋白的 AlphaFold 预测结构,筛选了 5 亿个小分子。

这项需评估10 万亿个蛋白-配体对的巨型任务,仅用 8 块 A100 GPU 在 24 小时内完成,产出超过 200 万个候选分子,覆盖 2 万多个口袋,靶点数量是现有最大生物活性数据库 ChEMBL 的两倍以上。

打开网易新闻 查看精彩图片

利用 DrugCLIP 进行超快速全基因组虚拟筛选

所有数据已通过 GenomeScreenDB 数据库(https://drugclip.com)公开,涵盖从激酶到嗅觉受体等各类靶点,为学术界提供前所未有的资源。

未来展望:AI 驱动药物发现新范式

DrugCLIP的成功标志着药物发现正式进入「后 AlphaFold 时代」。随着 AlphaFold3 等全原子结构预测模型的出现,结合 DrugCLIP 的高速筛选能力,系统性地探索整个可成药基因组,已成为可能。

这项技术不仅大幅降低新药研发门槛,使缺乏高通量筛选设备的团队也能进行大规模虚拟筛选,更将为罕见病、难治性疾病提供全新治疗思路。

打开网易新闻 查看精彩图片

论文链接

https://www.science.org/doi/10.1126/science.ads9530