欢迎星标 果壳硬科技

1月8日,清华大学交叉信息研究院、生命科学学院等多个团队联合在Science上发表了一项突破性研究。该研究由闫创业、张伟、刘磊、兰艳艳等人共同领导,研发出一套名为 DrugCLIP 的人工智能系统,能够以前所未有的速度和精度,为上万个蛋白质寻找可能与之结合的小分子药物候选物。

这项研究意味着什么?简单来说,人体内大约有2万多种蛋白质,其中很多与疾病相关,但目前已成功研发出药物的靶点不到10%。传统药物研发周期长、成本高,尤其对于结构未知或研究较少的蛋白质,寻找有效药物犹如大海捞针。而DrugCLIP的出现,相当于为整个“蛋白质宇宙”绘制了一张“潜在药物地图”。

方法革新:不再精打细算,而是看对眼

AI 如何在一天内跑完人类十年的路?想象一下,你手里有一张藏宝图(人类基因组),上面标记了 20,000 个宝箱(蛋白质)。你的任务是为每个宝箱找到一把能打开它的钥匙(药物分子)。在过去,这就像是一个笨手笨脚的锁匠,拿着成千上万把钥匙,一把接一把地插进锁孔,左右拧动,听听声音,再换下一把。这个过程叫分子对接,既昂贵又慢得令人发指。

DrugCLIP采用了完全不同的思路:对比学习,彻底改变了配钥匙的逻辑。如果说以前的方法是物理试错,那么 DrugCLIP 就是“人脸识别”。它不需要真的把钥匙插进去试,只需要看一眼锁孔,看一眼钥匙,就能瞬间告诉你:这对能成!

研究人员将蛋白质口袋和小分子分别用两个神经网络,转换成高维向量(可理解为一种数学特征),通过训练使能够结合的“蛋白质-分子”对的向量,在空间里靠得更近,不能结合的则离得更远。这就像是教AI辨认“哪些锁和哪些钥匙是配套的”,而不是精确计算每一把钥匙的齿形。

打开网易新闻 查看精彩图片

DrugCLIP 框架

这种方法带来惊人的效率提升:仅用8块A100 GPU,在24小时内就完成了对约1万个人类蛋白质与5亿个小分子之间,超过10万亿次配对评估,比传统分子对接方法快一千万倍以上。

实验验证:从已知靶点到“无中生有”

研究团队不仅在计算机数据集上验证了DrugCLIP的准确性,还进行了实实在在的湿实验验证。

针对经典靶点:对于精神疾病相关的靶点5HT₂A受体和去甲肾上腺素转运蛋白(NET),DrugCLIP从化合物库中筛选出的候选分子,在实验中表现出高效的结合或抑制活性。其中两个NET抑制剂的结合结构,还通过冷冻电镜技术得以解析,证实了预测的可靠性。

挑战“最难靶点”:研究人员选择了一个极具挑战的目标——TRIP12。这是一种与癌症和神经退行性疾病相关的蛋白质,此前既没有实验测定的完整结构,也未有报道的小分子抑制剂。团队仅使用AlphaFold2预测的蛋白质结构,利用DrugCLIP进行筛选。在后续实验测试的57个候选分子中,有10个显示出了结合活性,命中率高达17.5%。其中两个先导化合物更在功能实验中显示出对TRIP12酶活的抑制作用。

赋能“暗基因组”:为一半人类蛋白质提供潜在药物线索。这项研究最宏大的成果,是完成了首次真正意义上的“全基因组规模虚拟筛选”。团队将筛选结果构建成名为 GenomeScreenDB 的开放数据库(访问地址:https://drugclip.com),向全世界公开。

数据库涵盖了约1万个人类蛋白质,超过2万个潜在结合口袋,以及200多万个预测具有结合潜力的分子信息,其覆盖的蛋白质靶点数量是现有最大生化活性数据库ChEMBL的两倍多,接近人类蛋白质编码基因的一半。

这意味着,大量此前从未被研究过,或缺乏药物开发线索的“暗基因组”靶点,首次有了基于人工智能预测的化学起点,为开发针对罕见病、疑难疾病的新药提供了前所未有的信息资源。

打开网易新闻 查看精彩图片

DrugCLIP 能够进行全基因组虚拟筛选

AI如何重塑新药发现起点

DeepMind的AlphaFold成功预测了几乎所有人类蛋白质的结构——这意味着我们一夜之间拥有了所有宝箱的 3D 模型。但很快,科学家们陷入了尴尬的AlphaFold悖论:我们看清了锁的样子,却依然造不出钥匙。传统的药物筛选方法算力消耗太大。要在数亿个化合物中,为人体内成千上万个蛋白质寻找匹配对象,用现有的超级计算机跑,可能需要几十年甚至更久。

研究团队敏锐地捕捉到了这个痛点,致力于将筛选效率提升至“光速”量级,让AlphaFold的巨大结构宝库真正转化为药物发现的动能。在蛋白质结构预测革命之后,人工智能正向下一阶段迈进——将海量结构信息大规模、高效率地转化为药物研发的直接推动力。它不仅极大降低了早期药物发现的成本和门槛,使得更多科研机构能够参与到靶点探索中,更重要的是,它为整个生物医学界提供了一张指向“未知药物大陆”的航海图。

当然,虚拟筛选的预测结果仍需后续严格的实验验证和漫长的临床开发。但毋庸置疑,这种能够为万种蛋白质快速“海选”配体的能力,正在将新药研发的起点,从一个一个靶点的“孤岛探索”,推向全景式、系统化的“星系测绘”新时代。

论文信息

发布期刊 Science

发布时间 2026年1月8日

文章标题 Deep contrastive learning enables genome-wide virtual screening

(DOI:10.1126/science.ads9530)

打开网易新闻 查看精彩图片

吴欧、郭郭 | 编辑