2026 年清华大学第一篇 Science 论文花落清华大学智能科学讲席教授、智能产业研究院(AIR)院长张亚勤院士团队,该学院的兰艳艳教授团队和合作者研发出一款名为 DrugCLIP 的 AI 工具,能以前所未有的速度和准确率,为成千上万个人类蛋白质找到潜在的药物钥匙。

它只需使用 8 张顶级显卡,就能在不到 24 小时内完成超过 10 万亿次蛋白质与分子的匹配计算,为将近一半的人类基因组找到了超过 200 万个潜在的候选药物分子。

这一研究首次完成了覆盖人类基因组规模的药物虚拟筛选,首次打通了从蛋白结构预测到药物发现的关键通道,可覆盖约 1 万个蛋白靶点、2 万个蛋白口袋,分析筛选了超过 5 亿个类药小分子,借此构建了已知最大规模的蛋白-配体筛选数据库,目前该数据库已免费面向全球科研社区开放 [1]。

图 | 兰艳艳(来源:https://air.tsinghua.edu.cn/info/1046/120
打开网易新闻 查看精彩图片
图 | 兰艳艳(来源:https://air.tsinghua.edu.cn/info/1046/120

论文共同一作清华大学智能产业研究院(AIR)博士后贾寅君告诉DeepTech:“一方面,我们聚焦于药物研发最早期的苗头化合物发现阶段,把蛋白质结构预测的AI成功进一步推进到化合物层面,使研究能与化学家直接对话;另一方面,我们致力于以组学视角系统性探索药物靶点,突破传统单一靶点研发模式的局限,旨在通过对人类蛋白质组的全面筛选,为未来攻克更多疾病提供新起点。尽管目前距离实际药物应用仍有 ADME 优化、临床验证等诸多挑战,但本研究为AI驱动的大规模靶点探索奠定了基础。”

图 | 贾寅君(来源:贾寅君)
打开网易新闻 查看精彩图片
图 | 贾寅君(来源:贾寅君)

将以文搜图原理用于 AI 寻药

研究中,他们并不是让 AI 去模拟分子挤进蛋白质口袋的复杂物理过程,而是借鉴了人们在日常生活中常用的以文字搜索图片的技术。当我们使用搜索引擎以文字搜索图片,寻找一张符合描述的照片时,背后的技术并不是比较像素,而是比较图片被转换成的一组数字特征也就是向量。对于语义相似的文字和图片来说,它们的特征向量在数学空间里的位置会非常接近。

(来源:https://www.science.org/doi/10.1126/science.ads9530)
打开网易新闻 查看精彩图片
(来源:https://www.science.org/doi/10.1126/science.ads9530)

DrugCLIP 也是这么做的,研究人员训练了两个神经网络:

第一个神经网络起着分子编码器的作用,可以把任何一个小分子化合物,转换成为一组代表其特征的数字向量;

第二个神经网络起着口袋编码器的功能,可以把蛋白质上那个可以结合药物的凹陷区域也就是结合口袋,也转换成为一组数字向量。

训练的目标很简单:让能够结合的蛋白质口袋和分子的向量变得非常相似,也就是在数字空间里靠得很近;让不能结合的向量差异变得很大也就是离得很远。

这样,当面对一个新的蛋白质的时候,DrugCLIP 只需要做这样一个步骤:把这个蛋白质口袋也变成一个向量,然后去已经预存好的分子向量库里,快速地计算余弦相似度,找出和它最像、也就是最可能结合的那些分子。这个过程非常快,因为本质上就是大量的向量点乘运算,非常适合使用 GPU 进行并行加速。

为了让 AI 在没有足够真实数据的情况下也能学好,他们想出了这样一个方法:使用蛋白质自己假装药物来训练。他们从已知的蛋白质结构数据库中,截取一小段氨基酸链比如 3-8 个氨基酸,把它当做伪配体,而它周围的区域则被当做伪口袋。

蛋白质内部氨基酸之间的相互作用,与蛋白质和药物分子之间的相互作用原理是相同的。通过使用这种方法,他们生成了 550 万个伪复合物数据来对 AI 进行预训练,从而让它掌握了识别结合模式的基本功。

(来源:https://www.science.org/doi/10.1126/science.ads9530)
打开网易新闻 查看精彩图片
(来源:https://www.science.org/doi/10.1126/science.ads9530)

认图不认人,无中生有找新药

经过训练之后,DrugCLIP 展现出又快又准的特点,在两个权威的虚拟筛选测试集 DUD-E 和 LIT-PCBA 上,它的准确率超过了包括传统分子对接和许多其他深度学习模型在内的所有基线方法。在速度上,它更是达到传统分子对接方法的上千万倍。在筛选 LIT-PCBA 数据集上的所有分子时,DrugCLIP 的顺序计算只需要 38 秒,而传统方法需要几天甚至更久。

DrugCLIP 还展现出认图不认人的特点,它无需依赖精确的蛋白质三维结构细节,针对蛋白质侧链的微小错误不具备敏感性。更重要的是,即使训练数据里完全没有某个蛋白质家族的信息,它也能很好地为这个新家族的成员找到潜在配体,具备较强的泛化能力。

DrugCLIP 亦能无中生有寻找新药。在湿实验验证中,针对抑郁症靶点 5-羟色胺 2A 受体,它从 78 个候选分子中找到了 8 个有活性的激动剂,其中最好的分子活性达到了纳摩尔级别。

针对另一个抑郁症靶点去甲肾上腺素转运体,它找到了比常用药物安非他酮效果更好的新型抑制剂。研究人员甚至使用冷冻电镜拍下了这些新抑制剂与靶点蛋白紧密结合的清晰照片,证实了 AI 预测的结合模式。

(来源:https://www.science.org/doi/10.1126/science.ads9530)
打开网易新闻 查看精彩图片
(来源:https://www.science.org/doi/10.1126/science.ads9530)

TRIP12,是一个与癌症和神经退行性疾病相关的蛋白质,此前既没有它与小分子结合的实验结构,也几乎没有已知的抑制剂报道。为此,研究人员只能使用谷歌 DeepMind 旗下的 AlphaFold2 所预测的蛋白质结构。

然而,即使是在这样的 hard 模式下,DrugCLIP 结合该团队研发的另一款用于优化预测结构中的口袋定义的工具 GenPack,竟然取得了 17.5% 的命中率,找到了能够有效结合并抑制 TRIP12 活性的苗头化合物,证明了 DrugCLIP 在探索完全未知的靶点上的巨大潜力。

(来源:https://www.science.org/doi/10.1126/science.ads9530)
打开网易新闻 查看精彩图片
(来源:https://www.science.org/doi/10.1126/science.ads9530)

构建公共数据库,助推打造药物发现新模式

这项研究的终极结果,是构建了一个名为 GenomeScreenDB 的公共数据库。研究人员利用 AlphaFold2 预测的整个人类蛋白质组结构,结合 DrugCLIP 针对 5 亿多个类药分子进行了全景式扫描,最终为来自大约 1 万个人类蛋白质的 2 万个结合口袋,找到了 200 万个潜在的候选分子。

这个数据库所覆盖的蛋白质靶点数量,是当前最全面的生物活性分子数据库 ChEMBL 的两倍之多,涵盖了将近一半的人类基因组。从经典的激酶靶点、到鲜有研究的溶质载体蛋白、甚至嗅觉受体,在该数据库中都有预测的结合分子。目前,这些数据已在网站和在线服务平台(https://drugclip.com)面向全球科学家免费开放。

(来源:https://drugclip.com)
打开网易新闻 查看精彩图片
(来源:https://drugclip.com)

自此以后,任何一位研究人员即使没有太强的计算资源,也可以轻松查询到自己感兴趣的靶点,快速获得一些经过 AI 预筛选的候选化合物,并以此作为药物研发的起点。这极大地降低了早期药物发现的壁垒,尤其有助于针对那些冷门但是重要的疾病靶点开展研究。

(来源:https://www.science.org/doi/10.1126/science.ads9530)
打开网易新闻 查看精彩图片
(来源:https://www.science.org/doi/10.1126/science.ads9530)

清华大学智能产业研究院(AIR)博士后贾寅君、计算机系博士生高博文、生命学院博士后谭佳鑫、化学系博士后郑济青以及智能产业研究院(AIR)博士后洪鑫是本次论文的共同一作;通讯作者为智能产业研究院(AIR)兰艳艳教授,清华大学生命学院张伟副教授、闫创业副教授以及清华大学化学系刘磊教授。

在后续计划上,贾寅君表示将主要围绕两大方向:一是提升优化AI发现的分子的安全性及成药性,使其更接近实际制药应用;二是进一步提高AI模型准确性与分子效力,增强初筛分子的生物学活性。这两方面均是未来真正实现AI终结一切人类疾病需要攻克的关键问题。

参考资料:

相关论文:https://www.science.org/doi/10.1126/science.ads9530

兰艳艳官方主页:https://yanyanlan.com/

运营/排版:何晨龙