当地时间 7 月 15 日,美国华盛顿大学大卫·贝克(David Baker)教授和白敏京(Baek Min-kyung)博士在 Science 发论文,表示揭开了 RoseTTAFold 人工智能程序的面纱,该程序不仅可以预测蛋白质的结构,还可以预测蛋白质之间的结合形式。

图 | Science 的相关论文(来源:资料图)

同一天,英国人工智能公司 DeepMind 的 CEO Demis Hassabis 和 John Jumper 博士在 Nature 上发表的论文,公布了用于破译蛋白质结构的人工智能 AlphaFold2 的详细信息。为和 Science 同日抢发论文,Nature 特意在论文标题开头备注:“这是一份未经编辑的手稿,已被接受出版。Nature Research 正在为我们的作者和读者提供这份手稿的早期版本。”

图 | Nature 的相关论文(来源:资料图)

DeepMind 透露,AlphaFold 2 可在几分钟内破译一般蛋白质的三维结构,还可以预测一个由 2180 个氨基酸相连的大蛋白质的结构。华盛顿大学的研究人员则使用 Rosettafold 破译了其他研究人员已经发送的 4500 多种蛋白质的结构。

(来源:资料图)

DeepMind 本次在《自然》杂志上发表了更详细的方法,代码可在 GitHub 上找到,概括来说 AlphaFold2 程序解决了 50 年前生物学中的一个基本问题:蛋白质如何获得其结构。

图 | 截图来自 DeepMind 本次在《自然》发表的论文(来源:资料图)

据了解,蛋白质几乎参与人体的所有生命现象,从催化化学反应的酶、到对抗病毒的抗体和激素、以及作为信号物质的胰岛素。生物体会根据构成基因 DNA 的四个碱基的排列,以各种方式连接 20 个氨基酸。打个比方,如果蛋白质是房子,DNA就是蓝图,氨基酸则是砖块。

问题在于蛋白质不在氨基酸链中,而是折叠形成三维结构,这就像钥匙和锁一样,各种蛋白质相互结合从而去影响生命现象。

通过将氨基酸链折叠在一起来创建三维结构的过程有很多变量,以至于仅使用遗传信息很难预测三维结构。相反,科学家们用 X 射线分析了蛋白质晶体结构,到目前为止,已经有超过 100000 种蛋白质的结构被这种方法破译,但这只是数十亿蛋白质中的一小部分。

而 DeepMind 将人工智能引入蛋白质结构预测,此前早已引起轰动。去年 12 月,DeepMind 的人工智能 Alpha Fold 2 获得的结果与科学家之前通过蛋白质结构预测竞赛的实验揭示的结果几乎 90% 一致。当时,《科学》杂志说,“科学研究的游戏已经改变了。”

DeepMind 的科学家将有关 17000 个结构的信息输入到 Alphafold 中,这些结构在生物中发现的 2 亿种蛋白质中得到了确认。基于这些信息,人工智能自我识别了遗传信息与蛋白质三维结构之间的关系。它让人类无需实验即可了解蛋白质结构。事实上,此前 Alphafold 还在 30 分钟内解决了一个 10 年没有被揭示的蛋白质结构。

图 | 截图来自 DeepMind 本次在《自然》发表的论文(来源:资料图)

而在这次,华盛顿大学 Baker 教授和 Baek Min-kyung 博士基于 DeepMind 的研究开发了自己的 AI 方法,给定一个未知蛋白质,AI Rosettafold 在蛋白质数据库中搜索相似的氨基酸序列,同时另一个 AI 预测蛋白质内部氨基酸连接的形式,第三个 AI 呈现三维结构。随着这个过程的重复,每个 AI 呈现的结果都会得到改进。

(来源:资料图)

在一次采访中,Baker 承认 Alphafold 2 更准确。不过,比利时根特大学的 Sabbath Sabides 教授告诉《科学》杂志,“Baker 教授的 AI 算法更好地捕捉了蛋白质结构的核心和特征。” Rosettafold 不仅可以预测单个蛋白质的三维结构,还可以预测几种蛋白质的结合形式。据研究人员称,全球已有 140 多个研究小组从代码共享平台 GitHub 下载了 Rosettafold。

图 | Baker 教授(来源:资料图)

另一方面,众所周知,《自然》急于发表 Deep Mind 论文,以与《科学》的论文保持同步。6 月,当 Baker 教授在论文预发表网站上发布 Rosetta Fold 研究的结果时,DeepMind 的 CEO Hassabis 告诉社交媒体,Alpha Fold 2 的细节正在编写和评估中。

当天接受《科学》杂志采访时,Baek Min-kyung 博士评价说:“既然我们的研究是基于 DeepMind 的成果,那他们的论文理应在我们之前或同时发表。” 据了解,Baek Min-kyung 博士在首尔国立大学获得博士学位,目前在华盛顿大学担任博士后研究员。

图 | 截图来自华盛顿大学团队本次在《科学》发表的论文(来源:资料图)

AlphaFold 之所以会受到如此关注,是因此前很少有机器学习和生物相结合、且真正能解决重要实际问题的成果。从 DeepMind 发表在《自然》上的第一版论文来看,其使用的机器学习算法都是已有技术,且主要涉及到卷积神经网络。

自 2020 年 11 月以来,AlphaFold2 一直是业界话题,当时它击败了 CASP14,这是算法之间的虚拟竞争,旨在根据构成蛋白质的氨基酸序列预测蛋白质的物理结构。

DeepMind 的模型遥遥领先于其他模型,准确度又高又可靠。但未尽人意的是 DeepMind 没有详尽和公开地描述相关计划。

商汤研究院研究执行总监、智源青年科学家代季峰曾此前告诉 DeepTech,从深度学习领域来看,AlphaFold2 并不是理论上的原创性突破,它是把现在最好的深度学习算法,跟具体的领域知识结合起来,然后产生出较大的应用突破。它的应用前景主要是在结构生物学上,即提供测试蛋白质三三维结构的新方法。以前主要用冷冻电镜和 X 射线衍射,需要很多人工实验,现在 AlphaFold2 未必比前面两种方法准确,但会节省很多钱力和人力。

“算力的提升,使得 AlphaFold 可在短时间内测试大量不同的算法”,说到 AlphaFold 表现优异的原因之一,加州理工学院博士后研究员陈子博告诉 DeepTech。

“这可能是首个有望获得诺贝尔奖的人工智能成果。但它的突破肯定是在生物学领域”,一位业内专家告诉 DeepTech。

而 AlphaFold 之所以引起追捧,是因为预测蛋白质结构,是个超级科学难题。原北京协和医学院教授、目前从事肿瘤药物研发的王晨光博士告诉 DeepTech,他在 30 几年前读大学时,老师就曾提到蛋白质从确定的一级结构和二级结构到三级结构的不可预测性。

半个多世纪以来,学界一直在探索如何解决该问题。在上世纪九十年代,人们就意识到如果数据足够多、算力足够强,用机器预测蛋白质结构就会成为现实。以电脑跟人下象棋为例,随着算力的提升,就连国际象棋冠军也下不过电脑。后来,人们认为在围棋上,机器应该无法超越人类,因为围棋有 219×19 各种变化。

但没想到仅十几年光景,谷歌的 AlphaGo 就已打败世界围棋冠军李世石。而 AlphaFold 同样代表着人类对此方向的追求,其中包括在算法上训练如何破解蛋白质结构和验证晶体结构等。

机器掌握住规律之后,就能不知疲倦地工作,于是才有了今天的竞赛成绩。王晨光表示,之所以比较轰动,是因为这个生物医学领域内公认的长期难以克服的难题终于有了量级的突破。

图 | 截图来自华盛顿大学团队本次在《科学》发表的论文(来源:资料图)

能否让老百姓买药更便宜?

谈及 AlphaFold 对普罗大众的意义,陈子博表示,现在很多药物都是将人体细胞内某些特定的蛋白作为靶点,如果将 AlphaFold 和制药结合起来,在预测蛋白和小分子相互作用方面有所突破,那么将会极大加速新药的研发进程,同时降低制药的成本。

王晨光也表示,本次突破在生物制药领域的重要意义显而易见。传统的靶向药物,靶点大多是蛋白质。以肺癌药物为例,以 EGFR 蛋白质为靶点的药物过去 20 几年一直是研发热点。有了 AlphaFold 之后,它必然会给制药领域带来帮助。

因为很多药物的靶点蛋白质,寻找在蛋白质结构上找到能够被药物攻击的地方。因此如果不知道蛋白质结构,制药往往是 “两眼一抹黑”,只有知道它的结构,才可以有目的地根据其结面设计一些化合物。

仍以肺癌靶向药物的 EGFR 为例,肿瘤在药物的选择压力下,用一种药物一段时间后往往不反应了,后来发现是基因发生了突变。而基因突变的后果是其表达产物蛋白质的氨基酸序列发生了变化。因此,开发另外一种针对该突变蛋白质的药物变成了临床需求。

图 | 截图来自华盛顿大学团队本次在《科学》发表的论文(来源:资料图)

AlphaFold 应该可以很容易地对突变后的蛋白质结构做到预测,对下一代新药研发将有极大帮助。此外,王晨光对 AlphaFold 的应用很是期待,他说从事药物研发的人,即便没有晶体结构等专业知识,也能通过 AlphaFold 来输入蛋白质名称,然后就可直观观察蛋白质结构,这将缩减制药环节中药物发现的流程。

当药企可以有的放矢地设计药物,那么药物研发周期也就相应可以缩短,这样等于在药物成分和功效不变的情况下,制药速度更快,那么老百姓买到的药物或许就能更便宜。

有望提高研究人员工作效率

有人说,AlphaFold 让老师和同学们都解放了,从此不再受制于结构解析手段,并能很快拿到结构、去探讨结构生物学核心问题。对于该说法,陈子博表示,这得看具体想解决的问题,结构生物学研究需要的结构,一般需要很高的精度,需要精确到每个残基的精确位置,这是 AlphaFold 目前还不能提供的。

从一定程度上来讲,有了 AlphaFold 以及同类应用,以后破解静态蛋白质结构会比以前更省劲,但并不是说学生不再需要努力。因为,AlphaFold 毕竟还达不到 100% 的准确性,学生想要了解一个蛋白质结构,在使用 AlphaFold 预测之后,仍然需要再通过其他方式来验证。但无论如何,AlphaFold 预测的参数,都能在破解蛋白晶体结构方面,给予人类很大帮助。