DeepMind 的 AlphaFold2 揭示：卷积OUT了，注意力机制上位！|alphafold|deepmind|神经网络|自然|蛋白质

我们对AlphaFold 2的工作原理已有了深入了解，但蛋白质为何以其特有的方式折叠仍然是个谜。

谷歌的AI部门DeepMind几年前发明了战胜国际象棋冠军的神经网络AlphaZero，去年11月再次震惊了全世界，其程序破解了困扰几十年的蛋白质折叠问题。该程序轻松击败了所有竞争对手，一位研究人员称之为“分水岭时刻”，有望彻底改变生物界。

AlphaFold 2当时在DeepMind的一篇博文和DeepMind 为提交这款程序以参加的大赛提供的论文摘要中只进行了简短的描述。大赛名为“蛋白质结构预测关键技术评估大赛”（CASP），两年一度。

上周，DeepMind终于披露了详情，不仅发表了一篇博文，还提供了DeepMind的John Jumper及其同事在《自然》杂志上撰写的16页长的总结论文、62 页的补充材料以及GitHub上的代码库。《自然》杂志的Ewan Calloway撰文介绍了新的细节，称DeepMind披露的数据意味着“蛋白质结构走向大众化”。

那么，我们了解了什么？好些方面。顾名思义，这个神经网络是第一代AlphaFold的后续版，第一代AlphaFold在2018年的上一场大赛中也击败了竞争对手。AlphaFold 2给人最直接的启示是，AI方面取得进步可能需要所谓的架构变化。

软件程序的架构是所使用的特定操作集及其组合方式。第一代AlphaFold由卷积神经网络（即CNN）组成，这是一种经典神经网络，在过去十年为许多AI突破立下了汗马功劳，比如在ImageNet计算机视觉大赛中取得胜利。

但是卷积过时了，现在流行图（graph）。或者更具体地说，现在流行图网络与所谓的注意力（attention）的结合体。

图网络是指可以从事物的相关性以及它们如何通过友谊（比如社交网络中的人）相关联这方面评估事物的集合。在这种情况下，AlphaFold使用有关蛋白质的信息来构建一个图，表明不同的氨基酸彼此相距有多近。

这些图由在AI的许多领域越来越受欢迎的注意力机制来操纵。广义上讲，注意力是为某些输入数据添加额外计算能力的做法。利用注意力的程序已在众多领域带来了突破，尤其是在自然语言处理领域，谷歌的Transformer就是佐证。

第一代AlphaFold中使用卷积的部分在Alpha Fold 2中已被摈弃，取而代之的是一大堆注意力机制。

使用注意力机制在AlphaFold2中很普遍。AlphaFold的第一个部分是所谓的EvoFormer，它使用注意力来集中处理计算每个氨基酸与另一个氨基酸的关系图。由于图中创建的几何形态，Jumper及其同事将这种评估图的操作称为“三角自注意力”（triangle self-attention）。

与自然语言程序相呼应，EvoFormer让三角注意力可以将信息发回到氨基酸序列组（名为“多重序列比对”，即MSA），生物信息学中的这个常见术语是指逐一比较相关的氨基酸序列。

论文作者认为MSA和图因注意力而处于某种对话中——他们称之为“联合嵌入”（joint embedding）。因此，注意力促成了程序各部分之间的联系。

继EvoFormer之后，AlphaFold 2的第二个部分是所谓的结构模块（Structure Module），它负责将EvoFormer构建的图转换成蛋白质3-D结构的规格，其结果赢得了CASP大赛。

在这里，作者们引入了一种可以单独计算蛋白质各部分的注意力机制，名为“不变点注意力”机制。他们称之为“可感知几何形状的注意力操作”。

结构模块在空间中的某个原点启动粒子，你可以将其视为3-D参考场（名为“残余气体”），随后进而旋转和移动粒子，以形成最终的3-D结构。同样，重要的是使用注意力机制，彼此独立地转换粒子。

为什么图和注意力取代卷积很重要？在去年为研究提供的原始摘要中，Jumper及同事指出，需要将目光转移到所谓的“局部”结构之外的领域。

回到AlphaFold 1，卷积神经网络的工作原理是测量氨基酸之间的距离，然后将所有氨基酸对的测量结果汇总为二维图，名为距离直方图（即distogram）。然后，CNN以其方式来仔细研究该图，从而找到局部模体（motif），而局部模拟构成跨越远距离的越来越广泛的模体。

但是，从局部模体依次铺开的这种做法会忽略远程依赖，而远程依赖是注意力应捕获的重要元素之一。比如说，EvoFormer中的注意力机制可以将三角注意力机制中学到的内容与搜索MSA中学到的内容联系起来——不仅仅是MSA的一个部分，而是相关氨基酸序列的整个集合。

因此，注意力带来了本质上更具“全局性”的突破。

我们在AlphaFold中看到的另一点是端到端目标。在第一代AlphaFold中，物理结构的最终装配完全取决于卷积以及它们得出的结果。

而在AlphaFold 2中，Jumper及其同事强调了“端到端”训练神经网络。正如他们所说：

“在结构模块和整个网络中，我们通过反复将最终损耗运用于输出，然后将输出反复馈送给相同的模块，从而强化迭代优化这一概念。使用整个网络的迭代优化（我们称之为“回收”，与计算机视觉中的方法有关）仅用少许的额外训练时间，就可以显著提高准确性。”

因此，AlphaFold 2的另一大启示是这个概念：神经网络确实需要不断改进其预测。对回收操作如此，其他方面也是如此。比如说，制作氨基酸图的EvoFormer可在EvoFormer的多个阶段（即所谓的“block”）中的每个阶段修正这些图。Jumper及其团队将这种持续更新称为整个网络的“持续沟通”。

论文作者特别指出，通过不断修正，程序的结构部分似乎“顺畅地”优化蛋白质模型。他们写道：“AlphaFold对结构不断地进行逐步改进，直到再也无法改进为止。”有时，这个过程“很贪婪”，这意味着结构模块在处理层的早期就找到了一个好的解决方案；有时，需要花较长的时间。

无论如何，在这种情况下，训练神经网络或网络组合的好处似乎肯定成为许多研究人员强调的重点。

除了这一大启示外，AlphaFold 2的核心仍有一大谜团：为什么？

即为什么蛋白质以其特有的方式折叠？AlphaFold 2展示了宇宙中的每一个蛋白质揭示其结构的前景，这又是一项努力了数十年的成就。但是AlphaFold 2并没有解释为什么蛋白质会呈现出其形状。

蛋白质是氨基酸，使它们卷曲成特定形状的力相当简单——比如某些氨基酸被正电荷或负电荷吸引或排斥，而某些氨基酸“恐水”，这意味着它们远离水分子。

但论文作者仍未解释为什么某些氨基酸呈现出如此难以预测的形状。

AlphaFold 2在构建将序列数据转换成蛋白质模型的机器方面取得了非凡的成就，但我们可能需要等待对该程序本身的进一步研究，才能了解它在蛋白质行为方面告诉我们的全局信息。

参考链接：https://www.zdnet.com/article/deepminds-alphafold-2-reveal-what-we-learned-and-didnt-learn/