黄仁勋对话Transformer论文七大作者，大模型的起点、现在和未来 | Hello Tech|transformer|大模型|英伟达|首席执行官|黄仁勋

在英伟达GTC大会的几百场活动里，英伟达创始人黄仁勋和Transformer论文作者们的对谈是其中最受关注的场次之一。

谷歌2017年发表了论文《Attention is all you need》，提出Transformer架构。该架构后来成为了大语言模型的底层基石，这篇文章的八位联名作者也被称为“Transformer八子”。如今，他们已经离开谷歌，成为AI公司的创始人或者核心技术骨干。

“八子”中，除了EssentialAI的联创Niki Parmar因故临时缺席，其他七位都参与了GTC的活动，他们分别为：Essential AI联合创始人兼CEO Ashish Vaswani，Character.AI 联合创始人兼CEO Noam Shazeer，Inceptive联合创始人兼CEO Jakob Uszkoreit，Sakana AI联合创始人兼CTO Llion Jones，Cohere联合创始人兼CEO Aidan Gomez，OpenAI 技术人员Lukasz Kaiser，NEAR Protocol联合创始人Illia Polosukhin。这是七位作者首次在公开场合集体亮相。

在这波生成式AI浪潮中，提供算力支持的英伟达与Transformer奠基人都扮演了不可或缺的角色，这使得双方的对话有了特殊的象征意义。

以下为内容实录，略有删减。

黄仁勋：自1964年以来，现代计算并没发生过根本性改变。尽管在20世纪八九十年代，计算机经历了一次重大的转型，形成了我们熟悉的形态。

但随着时间的流逝，计算机的边际成本持续下降，且降低幅度非常之大，在二十年的时间里，计算机的成本几乎降低了一万倍，这种变化为社会带来了巨大的动力。但达到一个临界点之后，计算成本的大幅下降停止了，虽然每年仍有略微的改进，变化的速度已经放缓。

英伟达创始人黄仁勋 | 来源：NVIDIA GTC

我们开始追求加速计算，这并不容易，是一个全新的领域。我们相信，如果能够加速哪怕1% 的代码，节省99%的运行时间，将获得巨大的好处。在这方面的探索为生成式AI的发展奠定了基础。

我们有理由相信，这是新的工业革命的开端。我们正在创造一些以前从未存在过的东西。就像以前的工业革命，水进入工厂，发电机开始运转，产生了电。新的设施创造了具有巨大价值的新产品。

生成式AI是一种全新类型的软件，它可以进行大规模生产。当给它提供“数据”原材料，它进入GPU后，就能输出令人惊奇的“能量”。我们所熟知的每一个行业都将受益于这种全新的产品，我们正在见证“AI工厂”的诞生。

一场新的工业革命正在展开，不要错过接下来的十年。因为在这十年里，我们将创造出巨大的生产力。

今天我们邀请了Transformer的创造者们，《Attention is All you need》论文的作者，我们将会讨论 Transformer 的重要性和意义，它不可思议的变革能力，以及对行业的影响。欢迎他们的到来。

黄仁勋和 Transformer 七位作者 | 来源：NVIDIA GTC

回到起点，Transformer是如何被创造的

黄仁勋：你们当时遇到了什么问题或挑战，启发你们去做Transformer？

Illia Polosukhin：当时需要能够真正读取搜索结果的模型，比如处理成堆的文档，要模型能迅速处理这些信息。但当时的循环神经网络（RNN）并不能满足这样的需求，RNN需要逐个单词地阅读，效率不高。

Jakob Uszkoreit：我们生成训练数据的速度超过了我们训练最先进架构的进展。当时我们使用的是更简单的架构，由于训练速度更快，大量的训练数据通常都能超越当时更先进、更强大的网络。我们意识到了这一点，修复这个问题似乎是有价值的。

Noam Shazeer：看起来这是一个亟待解决的问题。我们在2015年左右就已经开始注意到这些Scaling Law，可以看到随着模型规模的增大，它的智能程度也随之提高。你只是在预测下一个token，它就会变得如此聪明，能够做一百万个不同的事情，所以你会想扩大规模并让它变得更好。

而一个巨大的挫败感在于，RNN处理起来实在是太麻烦了。然后我偶然听到他们在讨论，让我们用卷积或者注意力机制来取代它。我想这太好了，我喜欢把Tansformer比作是从蒸汽机到内燃机的飞跃。我们可以用蒸汽机完成工业革命，但那将会非常痛苦，而内燃机让一切都变得更好。

Noam Shazeer，Character.AI 首席执行官兼联合创始人 | 来源：NVIDIA GTC

Ashish Vaswani：我在研究生时期就学到了一些教训，尤其在我从事机器翻译工作的时候。我们训练这些模型的方法“梯度下降”（Gradient Descent）是一个比我更出色的老师。所以我不会去学习这些规则，我只会让梯度下降为我完成所有工作。

我从这些经验教训中学到的是，那些可以扩展的通用架构最终将胜出。今天是token，明天可能就是我们在计算机上采取的行动，它们将开始模仿我们的活动，并能够自动化我们所做的许多工作。正如我们所讨论的，Transformer特别是自注意力机制，具有非常广泛的适用性，它也让梯度下降变得更好。另外就是物理学，矩阵乘法是个好主意。

Noam Shazeer：这个模式一直在重复出现。所以每次添加一堆规则时，梯度下降终将比你更擅长学习这些规则。就像我们一直在做的深度学习一样，我们在构建一个GPU形式的AI模型。而现在，我们正在构建一个超级计算机形式的AI模型。

黄仁勋：所以你们要解决什么问题？

Lukasz Kaiser：机器翻译。回想五年前，这个过程似乎非常艰难，得搜集数据，进行翻译，可能会出现一些翻译错误，那时只能达到基础水平。现在这些模型即使没有数据也能自行学会翻译。这种能力就像自然而然涌现出来的，而且效果令人满意。

黄仁勋：谁想出了Attention is all you need这个名字？

Llion Jones，SakanaAI 联合创始人兼首席技术官 | 来源：NVIDIA GTC

Llion Jones：我想出了这个标题，在我们寻找标题的时候，我们把模型的一些碎片包括卷积扔掉，只是为了看看它会不会变得更糟。令我们惊讶的是，它开始变得更好，这就是标题的来源。

Ashish Vaswani：有趣的是，我们实际上是从一个最基本的框架开始的，然后我们添加了卷积等东西，后来又把它们去掉了，还有多头注意力等其他很多非常重要的东西。

黄仁勋：谁提出了Transformer这个名字？为什么叫Transformer？

Jakob Uszkoreit：我们喜欢这个名字，觉得它很有创意，改变了我们的数据生产模式。所有的机器学习都是Transformer，都是颠覆者。

Noam Shazeer：我之前想过很多其他的名字，最终确定了“Transformer”，它描述了模型的原理（几乎所有的机器学习都会被转换）。

Llion Jones：之所以取Transformer这个名字，因为我们我们意识到，我们实际上是在尝试创造一些非常通用的东西，希望以一种更概括的方式来描述这种变革和转化，而不仅是在翻译领域，虽然我们当时没有预测到Transformer的表现会这么出色。

黄仁勋：当 Transformer 被用于图像时，这是一个相当令人惊讶的尝试。

Aidan Gomez：这些想法在很早之前就已经存在了，一直在酝酿。我们有这些学术数据集，从图像到文本，再从文本到图像，从音频到文本，从文本到文本。我们应该对所有内容进行训练。这个想法真正推动了模型进行扩展。现在OpenAI和许多人都在做类似的事情。

我认为北极星第一天就存在，所以看到这一切正在发生，是非常令人兴奋满足的。

Aidan Gomez，Cohere 联合创始人兼首席执行官 | 来源：NVIDIA GTC

Transformer正在带来哪些变革

黄仁勋：transformer正普遍应用在不同领域，比如你们正在将它用于生物学？

Jakob Uszkoreit：我们将其称为生物软件，类似于计算机软件，它起初是一个程序，然后编译成可以在GPU上运行的形式。生物软件始于对特定行为的需求，比如在细胞中生成大量特定蛋白质，然后通过深度学习将其转译成 RNA 分子。但实际上，一旦它们进入细胞，它们就会表现出这些行为。所以，transformer这个概念从最开始把语言翻译成计算机代码，扩展到转化为特定的分子药物。

黄仁勋：你们是否为此创建了一个大型的实验室？

Aidan Gomez：有大量极其有价值的基因组数据可以下载，基本是公开的、公共资助的。但实际上，你仍然需要数据，来明确地解释你在模拟的现象。例如针对某种产品，比如mRNA疫苗中的蛋白质表达。

我们希望成为一种新事物的先驱者，致力于实际创建这些数据，并验证设计这些分子的模型。

黄仁勋：在架构的强化和突破中，你们看到的关键节点是什么？它们对Transformer的设计有什么影响？

Aidan Gomez：我认为在推理方面，已经有大量的工作来加速这些模型，使它们更有效率。

但我仍然感到不安，因为它与我们以前的形式非常相似。我认为世界需要比Transformer更好的东西，我想我们在座的所有人都希望它能被某种东西所取代，将我们带到一个新的性能高地。

Llion Jones：人们会惊讶于你说的这种相似程度，也喜欢问我接下来会发生什么，因为我是这篇论文的作者。就像魔法一样，你挥动魔法棒，下一步会出现什么？我想指出的是，我们需要的是“明显”地变得更好。如果它只是稍微好一点，还不足以将整个人工智能行业推向新事物。

黄仁勋：每个人的工具集都是不同的，你们想要改进的属性是什么呢？是想要改进生成能力，还是想要更快？

Jakob Uszkoreit：现在人们使用的计算量太大了，他们浪费了很多计算资源。我觉得这主要是关于如何分配资源，而不是一共消耗了多少资源。比如我们不希望在一个容易的问题上耗费太多，或者在一个太难的问题上投入太少，而最终得不到解决方案。

Illiya Polosukhin：我认为自适应计算是接下来必须出现的事情之一，这样我们就知道在特定问题上应该花费多少计算资源。

Illia Polosukhin，NEAR Protocol 联合创始人 | 来源：NVIDIA GTC

Aidan Gomez：一些作者已经发布了跟进通用Transformer的论文，在解决这个问题。

Ashish Vaswani：我们最初的目标是模拟token的演变，实现线性生成。现在这个过程也适用于图像，扩散模型会迭代地进行改进和完善。根本的问题是，哪些知识应该存在于模型内部，哪些应该存在于模型外部？例如，推理应该在外部进行，这是一个效率的讨论。

黄仁勋：能快速分享一下你们为什么创办（或加入）各自的公司吗？

Ashish Vaswani：EssentialAI的目标是构建模型并解决新的任务。我们的工作是理解任务的目标和内容，并随着这些内容的变化来满足客户的需求。从2021年开始，我发现模型最大的问题在于，你不能仅仅让模型变得更聪明，你还需要找到合适的人来解读这些模型。我们希望让这个世界与模型相互交融，使模型变得更加庞大和卓越。

Ashish Vaswani，EssentialAI 联合创始人兼 CEO | 来源：NVIDIA GTC

Noam Shazeer：我创立了Character.AI，因为我觉得我们拥有如此出色的技术，但这项技术并没有惠及很多人。技术不断发展，得益于黄仁勋的推动，我们的终极目标是帮助全世界的人们。我们现在需要开发更快的解决方案，让数百人能够使用这些应用程序。

Jakob Uszkoreit：我想谈谈Inceptive在做的生物软件。我们的目标是解决一些真正具有科学影响力的问题。在 AlphaFold 2发布蛋白质结构预测结果几周后，我对这一技术产生了浓厚的兴趣。而AlphaFold 2与AlphaFold 1之间的一个重大区别在于，他们开始使用Transformer，并用它替换了模型或架构的其余部分。很明显这些技术已经可以在分子生物学领域发挥作用。几周后，mRNA 新冠疫苗的有效性结果就出来了。

Llion JonesLlion Jones：我们参与创立的公司叫做Sakana AI，意思是“鱼”。我们选择这个名称是因为希望激发人们对鱼群的联想。我们的目标是实现自然启发的人工智能，就像一群小鱼一样简单，但当将许多简单的元素聚集在一起时，它们就会变得相当复杂。

我们即将开源一些研究成果。目前流行的趋势是模型融合，但这通常需要人工完成。我们并不是人工合并这些模型的算法，而是利用了大量的计算资源，使用进化计算来搜索及合并。

Aidan Gomez：我创立Cohere的初衷与Noam Shazeer相似。我认为计算机正在进入一种新的模式，它正在改变现有的产品和我们的工作方式。我们为企业创建了一个平台，让企业能将这种新技术融合到他们产品中。这是我们推进技术的方式，让技术变得更加普及，帮助企业使用技术。

Lukasz Kaiser：我选择加入OpenAI，因为当时那里有最好的Transformer模型。公司里充满了乐趣，我们处理大量数据，进行海量计算，产出很不错的结果。

Lukasz Kaiser，OpenAI 技术人员 | 来源：NVIDIA GTC

Illiya Polosukhin：我坚信我们将取得重大进展，软件将改变整个世界，深度学习将改变软件。最直接的方式就是教会机器编写代码，让编程对每个人都变得可及。

NEAR致力于协助人们获取相关数据，我们最终意识到我们需要可编程货币，所以我们建立了NEAR Protocol，这是一个区块链，自2020年以来一直在运行。这个协议在区块链领域拥有最多的用户。我们正处于一个新的时代，过去奖励创作者的方式已经失效。新的方法是通过可编程货币和区块链。因此，我们希望创建一种新的方式让人们可以贡献数据。

大模型下一步将走向何方

黄仁勋：GPT大模型正在训练十万亿token数据库的时代，几乎和整个互联网规模一样大，下一步要探索哪些技术？新的数据来源将来自哪里？

Illia Polosukhin：数据需要来自用户的交互，这需要大规模的平台，人们要从中获得经济价值，以持续这些交互。在后台，你可以将数据导入到模型中，使它们变得更智能。

黄仁勋：你如何对模型进行预训练？如何产生最初的互动？是让模型之间进行交互吗？

Llion Jones：推理是下一个重要的发展方向。很多人已经意识到了这一点。目前很多工作都是由人来设计和进行的，我们要探索强有力的推理模式，让模型生成我们想要的内容。

Jakob Uszkoreit：我们希望模型生成的内容能够符合人类的消费需求，因此，任何类型的视频、音频、任何观察世界所获得的信息，包括时序信息，都应该被纳入到训练数据中。

Jakob Uszkoreit，Inceptive 联合创始人兼首席执行官 | 来源：NVIDIA GTC

Lukasz Kaiser：推理和从小样本数据中学习之间的关系非常密切。如果你有一个能够进行推理的模型，你只需要一点点数据，它就会进行一系列的推理，从中产生结果，因为它在推理过程中进行了大量计算，类似人类的思考系统。

这将极大地减少我们需要的数据量，但数据的质量将变得更加重要，这来自人们与现实世界的互动。因此，我认为会出现一个新时代，仍然会有一些大规模的预训练模型，但更重要的可能是通过人们的互动产生高质量的数据。

Ashish Vaswani：这个领域取得了很大进展，可以将大规模的现实世界任务分解为更简单的任务，模型可以完成其中的一些任务，然后部署并获取更多数据。一旦这个循环闭合，它们就可以去处理更复杂和抽象的任务，类似我们发展自动化的过程。

黄仁勋：你们有没有想跟对方探讨的问题？

Llion Jones：早期模型所面临的问题可能在一定程度上也存在于当前的模型中。因此，未来可能会出现混合模型。

Illia Polosukhin：Transformer 模型中的自注意力机制可以视为一种递归步骤，在每个步骤中，模型都会根据输入中的不同部分来更新信息。这种递归性质使得模型能够在每个步骤中对输入进行增强和推理。然而，有趣的是，目前很少有人探索通过连接不同数量的递归步骤来训练模型，这可能是一个值得研究的方向。

有时候并不需要固定数量的步骤，而是需要根据输入的复杂程度来动态调整递归步骤的数量。这种动态调整可能会使模型更加灵活，能够更好地处理不同类型的输入和任务。

Lukasz Kaiser：对于如何使用梯度下降来完全学习循环神经网络（RNN）的训练，我们尚未完全掌握。可能需要用不同的方式训练，而不是梯度下降。

黄仁勋：很高兴与各位交流，希望下次你们的互动会带来惊人的魔法，整个行业都感激你们所做的工作。

Reference：