在英伟达GTC大会的几百场活动里,英伟达创始人黄仁勋和Transformer论文作者们的对谈是其中最受关注的场次之一。

谷歌2017年发表了论文《Attention is all you need》,提出Transformer架构。该架构后来成为了大语言模型的底层基石,这篇文章的八位联名作者也被称为“Transformer八子”。如今,他们已经离开谷歌,成为AI公司的创始人或者核心技术骨干。

“八子”中,除了EssentialAI的联创Niki Parmar因故临时缺席,其他七位都参与了GTC的活动,他们分别为:Essential AI联合创始人兼CEO Ashish Vaswani,Character.AI 联合创始人兼CEO Noam Shazeer,Inceptive联合创始人兼CEO Jakob Uszkoreit,Sakana AI联合创始人兼CTO Llion Jones,Cohere联合创始人兼CEO Aidan Gomez,OpenAI 技术人员Lukasz Kaiser,NEAR Protocol联合创始人Illia Polosukhin。这是七位作者首次在公开场合集体亮相。

在这波生成式AI浪潮中,提供算力支持的英伟达与Transformer奠基人都扮演了不可或缺的角色,这使得双方的对话有了特殊的象征意义。

以下为内容实录,略有删减。

黄仁勋:自1964年以来,现代计算并没发生过根本性改变。尽管在20世纪八九十年代,计算机经历了一次重大的转型,形成了我们熟悉的形态。

但随着时间的流逝,计算机的边际成本持续下降,且降低幅度非常之大,在二十年的时间里,计算机的成本几乎降低了一万倍,这种变化为社会带来了巨大的动力。但达到一个临界点之后,计算成本的大幅下降停止了,虽然每年仍有略微的改进,变化的速度已经放缓。

打开网易新闻 查看精彩图片

英伟达创始人黄仁勋 | 来源:NVIDIA GTC

我们开始追求加速计算,这并不容易,是一个全新的领域。我们相信,如果能够加速哪怕1% 的代码,节省99%的运行时间,将获得巨大的好处。在这方面的探索为生成式AI的发展奠定了基础。

我们有理由相信,这是新的工业革命的开端。我们正在创造一些以前从未存在过的东西。就像以前的工业革命,水进入工厂,发电机开始运转,产生了电。新的设施创造了具有巨大价值的新产品。

生成式AI是一种全新类型的软件,它可以进行大规模生产。当给它提供“数据”原材料,它进入GPU后,就能输出令人惊奇的“能量”。我们所熟知的每一个行业都将受益于这种全新的产品,我们正在见证“AI工厂”的诞生。

一场新的工业革命正在展开,不要错过接下来的十年。因为在这十年里,我们将创造出巨大的生产力。

今天我们邀请了Transformer的创造者们,《Attention is All you need》论文的作者,我们将会讨论 Transformer 的重要性和意义,它不可思议的变革能力,以及对行业的影响。欢迎他们的到来。

打开网易新闻 查看精彩图片

黄仁勋和 Transformer 七位作者 | 来源:NVIDIA GTC

01

回到起点,Transformer是如何被创造的

黄仁勋:你们当时遇到了什么问题或挑战,启发你们去做Transformer?

Illia Polosukhin:当时需要能够真正读取搜索结果的模型,比如处理成堆的文档,要模型能迅速处理这些信息。但当时的循环神经网络(RNN)并不能满足这样的需求,RNN需要逐个单词地阅读,效率不高。

Jakob Uszkoreit:我们生成训练数据的速度超过了我们训练最先进架构的进展。当时我们使用的是更简单的架构,由于训练速度更快,大量的训练数据通常都能超越当时更先进、更强大的网络。我们意识到了这一点,修复这个问题似乎是有价值的。

Noam Shazeer:看起来这是一个亟待解决的问题。我们在2015年左右就已经开始注意到这些Scaling Law,可以看到随着模型规模的增大,它的智能程度也随之提高。你只是在预测下一个token,它就会变得如此聪明,能够做一百万个不同的事情,所以你会想扩大规模并让它变得更好。

而一个巨大的挫败感在于,RNN处理起来实在是太麻烦了。然后我偶然听到他们在讨论,让我们用卷积或者注意力机制来取代它。我想这太好了,我喜欢把Tansformer比作是从蒸汽机到内燃机的飞跃。我们可以用蒸汽机完成工业革命,但那将会非常痛苦,而内燃机让一切都变得更好。

打开网易新闻 查看精彩图片

Noam Shazeer,Character.AI 首席执行官兼联合创始人 | 来源:NVIDIA GTC

Ashish Vaswani:我在研究生时期就学到了一些教训,尤其在我从事机器翻译工作的时候。我们训练这些模型的方法“梯度下降”(Gradient Descent)是一个比我更出色的老师。所以我不会去学习这些规则,我只会让梯度下降为我完成所有工作。

我从这些经验教训中学到的是,那些可以扩展的通用架构最终将胜出。今天是token,明天可能就是我们在计算机上采取的行动,它们将开始模仿我们的活动,并能够自动化我们所做的许多工作。正如我们所讨论的,Transformer特别是自注意力机制,具有非常广泛的适用性,它也让梯度下降变得更好。另外就是物理学,矩阵乘法是个好主意。

Noam Shazeer:这个模式一直在重复出现。所以每次添加一堆规则时,梯度下降终将比你更擅长学习这些规则。就像我们一直在做的深度学习一样,我们在构建一个GPU形式的AI模型。而现在,我们正在构建一个超级计算机形式的AI模型。

黄仁勋:所以你们要解决什么问题?

Lukasz Kaiser:机器翻译。回想五年前,这个过程似乎非常艰难,得搜集数据,进行翻译,可能会出现一些翻译错误,那时只能达到基础水平。现在这些模型即使没有数据也能自行学会翻译。这种能力就像自然而然涌现出来的,而且效果令人满意。

黄仁勋:谁想出了Attention is all you need这个名字?

打开网易新闻 查看精彩图片

Llion Jones,SakanaAI 联合创始人兼首席技术官 | 来源:NVIDIA GTC

Llion Jones:我想出了这个标题,在我们寻找标题的时候,我们把模型的一些碎片包括卷积扔掉,只是为了看看它会不会变得更糟。令我们惊讶的是,它开始变得更好,这就是标题的来源。

Ashish Vaswani:有趣的是,我们实际上是从一个最基本的框架开始的,然后我们添加了卷积等东西,后来又把它们去掉了,还有多头注意力等其他很多非常重要的东西。

黄仁勋:谁提出了Transformer这个名字?为什么叫Transformer?

Jakob Uszkoreit:我们喜欢这个名字,觉得它很有创意,改变了我们的数据生产模式。所有的机器学习都是Transformer,都是颠覆者。

Noam Shazeer:我之前想过很多其他的名字,最终确定了“Transformer”,它描述了模型的原理(几乎所有的机器学习都会被转换)。

Llion Jones:之所以取Transformer这个名字,因为我们我们意识到,我们实际上是在尝试创造一些非常通用的东西,希望以一种更概括的方式来描述这种变革和转化,而不仅是在翻译领域,虽然我们当时没有预测到Transformer的表现会这么出色。

黄仁勋:当 Transformer 被用于图像时,这是一个相当令人惊讶的尝试。

Aidan Gomez:这些想法在很早之前就已经存在了,一直在酝酿。我们有这些学术数据集,从图像到文本,再从文本到图像,从音频到文本,从文本到文本。我们应该对所有内容进行训练。这个想法真正推动了模型进行扩展。现在OpenAI和许多人都在做类似的事情。

我认为北极星第一天就存在,所以看到这一切正在发生,是非常令人兴奋满足的。

打开网易新闻 查看精彩图片

Aidan Gomez,Cohere 联合创始人兼首席执行官 | 来源:NVIDIA GTC

02

Transformer正在带来哪些变革

黄仁勋:transformer正普遍应用在不同领域,比如你们正在将它用于生物学?

Jakob Uszkoreit:我们将其称为生物软件,类似于计算机软件,它起初是一个程序,然后编译成可以在GPU上运行的形式。生物软件始于对特定行为的需求,比如在细胞中生成大量特定蛋白质,然后通过深度学习将其转译成 RNA 分子。但实际上,一旦它们进入细胞,它们就会表现出这些行为。所以,transformer这个概念从最开始把语言翻译成计算机代码,扩展到转化为特定的分子药物。

黄仁勋:你们是否为此创建了一个大型的实验室?

Aidan Gomez:有大量极其有价值的基因组数据可以下载,基本是公开的、公共资助的。但实际上,你仍然需要数据,来明确地解释你在模拟的现象。例如针对某种产品,比如mRNA疫苗中的蛋白质表达。

我们希望成为一种新事物的先驱者,致力于实际创建这些数据,并验证设计这些分子的模型。

黄仁勋:在架构的强化和突破中,你们看到的关键节点是什么?它们对Transformer的设计有什么影响?

Aidan Gomez:我认为在推理方面,已经有大量的工作来加速这些模型,使它们更有效率。

但我仍然感到不安,因为它与我们以前的形式非常相似。我认为世界需要比Transformer更好的东西,我想我们在座的所有人都希望它能被某种东西所取代,将我们带到一个新的性能高地。

Llion Jones:人们会惊讶于你说的这种相似程度,也喜欢问我接下来会发生什么,因为我是这篇论文的作者。就像魔法一样,你挥动魔法棒,下一步会出现什么?我想指出的是,我们需要的是“明显”地变得更好。如果它只是稍微好一点,还不足以将整个人工智能行业推向新事物。

黄仁勋:每个人的工具集都是不同的,你们想要改进的属性是什么呢?是想要改进生成能力,还是想要更快?

Jakob Uszkoreit:现在人们使用的计算量太大了,他们浪费了很多计算资源。我觉得这主要是关于如何分配资源,而不是一共消耗了多少资源。比如我们不希望在一个容易的问题上耗费太多,或者在一个太难的问题上投入太少,而最终得不到解决方案。

Illiya Polosukhin:我认为自适应计算是接下来必须出现的事情之一,这样我们就知道在特定问题上应该花费多少计算资源。

打开网易新闻 查看精彩图片

Illia Polosukhin,NEAR Protocol 联合创始人 | 来源:NVIDIA GTC

Aidan Gomez:一些作者已经发布了跟进通用Transformer的论文,在解决这个问题。

Ashish Vaswani:我们最初的目标是模拟token的演变,实现线性生成。现在这个过程也适用于图像,扩散模型会迭代地进行改进和完善。根本的问题是,哪些知识应该存在于模型内部,哪些应该存在于模型外部?例如,推理应该在外部进行,这是一个效率的讨论。

黄仁勋:能快速分享一下你们为什么创办(或加入)各自的公司吗?

Ashish Vaswani:EssentialAI的目标是构建模型并解决新的任务。我们的工作是理解任务的目标和内容,并随着这些内容的变化来满足客户的需求。从2021年开始,我发现模型最大的问题在于,你不能仅仅让模型变得更聪明,你还需要找到合适的人来解读这些模型。我们希望让这个世界与模型相互交融,使模型变得更加庞大和卓越。

打开网易新闻 查看精彩图片

Ashish Vaswani,EssentialAI 联合创始人兼 CEO | 来源:NVIDIA GTC

Noam Shazeer:我创立了Character.AI,因为我觉得我们拥有如此出色的技术,但这项技术并没有惠及很多人。技术不断发展,得益于黄仁勋的推动,我们的终极目标是帮助全世界的人们。我们现在需要开发更快的解决方案,让数百人能够使用这些应用程序。

Jakob Uszkoreit:我想谈谈Inceptive在做的生物软件。我们的目标是解决一些真正具有科学影响力的问题。在 AlphaFold 2发布蛋白质结构预测结果几周后,我对这一技术产生了浓厚的兴趣。而AlphaFold 2与AlphaFold 1之间的一个重大区别在于,他们开始使用Transformer,并用它替换了模型或架构的其余部分。很明显这些技术已经可以在分子生物学领域发挥作用。几周后,mRNA 新冠疫苗的有效性结果就出来了。

Llion JonesLlion Jones:我们参与创立的公司叫做Sakana AI,意思是“鱼”。我们选择这个名称是因为希望激发人们对鱼群的联想。我们的目标是实现自然启发的人工智能,就像一群小鱼一样简单,但当将许多简单的元素聚集在一起时,它们就会变得相当复杂。

我们即将开源一些研究成果。目前流行的趋势是模型融合,但这通常需要人工完成。我们并不是人工合并这些模型的算法,而是利用了大量的计算资源,使用进化计算来搜索及合并。

Aidan Gomez:我创立Cohere的初衷与Noam Shazeer相似。我认为计算机正在进入一种新的模式,它正在改变现有的产品和我们的工作方式。我们为企业创建了一个平台,让企业能将这种新技术融合到他们产品中。这是我们推进技术的方式,让技术变得更加普及,帮助企业使用技术。

Lukasz Kaiser:我选择加入OpenAI,因为当时那里有最好的Transformer模型。公司里充满了乐趣,我们处理大量数据,进行海量计算,产出很不错的结果。

打开网易新闻 查看精彩图片

Lukasz Kaiser,OpenAI 技术人员 | 来源:NVIDIA GTC

Illiya Polosukhin:我坚信我们将取得重大进展,软件将改变整个世界,深度学习将改变软件。最直接的方式就是教会机器编写代码,让编程对每个人都变得可及。

NEAR致力于协助人们获取相关数据,我们最终意识到我们需要可编程货币,所以我们建立了NEAR Protocol,这是一个区块链,自2020年以来一直在运行。这个协议在区块链领域拥有最多的用户。我们正处于一个新的时代,过去奖励创作者的方式已经失效。新的方法是通过可编程货币和区块链。因此,我们希望创建一种新的方式让人们可以贡献数据。

03

大模型下一步将走向何方

黄仁勋:GPT大模型正在训练十万亿token数据库的时代,几乎和整个互联网规模一样大,下一步要探索哪些技术?新的数据来源将来自哪里?

Illia Polosukhin:数据需要来自用户的交互,这需要大规模的平台,人们要从中获得经济价值,以持续这些交互。在后台,你可以将数据导入到模型中,使它们变得更智能。

黄仁勋:你如何对模型进行预训练?如何产生最初的互动?是让模型之间进行交互吗?

Llion Jones:推理是下一个重要的发展方向。很多人已经意识到了这一点。目前很多工作都是由人来设计和进行的,我们要探索强有力的推理模式,让模型生成我们想要的内容。

Jakob Uszkoreit:我们希望模型生成的内容能够符合人类的消费需求,因此,任何类型的视频、音频、任何观察世界所获得的信息,包括时序信息,都应该被纳入到训练数据中。

打开网易新闻 查看精彩图片

Jakob Uszkoreit,Inceptive 联合创始人兼首席执行官 | 来源:NVIDIA GTC

Lukasz Kaiser:推理和从小样本数据中学习之间的关系非常密切。如果你有一个能够进行推理的模型,你只需要一点点数据,它就会进行一系列的推理,从中产生结果,因为它在推理过程中进行了大量计算,类似人类的思考系统。

这将极大地减少我们需要的数据量,但数据的质量将变得更加重要,这来自人们与现实世界的互动。因此,我认为会出现一个新时代,仍然会有一些大规模的预训练模型,但更重要的可能是通过人们的互动产生高质量的数据。

Ashish Vaswani:这个领域取得了很大进展,可以将大规模的现实世界任务分解为更简单的任务,模型可以完成其中的一些任务,然后部署并获取更多数据。一旦这个循环闭合,它们就可以去处理更复杂和抽象的任务,类似我们发展自动化的过程。

黄仁勋:你们有没有想跟对方探讨的问题?

Llion Jones:早期模型所面临的问题可能在一定程度上也存在于当前的模型中。因此,未来可能会出现混合模型。

Illia Polosukhin:Transformer 模型中的自注意力机制可以视为一种递归步骤,在每个步骤中,模型都会根据输入中的不同部分来更新信息。这种递归性质使得模型能够在每个步骤中对输入进行增强和推理。然而,有趣的是,目前很少有人探索通过连接不同数量的递归步骤来训练模型,这可能是一个值得研究的方向。

有时候并不需要固定数量的步骤,而是需要根据输入的复杂程度来动态调整递归步骤的数量。这种动态调整可能会使模型更加灵活,能够更好地处理不同类型的输入和任务。

Lukasz Kaiser:对于如何使用梯度下降来完全学习循环神经网络(RNN)的训练,我们尚未完全掌握。可能需要用不同的方式训练,而不是梯度下降。

黄仁勋:很高兴与各位交流,希望下次你们的互动会带来惊人的魔法,整个行业都感激你们所做的工作。

Reference:

  • GTC 2024 Transforming AI Panel视频实录

  • 极客公园:

  • 腾讯科技: