Transformer 七周年幕后故事｜八子之一的 Shazeer 曾建议谷歌放弃搜索，Sam Altman 则表示谷歌错失良机|shazeer|siri|transformer|幕后故事|翻译|谷歌

近日，《连线》杂志记者采访了 AI 领域里程碑意义的论文——《Attention is All You Need》背后的八位作者，这篇论文写于 2017 年春季，他们都是谷歌的研究人员，尽管当时有一位已经离开了公司。

当最资深的贡献者 Noam Shazeer 看到初稿时，他对自己的名字出现在首位感到惊讶，这暗示着他的贡献是至关重要的。他说：“我没有考虑这个问题。”

确定名字的排列顺序总是一个微妙的平衡行为——谁能获得令人垂涎的首席位置，谁被排到后面。特别是在这样一个案例中，每个参与者都在真正的团队努力中留下了自己的独特印记。当研究人员匆忙完成他们的论文时，他们最终决定“破坏”排名贡献者的惯例。他们在每个名字后面加了一个星号，并加了一个脚注：“贡献相等”，脚注写道。“排名顺序是随机的。”作者们在截止日期前将论文送到了一个著名的 AI 会议上，并掀起了一场革命。

临近 7 周年，这篇《Attention》论文已经获得了传奇般的地位。作者们从一种蓬勃发展且不断改进的技术——一种称为神经网络的 AI ——出发，将其转化为了另一种东西：一种数字系统，其输出如同外星智能的产物，这种架构被称为 transformers，是所有那些令人叹为观止的 AI 产品的秘密武器，包括 ChatGPT 以及图像生成器，比如 Dall-E 和 Midjourney。

Shazeer 开玩笑说，如果他知道这篇论文会变得如此著名，他可能会更担心作者顺序的问题。现在所有八位签署者都是微名人。“我有人要求和我合影——因为我在一篇论文上！”随机地，当然，列在第五位的是 Llion Jones。

“没有 Transformers，我认为我们现在不可能到达这个地步，”并不是作者之一，但也许是世界上最杰出的 AI 科学家 Geoffrey Hinton 说道。他指的是我们所处的地动山摇的时代，随着 OpenAI 和其他公司构建的系统可以与人类的产出相匹敌，甚至在某些情况下超越之。

今天，所有八位作者此后都离开了谷歌。像数百万其他人一样，他们现在以某种方式与由他们在 2017 年创建的系统一起工作。

以下为《连线》记者 Steven Levy 与八位作者交谈的全部内容：

Uszkoreit 是 Hans Uszkoreit 的儿子，后者是一位著名的计算语言学家。作为上世纪 60 年代末的一名高中生，Hans 因抗议苏联入侵捷克斯洛伐克而在自己的祖国东德被监禁了 15 个月。他获释后逃往西德，在柏林学习计算机和语言学。他来到美国，在加利福尼亚州门洛帕克的一个 AI 实验室工作时，Jakob 出生了。后来，该家庭最终回到了德国，Jakob 在那里上大学。他本不打算专注于语言，但在攻读研究生阶段，他在谷歌的山景城办公室实习，在那里他加入了公司的翻译团队。他继承了家族事业。他放弃了博士计划，并在 2012 年决定加入谷歌的一个团队，该团队正在研究一种可以在搜索页面上直接回答用户问题而不需要将其转到其他网站的系统。苹果刚刚宣布了 Siri，一个虚拟助手，承诺可以在日常对话中提供一次性答案，谷歌高管闻到了巨大的竞争威胁：Siri 可能会吞噬他们的搜索流量。他们开始更加关注 Uszkoreit 的新团队。

“那是一场虚假的恐慌，”Uszkoreit 说。Siri 实际上从未真正威胁到谷歌。但他乐于投身于计算机可以与我们进行某种对话的系统。当时，循环神经网络——曾经是学术上的一片死水——突然开始胜过其他 AI 工程方法。这些网络由许多层组成，信息在这些层之间传递和重新传递，以确定最佳响应。神经网络在诸如图像识别等领域取得了巨大的成功， AI 复兴突然间来临。谷歌正在疯狂地重新调整其员工队伍以采用这些技术。公司希望拥有能够产生人类般回答的系统——自动完成电子邮件中的句子或创建相对简单的客户服务聊天机器人。

但是，该领域遇到了一些限制。循环神经网络在解析更长的文本片段时遇到了困难。以“Joe 是一名棒球运动员，吃完早餐后，他去了公园并打了两次安打”为例。要理解“两次安打”，语言模型必须记住有关棒球的部分。用人类的术语来说，它必须保持关注。被接受的解决方法是一种称为“长短期记忆”（LSTM）的东西，这是一种创新，它允许语言模型处理更大更复杂的文本序列。但是，计算机仍然严格按顺序处理这些序列——一个单词一个单词地——并且错过了可能出现在文本后面的上下文线索。“我们应用的方法基本上是一种应急措施，”Uszkoreit 说。“我们无法获得真正在规模上真正发挥作用的东西。”

到了 2014 年左右，他开始设计一种不同的方法，他称之为自注意力。这种网络可以通过参考文本的任何其他部分来翻译一个单词。这些其他部分可以澄清一个词的意图，并帮助系统产生一个好的翻译。“它实际上考虑了一切，并且为你提供了一种同时查看许多输入并以相当选择性的方式提取其中某些内容的有效方式，”他说。尽管 AI 科学家小心翼翼地不要将神经网络的隐喻与生物大脑的工作方式混淆，但 Uszkoreit 确实似乎相信自注意力在某种程度上与人类处理语言的方式相似。

Uszkoreit 认为自注意力模型有可能比循环神经网络更快更有效。它处理信息的方式也非常适合正在大规模生产以支持机器学习繁荣的强大并行处理芯片。与使用线性方法（按顺序查看每个单词）不同，它采用更并行的方法（一起查看一堆单词）。如果正确执行，Uszkoreit 怀疑可以专门使用自注意力来获得更好的结果。

并不是每个人都认为这个想法会震撼世界，包括 Uszkoreit 的父亲，他在儿子为该公司工作期间获得了两项谷歌教职研究奖。“人们都感到惊讶，因为这个想法摒弃了所有现有的神经网络架构，”Jakob Uszkoreit 说道。要和循环神经网络说再见？那是异端邪说！“通过我和父亲在餐桌上的对话，我们并不总是看法一致。”

Uszkoreit 说服了几位同事进行自注意力的实验。他们的工作显示出了希望，2016 年他们发表了一篇论文。Uszkoreit 想进一步推动他们的研究——团队的实验仅使用了微小的文本片段——但是他的合作者们没有一个感兴趣。相反，就像离开赌场时带着适度的赢利的赌徒一样，他们去应用他们所学到的教训。“这件事奏效了，”他说。“那篇论文上的人们对收获和在谷歌的各种不同地方部署它感到兴奋，包括搜索和最终广告。从许多方面来说，这是一个令人惊奇的成功，但我不想就此打住。”

Uszkoreit 认为自注意力可以承担更大的任务。他会向任何愿意倾听的人以及一些不愿意的人辩论，他在谷歌校园北部查尔斯顿路地址的 1945 号大楼的白板上勾画出自己的愿景。

2016 年的一天，Uszkoreit 在谷歌的一个咖啡厅与一位名叫 Illia Polosukhin 的科学家共进午餐。来自乌克兰的 Polosukhin 在谷歌已经工作了将近三年。他被分配到一个团队，负责回答在搜索字段中提出的直接问题。但情况并不是很理想。

“要在 google.com 上回答问题，你需要一种非常便宜且性能高的东西，”Polosukhin 说。“因为你只有几毫秒的时间” 来回答。当 Polosukhin 抱怨时，Uszkoreit 毫不犹豫地提出了一个解决办法。“他建议说，为什么不使用自注意力？”Polosukhin 说。

Polosukhin 有时会与一位名叫 Ashish Vaswani 的同事合作。Vaswani 出生在印度，并在中东地区长大，他去了南加州大学，在该校的精英机器翻译组获得了博士学位。之后，他搬到了 Mountain View 加入了谷歌——具体来说是一个叫做 Google Brain 的新组织。他将 Brain 描述为“一个激进的团队”，相信“神经网络将推进人类的理解力”。但他仍在寻找一个重大项目来参与。他的团队工作在与 Polosukhin 语言团队相邻的 1945 号大楼旁边的 1965 号大楼，他听说了自注意力的想法。这能成为他的项目吗？他同意参与其中。

三位研究人员一起起草了一份名为《Transformers: 迭代自注意力和处理以适用于各种任务》的设计文档。Uszkoreit 表示，他们从“零日”选择了“transformers”这个名字。这个想法是，这种机制将改变它所吸收的信息，使系统能够提取出与人类相当的理解力，或者至少给出这种假象。此外，Uszkoreit 对玩 Hasbro 动作人偶的童年记忆很美好。“我小时候有两个小变形金刚（Transformer）玩具，”他说。这份文件以六个变形金刚在山地地形中互相发射激光的卡通形象结束。

在文章开头有一句话，展现了一些自负：“我们很棒。”

2017 年初，Polosukhin 离开了谷歌创办自己的公司。此时，新的合作者加入了项目。一个名叫 Niki Parmar 的印度工程师在印度为一家美国软件公司工作时搬到了美国。她于 2015 年从南加州大学获得了硕士学位，并被所有的大科技公司挖角。她选择了谷歌。当她加入时，她与 Uszkoreit 合作，致力于改进谷歌搜索的模型变种。

另一个新成员是 Llion Jones。出生并成长在威尔士的他，喜欢电脑，“因为那不寻常”。他在伯明翰大学学习 AI 课程，对神经网络产生了好奇，被描述为历史的奇特之物。2009 年 7 月获得硕士学位后，在经济衰退期间找不到工作，靠领取失业救济生活了数月。他在一家当地公司找到了一份工作，然后在“最后一搏”之下申请了谷歌。他成功了，并最终加入了谷歌研究部门，他的经理是 Polosukhin。有一天，Jones 从一位名叫 Mat Kelcey 的同事口中听说了自注意力的概念，后来他加入了“ Transformer ”团队。（后来，Jones 遇到了 Kelcey 并向他介绍了 Transformer 项目。Kelcey 对此并不买账。“我告诉他，‘我不确定那会不会奏效’，这基本上是我生活中最大的错误预测，”Kelcey 现在说。）

Transformer 的工作吸引了谷歌 Brain 的其他研究人员，他们也在努力改进 LLM 。这第三波人员包括波兰出生的理论计算机科学家 Łukasz Kaiser 和他的实习生 Aidan Gomez。Gomez 在加拿大安大略省的一个小农村长大，他的家人每年春天都会去捶枫树取糖浆。在多伦多大学读大三时，他“爱上了” AI ，并加入了机器学习小组—— Geoffrey Hinton 的实验室。他开始联系在谷歌写有趣论文的人，提出延伸他们工作的想法。Kaiser 咬定了他，并邀请他实习。直到几个月后，Gomez 才了解到那些实习是为博士生准备的，而不是像他这样的本科生。

Kaiser 和 Gomez 很快意识到，自注意力看起来是解决他们正在处理的问题的一个有前景、更激进的解决方案。“我们进行了一次深思熟虑的讨论，是否要合并这两个项目，”Gomez 说。答案是肯定的。

Transformer 团队着手建立一个自注意力模型，用于将一种语言的文本翻译成另一种语言。他们使用了一个称为 BLEU 的基准来衡量其性能，该基准将机器的输出与人类翻译的工作进行比较。从一开始，他们的新模型表现良好。“我们从没有概念证明，到至少有了一些能够与当时最好的 LSTMs 替代方法媲美的东西，”Uszkoreit 说。但与长短期记忆相比，“它并不更好。”

他们已经达到了一个平台——直到 2017 年的一天，Noam Shazeer 无意中听说了他们的项目。Shazeer 是一位资深的谷歌员工——他于 2000 年加入了该公司——是公司早期广告系统的内部传奇人物。Shazeer 已经从事深度学习五年了，并且最近对 LLM 产生了兴趣。但是这些模型远远不能产生他认为可能的流畅对话。

Shazeer 回忆道，他当时正在 1965 号大楼的走廊上经过 Kaiser 的工作区。他发现自己在听一个充满活力的对话。“我记得 Ashish 在谈论使用自注意力的想法，而 Niki 对此非常兴奋。我觉得，哇，这听起来是一个好主意。这看起来是一个有趣、聪明的团队，正在做一些有前途的事情。”Shazeer 认为现有的循环神经网络“令人恼火”，并想：“让我们去替换它们！”

Shazeer 加入了这个团队至关重要。“这些理论或直觉机制，比如自注意力，总是需要非常谨慎的实现，通常是由少数有经验的‘魔术师’来完成，甚至表现出任何生命迹象，”Uszkoreit 说。Shazeer 立即开始施展他的魔法。他决定写出自己版本的 Transformer 团队的代码。“我采用了基本的思路，然后自己编写了这个东西，”他说。他偶尔向 Kaiser 提问，但大多数时间，他说，他“只是自己去做了一段时间，然后回来说，‘看，它有效果。’”他使用了团队成员后来用“魔法”、“炼金术”、“花哨技巧”等词来形容的方法，将系统推向了一个新的水平。

“那引发了一场冲刺，”Gomez 说。他们受到了激励，他们也想要在即将到来的截止日期——5 月 19 日，即一年中最重要的 AI 事件——今年 12 月在神经信息处理系统大会上提交论文的截止日期。随着硅谷所谓的冬季向春季过渡，实验的速度加快了。他们测试了两种 Transformer 模型：一种是经过 12 小时训练的版本，另一种是更强大的版本 Big，经过了三天半的训练。他们让它们进行英语到德语的翻译。

基本模型胜过了所有竞争对手，而 Big 则取得了决定性地打破了先前记录的 BLEU 分数，同时更具计算效率。“我们在比其他人更短的时间内做到了这一点，”Parmar 说。“而且这只是开始，因为数字一直在提高。”当 Uszkoreit 听到这个消息时，他拿出了一瓶放在山地远征卡车上的陈年香槟庆祝。

截止日期前的最后两周是疯狂的。尽管团队中一些成员在官方上仍然在 1945 号楼有桌子，但他们大部分时间都在 1965 号楼工作，因为那里的微型厨房里有更好的浓缩咖啡机。“人们没有睡觉，”Gomez 说，作为实习生，他处于不断调试的狂热状态，同时还为论文制作了可视化和图表。在这样的项目中，通常会进行消融试验——拿出一些东西来看看剩下的是否足以完成任务。

“有各种各样的技巧和模块的组合——哪个有帮助，哪个没有帮助。让我们将它拿掉。让我们用这个替换它，”Gomez 说。“为什么模型会以这种违反直觉的方式行事？哦，是因为我们没有正确地做屏蔽。它有效果了吗？好的，继续下一个。我们现在称之为 Transformer 的所有这些组件都是这种极高速、迭代式试错的产物。”消融试验在 Shazeer 的实施的帮助下产生了“一些极简主义的东西，”Jones 说。“Noam 就像一个巫师。”

Vaswani 记得有一天晚上，团队在写论文时，他在办公室的沙发上睡着了。当他盯着将沙发与房间其他部分隔开的窗帘时，他被面料上的图案震惊了，对他来说，它看起来像突触和神经元。Gomez 在那里，Vaswani 告诉他，他们正在进行的工作将超越机器翻译。“最终，就像人类大脑一样，你需要将所有这些模式——语音、音频、视觉——统一到一个架构下，”他说。“我有强烈的预感，我们正在进行一些更普遍的工作。”

然而，在谷歌的高层眼中，这项工作只是另一个有趣的 AI 项目。我问了几位 Transformer 团队的人，他们的老板是否曾召集他们更新项目情况。并不是那么多。“但是我们理解到这可能是一件相当重要的事情，”Uszkoreit 说。“这促使我们真正关注了论文末尾的一个句子，其中我们评论了未来的工作。”

这个句子预见了接下来可能发生的事情——将 Transformer 模型应用于基本上所有形式的人类表达。“我们对基于注意力的模型的未来感到兴奋，”他们写道。“我们计划将 Transformer 扩展到涉及文本以外的输入和输出模态的问题”，并调查“图像、音频和视频”。截止日期前几天晚上，Uszkoreit 意识到他们需要一个标题。Jones 指出，团队已经接受了接受通常最佳做法的激进拒绝，尤其是 LSTMs，用于一种技术：注意力。他回忆起披头士乐队曾有一首歌名叫做“All You Need Is Love.”。为什么不把论文命名为“Attention Is All You Need”呢？

“我是英国人，”Jones 说。“这实际上只花了五秒钟的思考时间。我没想到他们会使用它。”

他们一直在截止日期前收集实验结果。“英法语的数字是在我们提交论文前的五分钟到达的，”Parmar 说。“我当时坐在 1965 号楼的微型厨房里，得到了最后的数字。”就在剩下不到两分钟的时候，他们送出了论文。

谷歌，就像几乎所有科技公司一样，迅速对这项工作进行了临时专利申请。这样做的原因不是为了阻止别人使用这些想法，而是为了为防御目的建立其专利组合。（该公司有一个“如果技术进步，谷歌将获益”的理念。）

当 Transformer 团队从会议同行评审员那里听到回复时，反应是各种各样的。“有一个是积极的，一个是非常积极的，一个是‘这还行’，”Parmar 说。论文被接受为晚间海报展示之一。

到了十二月，论文引起了轰动。他们在 12 月 6 日举行的四小时会议上挤满了想了解更多信息的科学家。作者们讲到声音嘶哑。到晚上 10:30，当会议结束时，人群还在。“安保人员不得不告诉我们离开，”Uszkoreit 说。对他来说，也许最令人满意的时刻是当计算机科学家 Sepp Hochreiter 上前赞扬了这项工作——考虑到 Hochreiter 是长短期记忆的共同发明者，而 Transformer 刚刚取代了长短期记忆成为 AI 工具包中的首选工具，这是相当的赞誉。

Transformer 并没有立即统治世界，或者甚至谷歌。Kaiser 回忆说，在论文发表的时候，Shazeer 向谷歌高管建议公司放弃整个搜索索引，训练一个巨大的网络使用 Transformer ——基本上是为了改变谷歌组织信息的方式。在那时，即使是 Kaiser 也认为这个想法荒谬。现在，普遍认为这只是个时间问题。

一家名为 OpenAI 的初创公司更快地抓住了机会。在论文发表后不久， OpenAI 的首席研究员 Ilya Sutskever ——他在谷歌期间认识了 Transformer 团队——建议该公司的一位科学家Alex Radford 研究这个想法，结果就是第一批GPT产品。正如 OpenAI CEO Sam Altman 去年告诉我的，“当 Transformer 论文发表时，我认为谷歌的任何人都没有意识到它的意义。”

内部情况更为复杂。“我们很清楚 Transformer 能做出很神奇的事情，”Uszkoreit说。“现在，你可能会问，为什么 2018 年谷歌没有推出 ChatGPT ？实际上，我们可能在 2019 年甚至 2020 年就推出了GPT-3 甚至 3.5。关键问题不是他们有没有看到，问题是，为什么我们没有利用我们看到的事实去做点什么？答案很棘手。”

许多科技评论家指出，谷歌从以创新为中心的游乐场转向了以底线为中心的官僚体制。正如 Gomez 告诉《金融时报》的，“他们没有现代化。他们没有采用这项技术。”但对于一个技术领先行业并为数十年获得巨额利润的巨型公司来说，这需要很大的勇气。

谷歌确实开始在 2018 年将 Transformer 集成到产品中，首先是其翻译工具。同年，谷歌还推出了一种名为 BERT 的基于 Transformer 的新型语言模型，该模型在之后的一年开始应用于搜索。但与微软大胆地将基于 Transformer 的系统整合到其产品线中相比，这些底层的变化似乎显得很羞怯。

去年，当我问谷歌 CEO Sundar Pichai 为什么他的公司不是第一个推出像 ChatGPT 这样的 LLM 时，他辩称，在这种情况下，谷歌发现让其他公司领先是有利的。“我不完全清楚它是否会产生同样好的效果。事实上，我们在人们看到它的工作原理后可以做得更多，”他说。

无可否认的事实是，论文的所有八位作者都已经离开了谷歌：

Polosukhin 的公司 Near 建立了一个市值约为 40 亿美元的区块链。
Parmar 和 Vaswani 于 2021 年成为商业伙伴，创立了一家名为 Adept 的公司（估值 10 亿美元），现在他们已经创立了第二家公司，名为 Essential AI（获得 800 万美元的融资）；
Llion Jones 的东京 Sakana AI 估值为2亿美元；
于 2021 年 10 月离职的 Shazeer 与人合伙创立了 Character AI（估值50亿美元）；
团队的实习生 Aidan Gomez 于 2019 年在多伦多创立了Cohere（估值22亿美元）；
Jakob Uszkoreit 的生物技术公司 Inceptive 估值为 3 亿美元；
Lukasz Kaiser 是唯一一个没有创办公司的人。他加入了 OpenAI ，并是一种名为Q*的新技术的发明者；所有这些公司（除了Near）都基于 Transformer 技术；

谷歌是否错过了这些离职人才？当然了，除了其他从公司转移到新的 AI 初创公司的人之外。（当我询问他有关 Transformer 离职者时，Pichai 提醒我，行业宠儿 OpenAI 也看到了人员的流失：“ AI 领域非常、非常动态，”他说。）但是谷歌可以自豪地宣称，它创造了一个支持追求非传统想法的环境。

“在很多方面，谷歌走在了前面——他们投资于正确的人才，并创造了一个我们可以探索和突破界限的环境，”Parmar说。“需要时间来接受它并不奇怪。谷歌拥有的利益太多了。”

没有那种环境：就没有 Transformer 。这些作者不仅都是谷歌的员工，而且还在同一办公室工作。走廊上的偶遇和午餐时听到的谈话引发了重大时刻。该团队还具有多元文化。八位作者中有六位出生在美国以外的国家；其他两位分别是两位持有绿卡的德国人的孩子，他们暂时在加利福尼亚，以及一位第一代美国人，他的家人逃离了迫害。

Uszkoreit 在柏林的办公室里说，创新完全取决于正确的条件。“关键是找到那些对某事非常激动并且正处于生活的正确阶段的人，”他说。“如果你拥有这样的人，并且在做事时玩得开心，并且你正在解决正确的问题——并且你很幸运——那么奇迹就会发生。”

Uszkoreit 和他著名的父亲之间也发生了一些奇迹。在所有那些餐桌上的辩论之后，Hans Uszkoreit，他的儿子报道说，现在已经共同创立了一家正在建立 LLM 的公司。当然，使用的是 Transformer 。

Reference：

https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/

Newin 行业交流群

最新资讯

创业手册

出海活动

Builders 招募