2017年6月,谷歌的8位AI研究员发表了一篇名为《Attention Is All You Need》的论文,提出了Transformer架构。
Transformer就是ChatGPT里的“T”,大公司的大模型、各种各样的AI Agent、自动驾驶的算法、几乎所有人工智能的创造,底座都是Transformer。
不夸张地说,Transformer诞生的那一刻,人工智能的历史进程骤然加速。
《Attention Is All You Need》的8位作者
然而,这篇开山之作发表时,论文的8位作者、他们供职的谷歌、全球高科技公司都远远低估了Transformer的革命性。对它最准确的评价来自《连线》杂志[1]:一个不是秘密的秘密武器。
当时,社会公众对人工智能的想象还集中在下围棋的AlphaGo。论文发表一个月前,AlphaGo在乌镇3:0横扫围棋选手柯洁,直观塑造了社会公众对AI的认知。
这似乎解释了为什么最不该低估Transformer的谷歌,会大大低估论文的重要性:
AlphaGo的发明者DeepMind在2014年被谷歌收购,击败柯洁同期,DeepMind发布新版AlphaGo Zero,以100:0吊打AlphaGo。另一个大项目AlphaFold(蛋白质折叠预测)也在紧锣密鼓推进,创始人Demis Hassabis凭借该项目,拿到2024年诺贝尔化学奖。
而Transformer论文作者来自谷歌另一个AI研究部门Google Brain和Google Research团队。在DeepMind看来,自己在伦敦解决复杂的科学难题,Google Brain在美国做翻译软件,高下立判。
谷歌管理层对Transformer也谈不上重视。2018年,谷歌基于Transformer架构推出BERT模型,用来优化谷歌搜索,完全没意识到人工智能的核武器握在自己手里。
AlphaGo也迷惑了马斯克,作为OpenAI的重要金主,马斯克觉得他们进展太慢,完全打不过谷歌和DeepMind,提出将OpenAI并入特斯拉,自己亲自挂帅指挥,被创始人Sam Altman拒绝。
随后,马斯克完全退出OpenAI,反手挖走了创始成员Andrej Karpathy,担任特斯拉自动驾驶总监。
英伟达的遭遇更富戏剧性:2017年5月,英伟达推出了搭载Tensor Core(张量核心)的V100 GPU。黄仁勋大概率没想到,这种设计可以说是为一个月后诞生的Transformer量身定制。
唯一对Transformer革命性有着清醒认知的是OpenAI,技术骨干Ilya Sutskever认为,Transformer解决了之前种种技术方案力有未逮之处,坚决砍掉了很多看似有趣但毫无前景的研究,将所有资源集中在一个项目上:训练GPT模型。
到了2022年,OpenAI已经开始训练GPT-4模型,团队希望在模型发布前开发一款聊天机器人,观测人类对AI的反馈,指引后续研究,并由创始人Sam Altman在推特上发布:
我们做了一个叫ChatGPT的东西,大家来试试吧。
ChatGPT上线5天突破100万用户,两个月突破1亿,打破了TikTok创造的互联网产品最快增长纪录,一场新的工业革命拉开了大幕。
从2017年《Attention Is All You Need》发表到2022年ChatGPT发布,酝酿五年的风暴渐行渐近,世界在一声惊雷中被永久改变。
直到今天,人类似乎都没做好准备。
2012:最后一个冬天
人工智能的终极目标是让机器拥有人类的各种能力,这就需要模拟人类的各种感知与认知能力。其中,计算机视觉(CV)和自然语言处理(NLP)是最核心的两个研究领域。
2012年,多伦多大学教授杰夫·辛顿(Geoffrey Hinton)带着两个学生Ilya Sutskever和Alex Krizhevsky参加当年的ImageNet图像识别比赛,以84%的准确率夺得冠军,人工智能产业化开始爆发。
辛顿团队主攻计算机视觉,采用了名叫卷积神经网络(CNN)的算法。其运作原理是让“卷积核”在图片上滑动,提取轮廓、边缘和纹理,配合并行计算,识别效率很高。
这其实是对人脑的一种模拟:大脑会不断抽象瞳孔摄入的像素,因此人类不需要看到整体,根据一些特征就能判别物体。
比如下图并未展示整只鸭子,但绝大部分人都不会把它认成老鼠或其他生物:
CNN的高效率配合GPU的大算力,让计算机视觉的产业化空间迅速打开,智慧停车、快递分拣、人脸识别等应用迅速落地,资本投资热情空间高涨。
辛顿教授凭借这一贡献获得2024年诺贝尔物理学奖;Alex Krizhevsky在谷歌干了几年,逐渐淡出产业界;Ilya Sutskever活跃至今,参与了OpenAI的创办,是GPT系列模型的核心骨干。
计算机视觉夜夜笙歌,隔壁的自然语言处理却在苦苦挣扎。
原因在于,图像是“连续”的,就像一套拼图,每片拼图之间都存在“关联”,组合成完整图像。同时,计算机视觉主要处理“感知”问题,无论是识别猫狗还是识别车牌,答案是客观的。准确率不高,也可以通过人工弥补。
而语言是“离散”的,字词之间的关联是抽象的语法和逻辑,没法像拼图一样“串联”。换句话说,自然语言处理难就难在它的“自然”:它是日常生活中非结构化的口语,而非标准的财务指标或编程语言。
同时,语言识别更接近“认知”问题,不仅要识别文字和发音,还要弄懂其中含义。
当时,NLP领域的主流算法是循环神经网络(RNN),一是需要一个字一个字按顺序看,计算效率极低;二是一旦文本量太大,算法读到后面就会忘记前面,这种现象被称为“长距离依赖”。
这也是Siri等很多语音助手让人觉得智商不高的原因:RNN无法真正理解长文本抽象的逻辑,高度依赖人工编写规则。
比起计算机视觉的商业化前景,NLP显然是投资机构的座下宾,跟当年的PPT造车比地位,也只能说是险胜。
这也解释了Transformer为何被业界集体低估:8位作者只想拿它来优化翻译效率,在BLEU(机器翻译准确度测试)上刷刷榜。
如果翻看《Attention Is All You Need》论文原文,实验部分展示的成果几乎全是双语翻译的屠榜记录,完全没想过AGI的东西。
这也不难理解,铀元素被发现后的150多年里,没有人把它和原子弹联系起来。
2017:Attention
2016年AlphaGo战胜李世石,吓醒了全世界的科技公司。同期,谷歌内部正被翻译产品折磨的死去活来。
当时,谷歌针对机器翻译推出了GNMT(Google Neural Machine Translation)系统,基于业内主流的RNN(LSTM)方案,谷歌在GNMT中引入了一个名为“Attention(注意力)”的机制。
简单来说,Attention的作用是解决RNN“读到后面忘记前面”的问题:它可以让算法识别长段落时,动态关注段落的不同部分,时不时看两眼前面的词,为不同的词分配不同的权重,让翻译变准确。
GNMT承袭了Attention的理论思想,并为每天数十亿真实的翻译任务做了大量工程优化。但RNN顺序计算的特点,导致计算效率非常低。
Transformer诞生的动机是提高计算效率,作者之一的Jakob Uszkoreit提出,既然Attention这么好,为什么还要用RNN呢?这就是论文标题表达的含义:Attention Is All You Need。
基于这种思路,Transformer抛弃RNN,引入自注意力机制(Self-Attention)。简单来说,一段文本中的每一个词都会和其他词瞅一眼,动态判断每个词的权重,决定重点关注哪个词。
由于任意距离的两个词都可以互相关联,“读到后面忘记前面”的问题被解决,但这也让算法无法识别词的先后顺序。因此,Transformer用位置编码给每个词打上坐标,还原原始语序。
同时,在Transformer的框架下,所有词同时进入矩阵并行计算,配合多头注意力(Multi-Head Attention,多个Attention模块同时计算),特别适合GPU计算,效率指数级提高。
论文一经发布,立刻在自然语言处理领域引发轰动,带动了2018年后产业界的创新浪潮。
2018年初,华盛顿大学发布了一个ELMo模型,研究人员先让模型阅读大量无标注文本,自己慢慢琢磨语言规律,再执行具体任务,效果不错。这种思路被称为“预训练”。
ELMo证明了预训练的思想行得通,让算法对人工标注的依赖大幅降低,极大缓解了“有多少人工,就有多少智能”的问题。但ELMo沿用了RNN架构,计算效率很低。
2018年10月,谷歌基于Transformer和预训练推出BERT模型,刷新了NLP领域主要基准测试的全部记录。在斯坦福大学的SQuAD1.1测试中,BERT全面超越人类表现。
有BERT的带头表率作用,Meta用更多数据训练出了RoBERTa,微软亚洲研究院搞出了MT-DNN,百度在2019年3月发布ERNIE(后来的文心一言),在中文任务上超过了BERT。
谷歌的管理层也意识到了BERT巨大的商业价值,2019年10月,谷歌宣布在英语搜索中全面启用BERT,第一时间赋能业务,配合自研TPU计算集群,一个人工智能产业帝国冉冉升起。
但后来发生的事情我们都知道:OpenAI谷歌发明的武器打垮了谷歌。
2018:力大砖飞
BERT诞生的原因之一,是谷歌与OpenAI的技术理念分歧。
Transformer问世后,第一个动手的其实是OpenAI。2018年6月,OpenAI发布了GPT-1模型。其中GPT指是的Generative Pre-trained Transformer。
这个只有1.17亿参数的模型,完整呈现了技术骨干Ilya Sutskever的技术理念。
通俗来说,OpenAI的思路是“生成式”:给算法输入足够多的数据,让它不断预测下一个词,算法就能在这个过程中理解事物的规律。
2023年的英伟达GTC,已经谢顶的Ilya Sutskever在与黄仁勋的对话中解释过这种“智能就是压缩”的概念:
表面上看,算法只是学习文本在统计学层面的相关性,但这些文本实际上是这个世界的映射。算法为了预测的足够准,就会学习这些文本背后真实世界的规律和机制。
2023年GTC,黄仁勋对谈Ilya Sutskever
2017年4月,Transformer诞生两个月前,OpenAI在一篇论文[12]中公开了一项研究成果:
给算法投喂8200万条亚马逊评论组成的语料库,让算法预测一段文本中的下一个字符,算法内部自行生成了一个情感神经元(Sentiment Neuron),用来判断评论是正面还是负面。
也就是说,OpenAI没有告诉算法什么是“正面”和“负面”,但算法为了预测下一个字符,自己进化出了判断感情色彩的能力。
但这项研究当时并未得到足够重视,产业界的主流观点是,靠文字接龙游戏搞AI属于民科,正经的学者不会凑这个热闹。
与OpenAI对应,谷歌的思路是“判别式”:在BERT之父Jacob Devlin看来,GPT-1根据前文预测后文不符合人类的直觉,因为人类通过上下文来理解文本背后的抽象含义,AI也应该这么做。
用不太严谨但通俗的类比,谷歌认为AI应该先学通识,再做几万套真题锻炼;OpenAI认为真正的天才不需要老师,但当时的GPT-1参数量有限,算法难免满嘴跑火车,被BERT在各项测试中打的头破血流。
谷歌发布BERT的论文[13]中,Jacob Devlin点名批评了GPT-1的技术思路。认为GPT-1的思路与人类认知相悖,在特定任务中是“有害的(harmful)”。
顺带一提,Jacob Devlin的经历也很有意思:ChatGPT上线后,为了快速追上OpenAI,谷歌内部用ChatGPT训练自家模型,触发了Jacob Devlin的技术洁癖。大哥一不做二不休,直接跳槽去了OpenAI,结果在新东家干了三个月,又回到了谷歌[8]。
面对BERT压倒式的优势,OpenAI认为自己的技术路线没有问题,只是模型参数不够多,训练算力不够大。只要用更强的算力训练参数量更大的模型,就会产生质变,即涌现。
这种思路就是今天的产业界司空见惯的一个词:Scaling Laws。
2020:旧金山的弗兰肯斯坦
Scaling Laws是人工智能领域的摩尔定律,即参数量、数据量、计算资源越大,模型能力会对应提升。
Transformer之前的深度学习时代,很多学者就意识到了Scaling Law的存在,但第一个对其进行系统性阐释的其实是百度。
2017年,百度硅谷AI实验室在论文中展示了模型参数和算力大小对模型的促进作用。Anthropic创始人Dario Amodei后来也在播客中回忆,2014年自己和吴恩达在百度工作时,就察觉到了Scaling Laws的特征。
Dario Amodei没在百度干多久就去了OpenAI,结果和创始人Sam Altman反目成仇,随后离职创办了OpenAI的最大竞争对手Anthropic。
今年印度AI峰会,Sam Altman和Dario Amodei拒绝手拉手
百度虽然“发现”了Scaling Laws,但未做更多工程探索。很长时间里,产业界都将Scaling Laws的起点放在OpenAI的奠基性论文《Scaling Laws for Neural Language Models》上。
这篇著名的论文,为大名鼎鼎的GPT-3模型提供了关键的理论基础。
2020年6月,OpenAI发布了GPT-3模型,架构和GPT-2大差不差(引入了稀疏注意力)。但拿了微软10亿美元投资后,财大气粗的OpenAI把互联网上的语料洗劫一空,模型参数量膨胀到1750亿,是GPT-2的116倍。
模型发布同时,OpenAI借助测试申请,向特定人群开放了API接口,立刻引发小范围轰动。
参与测试的人发现,GPT-3不仅能生成文本,也能写文档摘要、回答问题,甚至自己写代码。《卫报》就用GPT-3搓了一篇文章:
在备注中,编辑表示GPT-3生成了8个版本,最终的刊发版本经由编辑“润色”
文中提到的Liam Porr是加州大学伯克利分校的一名学生,他用GPT-3生成的文章被两万多人阅读,只有一个人指出文章是AI写的[25]
而对硅谷的大公司来说,GPT-3无疑是划过总部上空的斯普特尼克1号。
OpenAI证明了Scaling Laws的可行性。决定模型性能的关键变成了算力和参数规模,技术路线的交锋迅速被整齐划一的算力恐慌取代。
微软发现自己捡了大漏,自然乐开了花,一边兴高采烈宣布自己拿到了GPT-3的排他性授权,一边用这个样板工程给自家云服务打广告[21]。
另一个梦中笑醒的公司是英伟达。GPT-3原版论文中,OpenAI只是含糊的提了一句,模型训练用了“微软的V100 GPU”。但微软自己没憋住,在通稿中[22]大吹特吹由一万张V100 GPU构建的超算,实际上是在给英伟达打广告。
2016年,黄仁勋亲自上门向OpenAI赠送英伟达DGX-1超算,当时马斯克还没和Sam Altman闹掰
至于其他公司,几乎都在第一时间加入了竞争:
大受刺激的谷歌设计了一个名叫Switch Transformer的简化稀疏架构,可以将模型参数扩展到1.6万亿。Meta也是急火攻心,指责OpenAI违背极客精神,做了个同为1750亿参数的模型,但开源且“民主化(Democratizing)”。
作为微软在云计算的竞争对手,错失OpenAI的亚马逊投资了全球最大的开源AI社区Hugging Face。特斯拉一边造车一边掏出了D1芯片和Dojo超算。百度在2022年1月推出ERNIE 3.0 Titan,参数量飙升至2600亿。
客观来说,GPT-3不算完美,除了严重幻觉导致梦见啥说啥,AI也全盘吸收了人类所有的价值取向,时不时为种族歧视和恐怖主义大唱赞歌。加上GPT-3的测试范围非常有限,并未被社会公众广泛关注。
但产业界振奋的是,技术迷雾被Scaling Laws的暴力工程吹散,大家纷纷拎起铲子开挖护城河:
特斯拉忙里偷闲进军机器人,苹果对着自动驾驶跃跃欲试,谷歌建设了壮观的TPU算力集群,英伟手握牢不可破的CUDA生态,百度为中国AI产业输送了大量人才。
经历一个又一个寒冬,人工智能的终极理想似乎只差临门一脚。套用丘吉尔的话说:“这不是结束,甚至不是结束的开始,可能只是开始的结束。”
2022:风暴前夕
GPT-3发布后,Dario Amodei与创始人Sam Altman彻底分道扬镳,从公司带走了几位研究员创办了Anthropic。两人的决裂,很大程度上源于微软的投资。
对人工智能的担忧几乎与这门学科的历史一样长,作为研究副总裁,Dario Amodei认为如果只给模型疯狂堆参数,而不引入人类的道德和价值观,无异于随时会失控的核弹。
Sam Altman是公司的掌舵者,必须四处画饼化缘,找人报销庞大的算力开支,只能在安全与商业化上找平衡区间。
科学所到之处,资本总是如影随形。2019年,OpenAI穷的揭不开锅,为了拿微软的钱,OpenAI成立了一家有限盈利公司。同时,协议规定OpenAI必须使用微软的云服务[28]。
就像当年列宁和罗莎·卢森堡的论战,Dario Amodei认为拿了微软的钱,安全就必须屈从于商业化;Sam Altman的逻辑是,没有微软的钱,模型都做不出来,安全更是空谈。
随着GPT-3的发布,Dario Amodei担忧的安全问题逐渐具体。
GPT-3是Scaling Laws的奇迹,也是个毫无是非观念的机器。OpenAI在训练过程中把互联网上的语料洗劫一空,自然也没放过暴力、色情和种族歧视内容。
为了解决这个问题,2022年1月,OpenAI发布了一个名为InstructGPT的模型。相比GPT-3,InstructGPT通过RLHF(人类反馈强化学习),大量剥离了色情暴力等有害内容,让模型更贴近人类的价值观,即所谓“对齐(AI Alignment)”。
RLHF听上去高大上,但底子还是能工智人:为了不让模型频繁爆典,OpenAI让一群人类当道德裁判,给模型输出的内容打分排序。模型在人类监督下自我训练,逐渐向人类的道德品格靠拢。
OpenAI把当裁判这个任务交给了一家名叫Sama的肯尼亚外包公司。硅谷精英侃侃而谈的“对齐”,似乎也离不开古典的全球分工。
按照《时代周刊》的独家报道[30],2021年,OpenAI和Sama签了20万美元的合同,外包工人实发时薪为1.32美元到2美元,工作内容就是浏览大量极端内容,怎么劲大怎么来,标注完成后反馈给模型训练。
Sama位于肯尼亚的办公室
虽然OpenAI承诺提供心理健康咨询,但外包员工工作太充实,基本没时间咨询。2022年2月,OpenAI又要求Sama搜集“性和暴力图像”[30],后者认为甲方玩的有点大,导致双方合作破裂。
但此时,OpenAI已经拿到足够多的人类标注数据。绿色健康讲文明的InstructGPT发布,为ChatGPT的诞生铺平了道路。
Sam Altman的说法是,团队正在开发的GPT-4过于强大,如果直接发布,人类社会接受不了。因此可以先做一个聊天机器人,看看公众的反应,积累的数据也可以用于后续模型的改进。
《纽约时报》则提供了另一种说法[31]:OpenAI担心竞争对手(可能是Anthropic)先于自己发布聊天机器人,因此提前动手,紧急启动ChatGPT的开发。
无论如何,OpenAI内部没有一个人预料到ChatGPT席卷的风暴,毕竟大家只是把它视为用来测试的技术预览产品。而外界眼中如魔法一般的生成能力,也是工程师们过去多年研究生涯的日常。
ChatGPT这个名字直到上线前一天才确定,代替原本的“Chat with GPT-3.5”。Ilya Sutskever在前一晚问了它十个刁钻问题,只有一半回答准确[35]。
就这样,他们结束了一天的工作,随手按下了人工智能的核按钮。
尾声
这场风暴由一篇标题不太正经的论文酝酿,在一个粗糙的套壳产品上爆发。时间线被一次次改写的时候,那些正在创造历史的人似乎毫不知情,甚至不知道自己身在现场。
这其实是科学史上的常态。我们今天感叹那些改变世界的璀璨群星,似乎他们的成功是因为看见了远方的目标,然后一步步抵达了终点。但更真实的历史是,他们只是相信脚下的道路,然后一步步发现了远方。
在那扇被打开的大门背后,历史前进的信号清晰又具体,人工智能勾勒的福祉尚且遥远,被甩下列车的焦虑和恐慌却迅速蔓延。
人类离真正的通用人工智能从未如此接近,但学术层面的理念分歧、技术领域的道德交锋、资本市场的利益博弈,和以理念与道德为名的利益博弈似乎又在证明,在某些方面,人工智能永远替代不了人类。
总之,一段技术与梦想的冒险结束了,一个进步与失控的时代开始了。
全文完,感谢您的耐心阅读。
参考资料
[1] 8 Google Employees Invented Modern AI. Here's the Inside Story,Wired
[2] Sakana AI's CTO says he's 'absolutely sick' of transformers, the tech that powers every major AI model,venturebeat
[3] 专访 | 谷歌神经网络翻译系统发布后,我们和Google Brain的工程师聊了聊,机器之心
[4] 专访“AI教父”本吉奥:袒露恐惧与遗憾,指出可能更安全之路,腾讯科技
[5] 被忽略的起点?Karpathy揭秘最初的注意力论文被Transformer光芒掩盖的故事,机器之心
[6] 全面超越人类!Google称霸SQuAD,BERT横扫11大NLP测试,量子位
[7] 谷歌搜索近5年来最大变化,使用BERT算法改进10%搜索结果,新智元
[8] AI Boomerang: Google’s Internal Critic Returns From Rival OpenAI,The Information
[9] 黄仁勋与 Ilya Sutskever 的炉边谈话:看AI的现状和未来,EETChina
[10] Improving Language Understanding by Generative Pre-Training,OpenAI
[11] OpenAI新研究发现无监督情感神经元:可直接调控生成文本的情感,机器之心
[12] Unsupervised Sentiment Neuron,OpenAI
[13] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,Google
[14] Scaling Laws for Neural Language Models,OpenAI
[15] The Microsoft-OpenAI Files,GeekWire
[16] Meet GPT-3. It Has Learned to Code (and Blog and Argue),Cade Metz
[17] OpenAI’s new language generator GPT-3 is shockingly good—and completely mindless,MIT Technology Review
[18] A robot wrote this entire article. Are you scared yet, human,卫报
[19] With $1 Billion From Microsoft, an A.I. Lab Wants to Mimic the Brain,Cade Metz
[20] OpenAI has released the largest version yet of its fake-news-spewing AI,MIT Technology Review
[21] Microsoft teams up with OpenAI to exclusively license GPT-3 language model,微软
[22] Microsoft announces new supercomputer, lays out vision for future AI work,微软
[23] US-China tech war: Beijing-funded AI researchers surpass Google and OpenAI with new language model,南华早报
[24] 深度学习革命,Cade Metz
[25] My GPT-3 Blog Got 26 Thousand Visitors in 2 Weeks,Liam Porr
[26] Training language models to follow instructions with human feedback,OpenAI
[27] 马斯克传,Walter Isaacson
[28] Inside the white-hot centre of AI doomerism,金融时报
[29] OpenAI’s Top Researchers Defect to Start Rival Backed by Billionaire,The Information
[30] Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic,Time
[31] How ChatGPT Kicked Off an A.I. Arms Race,纽约时报
[32] Inside facebook's african sweatshop,Time
[33] PTSD, depression and anxiety: why former Facebook moderators in Kenya are taking legal action,卫报
[34] What OpenAI Really Wants,Wired
[35] Inside ChatGPT, AI assistants, and building at OpenAI, OpenAI
作者:李墨天
编辑:张婕妤
责任编辑:李墨天
热门跟贴