近日,在美国圣地亚哥举行的 NeurIPS大会现场,Google 首席科学家、Gemini 共同负责人 Jeff Dean 以及诺奖得主 Geoffrey Hinton 进行了一场关于人工智能历史与未来的圆桌对话。本次对话,两位嘉宾回顾了从深度学习早期突破到当下挑战与机遇的种种历程,Google Brain 创立初期、深入探讨了Scaling Law在工业界的首次确证、Transformer 与 MoE的演进逻辑、TPU 芯片的战略护城河、Google 面对 LLM 浪潮的内部抉择,以及两位嘉宾关于“压缩即创造”与 AI 加速科学发现的未来愿景。
嘉宾一致认为,尽管算法精进很重要,但将模型规模与数据量提升到超越当时认知的水准,是实现智能飞跃的确定性路径。Hinton 提出,大模型的本质是将海量知识压缩到有限的连接中,这种极度压缩迫使模型挖掘不同知识点背后的深层共性,从而产生了人类未曾察觉的跨学科创造力。
Jeff Dean 首次详尽还原了自研芯片 TPU 的启动逻辑。他指出,正是预见到 1 亿用户每天使用语音功能将迫使 Google 服务器翻倍的巨大财务风险,才驱动了专注于低精度运算的专用集成电路(ASIC)研发。Jeff Dean 强调,神经网络对计算误差具有天然的宽容度,甚至不需要纠错内存,这种“结构性优势”是 AI 能够实现数十亿倍算力扩展的基石。
展望未来,Hinton 认为 AI 导师将凭借数百万学生的教学经验积累,在教育领域彻底超越人类私人教师;而 Jeff Dean 则期待 AI 能发现跨学科间的隐秘联系,实现科学发现的全自动化,开启“研究全自动时代”。
01
并行计算与神经网络结合的早期探索奠定了基础
反向传播算法虽然在 1986 年正式发表,但其潜力在 1982 年左右就已初显。Jeff Dean 在 1990 年的本科论文就选择了神经网络并行算法。当时你在 32 处理器计算机上的研究是否让你成为了第一个意识到扩展算力是关键的人?Geoffrey,你又是何时领悟到算力的重要性?
Jeff Dean: 我当时修了两门并行算法系列课程,其中花了一周左右研究神经网络。我对此非常着迷,于是向明尼苏达大学的 Vipin Kumar 教授申请做关于神经网络训练并行算法的荣誉论文。系里当时有一台 32 处理器的超立方体计算机。我想,如果能获得 32 倍的算力,就能制造出不可思议的神经网络。其实我当时也没完全领悟,我当时做的加速曲线并不理想,因为我犯了一个错误:在增加处理器数量时没有同步扩大模型规模。当我试图将 10 个神经元的层分布到 32 个处理器上时,效果非常糟糕。不过那次尝试很有意义,我实际上创建了两种模式:一种是现在所说的数据并行训练,另一种是模型并行训练,只不过我当时给它们起了些奇怪的名字。
Geoffrey Hinton: 我本该在 80 年代后期就意识到这一点。当时有两个研究团队投入巨大精力利用并行计算构建更好的语音声学模型。他们得到的模型性能达到了当时的顶尖水平,优于普通处理器运行的效果。那一刻我们就该明白,只要把规模做大,效果就会更好。但当时大规模运行需要极其复杂的编程和硬件,由于种种限制,我们当时并没能真正吸取这个教训,现在想来确实有些遗憾。直到 2014 年左右听了 Ilya Sutskever 的一场演讲,我才真正完全领悟到 Scaling Law 的威力。这已经非常晚了,我之前没意识到模型可以一直通过这种方式扩展下去。
你们挑选的学生和博士后名单非常显赫,包括 Yann LeCun、Ilya Sutskever 等人。Jeff 曾说过衡量成就的一种方式是看研究生的表现。当你们在挑选学生进入实验室时,最看重哪些特质?
Geoffrey Hinton: 我特别看重那些有过原创想法并付诸行动的人。我常会问面试者,你产生过的最好的想法是什么?有些学生虽然课程全优,但却解释说因为还没读研究生所以还没有自己的想法。对于这类人,我通常不会选择。
02
深度学习的工业爆发点
多伦多大学那个简陋的实验室最终创造了 AlexNet。当时为什么要参加 ImageNet 比赛?能谈谈当时使用了多少算力,以及硬件设施背后的故事吗?
Geoffrey Hinton: 几年前 Vlad Mnih 曾尝试使用 NVIDIA 的 GPU 识别航拍图像中的道路,他在复杂的城市环境中做得非常出色。这项研究得到了政府的一项战略资助。在 Vlad 证明了多层网络远优于单层网络后,我申请了资助续期。当时的核心争议在于增加层数是否真的能提升性能,而他证明了每多一层效果就会变好,这是一个非常深刻的结论。随后我申请资助续期,却有一位评审员认为这项研究不可能产生工业影响。我真想告诉他,这类技术贡献了去年美国股市 80% 的增长。
(关于 GPU 的潜力)通过这项工作,我们意识到 GPU 的潜力。某天我让 Alex Krizhevsky 尝试识别类似 MNIST 规模的小图。我记得 Alex 第一次尝试时告诉我不成功,我去检查代码发现他把权重衰减参数设成了 1。我告诉他应该设为 0.0001。学生在刚接触新事物时可能显得缺乏经验,但 Alex 进步得飞快。随后 Ilya 提议把技术应用到 ImageNet 上,并抢在其他人之前做出来。Ilya 亲自做了数据预处理,将所有图像处理成统一尺寸。结果证明效果惊人。接着我做出了一个明智的管理决策。当时 Alex 需要完成综合考试,但他一心只想做研究。于是我说,只要他在 ImageNet 上的准确率每周提高 1%,就可以推迟考试。结果他连续推迟了好几个月。当时训练用的设施就在 Alex 卧室里的两块 GPU 板卡上。板卡是我们买的,电费是他父母交的,这也算帮学校省了钱。
03
超大规模模型结合海量数据是性能跨越式提升的确定性方向
在 AlexNet 诞生前,Google Brain 团队启动了 DistBelief 项目。它的起源是怎样的?那场动用了 1.6 万个 CPU 核心的 YouTube 实验是否让你们预见到了 AlexNet 的成功?
Jeff Dean: Google Brain 团队的起源源于我碰巧遇到了 Andrew Ng。他当时刚开始在 Google 兼职。他在微型厨房告诉我,他在斯坦福的学生们用神经网络跑出了一些很棒的结果。这勾起了我对本科论文时期神经网络研究的回忆。于是我提议,为什么不在 Google 训练真正超大规模的神经网络?我们有海量的机器。当时数据中心主要使用 CPU 集群。我开始编写一个软件抽象库,通过模型并行和数据并行将计算任务分配到大量机器上。我们最终使训练规模比当时已知水平扩大了 50 倍。
(关于 YouTube 实验)我们完成了一项著名的实验,在 1000 万个随机 YouTube 视频帧上进行无监督学习。不过我们当时犯了一个大错,虽然采用了局部连接模式,但为了追求生物合理性而没有使用卷积。结果我们搞出了一个拥有 20 亿个独立参数的庞然大物。最终我们在包含 2.2 万个类别的 ImageNet 数据集上进行了训练,相比当时的顶尖技术,误差降低了 70%。那次训练动用了 1.6 万个 CPU 核心。我们由此明确观察到,模型越大效果越好。随后我们将这个软件库应用到语音识别和计算机视觉等领域。虽然当时没正式提出 Scaling Law,但我们心里都清楚:大模型加海量数据就是未来。所以当 AlexNet 横空出世时,我们可能是极少数不感到惊讶的人,因为在 AlexNet 结果公布的前一年,我们已经在更大规模的数据集上看到了巨大的性能提升。
04
早期 Google Brain 的黄金时代
为什么当初坚定地选择了 Google?当时只有 20 人左右的 Google Brain 团队内部氛围是怎样的,是否有某些瞬间让你感受到了工业界与学术界在资源支持上的巨大差异?
Geoffrey Hinton: 坚定选择 Google 主要是因为 Google Brain 团队的氛围极佳。我当时就知道我们在 Google 一定会工作得很开心。我记得刚从大学进入工业界时,有一次算力资源耗尽了。我听到 Jeff 在电话里说,两百万美元应该够了。这让我感触很深,在大学里想申请两百万美元的算力经费,需要写好几年的拨款申请。
Jeff Dean: 早期的 Brain 团队确实充满乐趣,大家都觉得那段时光非常棒。当时一切都是全新的,虽然不知道未来走向何方,但大家笃信模型越大、数据越多,效果就越好。当时 Brain 团队大约有 20 人,我们都在一个不算大的办公室里办公。
在进入 Google 后的几年里,团队产出了许多重要成果。Geoffrey 你曾坚持研究被 Jeff 和 Ilya 质疑的“胶囊网络”,这种科研韧性来自哪里?此外,2014 年提出的“知识蒸馏”技术最初竟被 NIPS 拒绝,审稿人的盲点在哪里?
Geoffrey Hinton: 我研究了一个叫胶囊网络的项目。这是坚持科研决心的典型例子,如果你选对了方向,巨大的决心会带来极佳的结果,但如果选错了方向,则会虚耗多年且一无所获。早期 Jeff 和 Ilya 都建议我停止研究胶囊网络,但这反而让我更加坚定。
(关于知识蒸馏)我也为 Google 做出了一些实用贡献,比如 2014 年提出的知识蒸馏 (Distillation) 技术。我记得这篇论文最初被 NIPS 拒绝了,审稿人认为学生模型的表现不会超过老师模型,完全没理解其中的逻辑。事实证明,蒸馏技术非常有用,这一点看看 DeepSeek 就知道了。那是一个匿名审稿人给的意见。我真希望知道是谁在加拿大的报告里写过,深度神经网络的研究永远不会产生工业影响。
在 AlexNet 爆发之前,你曾尝试将实验室顶尖的语音声学模型推荐给黑莓的母公司 RIM,但遭到了冷遇。这段故事背后的细节是怎样的?这项技术后来是如何通过你的学生 Navdeep 在 Google 内部力排众议并最终取得成功的?
Geoffrey Hinton: George Dahl 和 Abdel-rahman Mohamed 开发了一个非常出色的语音声学模型,其表现优于当时最好的模型。我的学生 Navdeep 曾想去那家公司(RIM)实习,我联系了他们,表示我们有一种更好的语音识别方法想提供给他们,并希望学生能去展示。但对方回复说,他们对语音识别不感兴趣,毕竟他们当时拥有全键盘,觉得不需要语音功能。
(关于后续发展)讽刺的是,该公司的创始人后来一直在抱怨加拿大的研究成果没能在本土转化,但实际上是他们自己决定放弃这项技术的。后来 Navdeep 去了 Google 蒙特利尔实验室。虽然主管 Vincent 最初认为改变 Google 的语音识别方式是个过于宏大的目标,但在 Navdeep 的坚持下,他获得了 GPU 资源并最终取得了成功。
05
Transformer 的诞生与 MoE 的乘数效应
诞生于 Google Brain 的 Transformer 彻底改变了 AI 进程。在研发过程中,内部是否意识到这是一个划时代的突破?从注意力机制的引入到专家混合模型(MoE)的结合,算法改进与算力规模是如何共同作用,使现在的计算量达到十年前数十亿倍的?
Jeff Dean:我认为引发关注的起点是 Ilya 等人完成的序列到序列工作,该研究使用大规模 LSTM,最初在语言翻译上取得了极好效果。我们当时一直在尝试扩大 LSTM 规模,后来有人意识到,如果每个时间步都试图将所有信息打包进一个向量中,会面临序列依赖导致的计算瓶颈和容量限制。如果能保存所有状态并利用注意力机制予以处理,会是更好的选择。这一理念随后演化为 Transformer,其核心是保存并关注所有状态,这实现了计算的并行化,彻底摆脱了序列依赖,并且在解码或编码时可以查看更丰富的历史状态。
(关于注意力机制)Geoffrey Hinton:注意力机制最初被 Bahdanau 用于机器翻译,在生成法语译文之前保留完整的英语句子是合理的,当时的上下文规模并不大,他们将这种简单的注意力机制引入序列到序列模型后取得了巨大成功。Transformer 刚出现时我关注不够,因为我觉得大脑并不是通过保留所有神经活动向量副本这种方式运作的。
(关于 MoE 与效率提升)现在看来,可以通过快速权重等方式来近似模拟这一过程。第一篇 Transformer 论文证明,可以用少十倍到一百倍的算力获得同等质量的结果,或者在同等算力下获得极高的质量。我们在稀疏激活模型的规模化上也取得了类似结果,算力效率提升了十倍。这两项技术是互补的。现在我们将基于 Transformer 的专家混合模型结合在一起,性能提升产生了乘数效应。在过去十年中,算法改进与更快的芯片、更大的训练规模相结合,使现在的计算量达到了十年前的数十亿倍。我记得 2012 年左右,系统管理员在安装新的 Titan 显卡时动作稍慢,我当时就在计算他浪费了多少算力,如果我在 1986 年用 Lisp 机器运行神经网络,这块新显卡只需要一分钟就能追上它跑了二十多年的工作量。
Jeff Dean:我们当时在适中规模的团队里,短时间内识别出了知识蒸馏、Transformer、序列到序列模型以及词向量模型等成果。Transformer 在当时看来是重大突破,但我们当时并未预见到它会比其他技术重要得多,尽管它现在确实被证明极其有用。
06
Google 错过“ChatGPT 时刻”的内幕
在 ChatGPT 出现前,Google 内部已有 PaLM 等表现卓越的聊天机器人且拥有八万多名内部用户。当时内部是否讨论过以颠覆自身业务的方式发布它?Google 是否后悔开源了 Transformer 论文,以及当前的论文发表政策在竞争压力下有何调整?
Geoffrey Hinton:在 ChatGPT 之前,Microsoft 发布的聊天机器人 Tay 曾因喷射仇恨言论而吓坏了所有人。Google 在发布这类模型时非常谨慎,其实在 ChatGPT 之前,Google 已经拥有了像 PaLM 这样表现出色的聊天机器人,只是当时还没引入人类反馈强化学习,也没意识到通过少量样本就能有效抑制模型产生负面内容。
Jeff Dean:(关于搜索产品的考量)我们当时在 Google 内部有一个使用率极高的聊天机器人,在疫情期间有大约八万名员工在使用,大家都觉得它非常有用。但我们当时确实有些目光短浅,由于它存在幻觉和事实性错误,如果从搜索产品的角度来看,这是不可接受的。我们当时没能完全理解聊天系统在核心搜索之外的广泛用途,比如协助起草信函或总结论文等功能。单纯从搜索产品的视角来看,我们当时认为它还没准备好作为产品推向市场,但从用户价值的角度来看,员工反馈极其正面。因此,在正式对外发布前,我们希望先解决事实准确性与幻觉问题。
(关于论文发表政策)Google 不会后悔发表关于 Transformer 的论文,因为它对世界产生了非常深远且正向的影响。实际上我们仍然发表了大量成果,在 NeurIPS 的议程中,Google 通常有一百多篇论文入选。在超大规模模型领域,由于竞争异常激烈,我们对涉及核心商业利益的技术细节确实更加谨慎,比如我们不会公布 Gemini 训练方案的具体细节。但对于边缘领域或早期研究,我们依然乐于输出观点,坚持发表论文也是吸引顶尖人才的竞争优势。Google 的研究体系非常庞大,这保证了论文发表的广泛性。
07
TPU 的秘密:自研硬件构筑的结构性优势
TPU 被视为 Google 面对竞争时的护城河。这个项目最初是如何启动的,你是如何说服 CFO 在用途尚不明确时投入巨资的?神经网络对低精度运算的“宽容”如何影响了硬件设计的效率,TPU 的迭代如何改变了芯片研发的范式?
Jeff Dean:TPU 项目源于我们在语音识别和计算机视觉模型上取得的突破。当时我意识到,如果用传统的 CPU 平台运行这些模型,计算成本将不可想象。假设有 1 亿用户每天使用 3 分钟语音功能,改用 CPU 运行意味着 Google 必须将服务器数量翻倍。我们预见到强大神经网络将无处不在,神经网络的运算类型非常单一,且对低精度运算极其宽容,因为低精度带来的噪声正是神经网络所适应的。
Geoffrey Hinton:(关于硬件设计的容忍度)而且你甚至不需要纠错内存,因为个别位的错误对整体结果几乎没有影响。
Jeff Dean:没错,这就像是随机失活。当时我认为,如果建立一个硬件团队最初专注于推理环节,将能极大缓解大规模部署时的计算压力。于是我们决定直接研发定制 ASIC,因为 FPGA 虽然灵活,但性能损耗会抵消收益。我当时在走廊里拦住了首席财务官,说服他在用途尚不完全明确的情况下,先部署价值 5000 万美元的硬件。最终,这些设备在语音、视觉和翻译业务中发挥了巨大作用。随后硬件团队转向了规模更大的训练问题,致力于让大量芯片通过超高速互连协同工作,构建起机器学习超级计算机。目前我们已经迭代了多代产品,其布局效率已全面超越传统的人工设计方案,这改进了芯片的质量和研发速度。
08
大模型的本质是通过压缩挖掘深层共性
Transformer 会被取代吗?展望 20 年后,这项技术会给人类社会带来怎样的剧变?你们如何定义大模型的“创造力”,以及 AI 将如何在医疗与教育领域彻底重构现有的生产力分配?
Jeff Dean:有一些趋势值得关注,如果我们能让模型处理数万亿 Token,它就能直接阅读海量的科学文献库或视频库,这会彻底改变模型的应用范式。这需要更节能的硬件支撑。目前的模型大多是静态训练的,模型在服务用户时应当具备进化的能力。当前的架构依然不够自由,不像人脑那样灵活,我们需要探索更有趣的连接模式,而非目前这种由同等规模专家组成的稀疏 MoE 架构。
Geoffrey Hinton:(关于社会变革风险)如果有人造出它,要么人类从此过上幸福生活,要么集体走向终结,没有人能准确预见 20 年后的社会变革。显而易见的是,大量工作岗位会消失,这需要通过社会制度的演进来解决生产力提升后的财富分配问题。
Jeff Dean:(关于科学与创造力)我最期待的是 AI 对科学研究的加速作用。它能发现跨学科间的隐秘联系,并在某些领域实现科学发现的全自动化。
Geoffrey Hinton:大模型的本质是将海量知识压缩到有限的连接中,这种压缩过程迫使模型挖掘不同知识点背后的深层共性。它们已经在人类未曾察觉的地方找到了这些联系,比如希腊文学与量子力学之间可能存在的类比。这种极度压缩的能力让 AI 展现出真正的创造力。
(关于医疗与教育的未来)在医疗领域,效率提升意味着每个人都能获得更优质的医疗服务,而非医生人数的减少。在教育方面,AI 导师将通过积累数百万名学生的教学经验,最终超越人类私人教师,帮助人类吸收多得多的知识。
| 文章来源:数字开物
【AI技术与应用交流群|仅限受邀加入】
AI算力领域TOP级从业者专属圈层
√ 与头部算力企业深度对话
√ 与AI上下游企业深度对话
√ 获取一手全球AI与算力产业信息
√ 获取AI热点及前沿产业独家信息
√ 随时了解全球AI领域高管最新观点及实录全文
√ 有机会参与AI主题产业交流活动
扫码验证身份(需备注姓名/公司/职务
不止有 DeepSeek,更有 AI产业的未来!
• END •
【专栏】精品再读
热门跟贴