DeepSeek 火了之后,知名科技主播Lex Fridman,找了两位嘉宾,从 DeepSeek 及其开源模型 V3 和 R1 谈到了 AI 发展的地缘政治竞争,特别是中美在 AI 芯⽚与技术出⼝管制上的博弈。

介绍⼀下对谈的两名嘉宾:Dylan Patel 和 Nathan Lambert 。Dylan 运营着 SemiAnalysis,⼀家专注于半导体、GPU、CPU 和通⽤ AI 硬件的知名研究分析公司。Nathan Lambert 是艾伦⼈⼯智能研究所的研究科学家,也是著名 AI 博客 Interconnects 的博主。简单点说,两位技术专家都足够中立,所以观点颇为值得一看。

5 个小时的对谈,基于版本,我们精选出了5 万字,基本把 DeepSeek 的创新、目前 AI 的算力问题、AI 训练和蒸馏、以及产品落地等都聊透了。建议收藏后仔细阅读。

点击关注,每天更新深度 AI 行业洞察

01DeepSeek-R1 是目前最「开源」的开源模型之一

Lex Fridman:Nathan,你能否先介绍一下 DeepSeek-V3 和 DeepSeek-R1,它们的工作原理和训练方式?我们先从宏观层面入手,再深入细节。

Nathan:DeepSeek-V3 是中国 DeepSeek 公司新推出的混合专家 Transformer 语言模型。他们在模型中加入了一些新技术细节,我们稍后会详谈。总的来说,V3 是一个开源权重模型,属于指令模型,类似于 ChatGPT。他们还发布了基础模型,即应用后训练技术之前的版本。目前指令模型是主流,广泛应用于各种场景。V3 模型大约在 12 ⽉ 26 日那周发布的。几周 后的 1 ⽉ 20 日,DeepSeek 又发布了 DeepSeek-R1,这是一款推理模型,引发了更广泛的讨 论。

这款推理模型与 DeepSeek-V3 在训练步骤上有很多重叠之处。V3 既有基础模型,又有聊天模型,还有推理模型,这确实容易让人困惑。我认为当前 AI 行业面临的挑战之一就是如何有效沟通。OpenAI 也在吐槽自己的模型命名体系,例如 GPT-4o 、OpenAI o1 等,模型种类繁多。因此,我们将逐一解析这些模型,理清它们之间的区别。训练方面有很多技术细节,我们会由浅入深,逐步剖析。

Lex Fridman:我们可以聊很多,不如先从开源权重开始。模型开源权重是什么意思?广义上,开源的不同形式有哪些?

Nathan:AI 领域关于开源的讨论由来已久。自 2022 年底 ChatGPT 问世以来,开源问题变得愈发重要和受关注。「开源权重」是指语言模型的权重数据在互联网上公开,供人下载。这些权重数据可能附带不同的许可证,规定了你使用模型的条款。部分许可证源于历史悠久的开源软件领域,还有一些是公司专门设计的,例如 Llama 、DeepSeek 、Qwen 、Mistral 等流行的 开源权重模型,都采用了各自定制的许可证。情况比较复杂,因为即使是相似的模型,也可能采 用不同的许可条款。行业内的一个主要争议点是,什么才算真正的开源权重模型?以及,为什么 要用「开源权重」这个术语?它听起来和开源很像,但又有所不同。

关于开源 AI 的定义和本质,目前仍有争论。开源软件在修改自由、自主使用自由和使用限制等 方面有着悠久的历史。这些概念在 AI 领域的具体内涵仍在不断演变和界定。我所在的艾伦人工智能研究所是一家非营利机构,我们的目标是推动 AI 的开放普及,并倡导我们认为真正意义上的开源。尽管社区内部尚未完全达成共识,但我们认为,真正的开源应该包括发布训练数据、公开训练代码,以及开源模型权重,就像 DeepSeek 这样。后续我们会深入探讨模型细节,并反 复强调,数据处理、数据过滤和数据质量是决定模型优劣的首要因素。

此外,训练代码的质量直接决定了训练时间和实验迭代效率。缺乏完全开源的模型(包括数据和代码),模型的复现将变得异常困难,成本也会高得多。稍后我们会分析 DeepSeek-V3 的成本构成,重点关注 GPU 使用时长和租用成本。但如果没有数据,模型的复现成本将远超想象。代码开源与否,也面临着同样的问题。

Lex Fridman:补充一点,DeepSeek 的模型可能是目前最开放的前沿模型之一。

Nathan:是的。

Lex Fridman:在完全开源的 spectrum(光谱)上,正如你所说,完全开源包括开源代码、开源数据和开源权重。DeepSeek 的模型并非开源代码,数据可能也非开源,但权重是开源的,并且许可证也相对宽松,比如 MIT 许可证。当然,不同模型之间或许存在细微差别,但总体而言,其许可条款是倾向于自由开放的。就开源运动而言,DeepSeek 无疑是积极力量。

Nathan:的确如此。DeepSeek 在推动 AI 知识普及方面做出了杰出贡献。他们的论文详尽地阐述了技术细节,为全球其他团队改进自身训练技术提供了切实可行的参考。我们稍后会深入探讨许可证问题,DeepSeek-R1 模型采用了非常宽松的 MIT 许可证。这意味着商业应用不受任何限制,用例方面也几乎没有约束。你可以利用模型的输出生成合成数据,这些都是非常棒的特性。

我认为,与 DeepSeek-R1 最接近的开源模型是 Llama,它也开源了权重,并附带技术报告。Llama 的技术报告质量也很高,Llama 3 的论文是去年下载量最高的 PDF 之一。但在某些方面,Llama 的可操作性略逊一筹,它在训练细节方面的披露较少,图表等可视化信息也相对较少。此外,Llama 3 的许可证也比 MIT 许可证更为严格。DeepSeek 的定制许可证和 Llama 许可证之间有很多差异,我们完全可以就许可证展开深入讨论。不过,在深入细节之前,我们需要先明确是否要深入探讨许可证这个话题。

Lex Fridman:需要指出的是,DeepSeek 的开源举动,无疑对 Llama 以及包括 OpenAI 在内的所有其他机构都构成了压力,迫使他们朝着更加开放的方向发展。你之前提到过开源的另一个层面,就是信息的公开程度。DeepSeek 在详细信息披露方面做得非常出色,技术报告质量很高,内容详实,而非泛泛而谈。

Nathan:特别是在 DeepSeek-V3 的预训练论文中,他们清晰地阐述了其技术栈多个层面的创新。例如,为了实现高效训练,他们甚至在 NVIDIA 芯片的 CUDA 层或更底层进行了优化。我自己没有在 DeepSeek 工作过,但据我所知,全球范围内能够胜任这项工作的人屈指可数,DeepSeek 就拥有这样的人才。这类顶尖人才不仅在 DeepSeek,也在美国的前沿实验室工作,但数量确实不多。

Lex Fridman:关于开源权重,我们应该如何理解权重在窃取数据方面的潜在风险?

Nathan: 你可以从 Hugging Face 或其他平台下载模型权重,它们本质上是非常庞大的数字矩阵。你可以将这些权重下载到一台完全离线的电脑上,在没有互联网连接的环境下运行模型,从而完全掌控你的数据。这与当前许多语言模型的实际使用方式截然不同。现在,我们使用语言模型,通常是通过 API 接口,将提示发送到由特定公司运营的 GPU 上进行处理。这些公司在数据存储、是否使用用户数据进行模型训练、数据存储地点、是否加密等方面,都有不同的政策和措施。而开源权重模型则不同,你的数据命运完全掌握在自己手中,这与开源精神的核心理念高度契合。

Lex Fridman:所以,真正窃取数据的不是模型本身,而是模型的托管者。如果你使用 DeepSeek 的应用,数据可能会被中国方面获取;如果你使用 Perplexity 或 OpenAI 的服务,那么你的数据则分别由美国公司 Perplexity 或 OpenAI 掌握。一些公司位于美国,另一些位于中国,但模型本身并不具备窃取数据的功能,真正的数据控制权掌握在托管者手中。

02DeepSeek-V3和 DeepSeek-R1 的区别

Lex Fridman:回到我们之前讨论的基础知识。DeepSeek-V3 和 DeepSeek-R1 之间到底有什么区别?我们能否尝试理清这些概念,避免混淆?

Nathan:当然。首先,我完全理解大家对这两个模型名称感到困惑。我认为,理解它们之间差异的最佳方式是了解语言模型的训练过程。训练语言模型通常分为两个阶段:预训练和后训练。

预训练阶段,模型通过预测互联网上的海量文本数据中的下一个 token,学习语言的通用 规律。DeepSeek 的这两个模型,都采用了相同的大规模互联网文本预训练方式,得到了所谓的 DeepSeek-V3 base 模型。这是一个基础模型,主要功能是续写文本,但它可能不如 ChatGPT 那样易于使用。为了让模型具备更符合人类期望的行为,DeepSeek 在 V3 base 模型的基础上,进行了两种不同的后训练。其中一种后训练方式,是近年来 AI 领域比较常见的,旨在构建指令模型、聊天模型或所谓的「对齐模型」、「助手模型」。这类后训练方法包括指令调优、基于人类反馈的强化学习等等。

DeepSeek 通过这种「标准」的后训练流程,得到了 DeepSeek-V3 模型。V3 是 DeepSeek 发布的首个模型,其性能非常出色,可以与 GPT-4 、Llama 405B 等模型相媲美。在 V3 模型发布前后,DeepSeek 团队可能也在进行另一种不同的后训练流程。他们基于同一个预训练模型 V3 base,采用了一种全新的推理训练方法,从而得到了 DeepSeek-R1 模型。在我们的对话中,R 代表 Reasoning(推理)。R1 的命名方式也与 OpenAI 的 o1 推理模型类似。R1 的训练过程与 V3 有所不同,它采用了一系列更新颖的技术,更符合 AI 社区的研究前沿,因此也代表着一 个快速发展和演进的领域。稍后我们将更详细地分析 R1 的训练过程。

Lex Fridman:或许我们应该先明确一下预训练和后训练这两个术语的含义。它们是 AI 领域常用的概括性术语。什么是预训练?什么是后训练?后训练又包含哪些不同的类型?

Nathan:预训练,正如我之前强调的,其核心是自回归预测,即预测文档序列中的下一个 token。预训练通常需要处理数万亿级别的 token,数据主要来源于网络抓取。DeepSeek 在早期的论文中提到,他们的训练数据来自 Common Crawl 等公开数据集,并经过数学知识的提炼。Common Crawl 是一个公开可访问的互联网爬虫项目,任何人都可以从其网站下载数据。当然,大型科技公司最终会转向使用自建爬虫,DeepSeek 以及大多数前沿实验室可能也是如此。但 Common Crawl 之类的数据集,为研究人员提供了一个很好的起点。预训练的目标是让模型学习预测文本序列中的下一个词。

预训练可以扩展到非常大的规模,并且效率很高。AI 训练中经常会提到一些指标,例如浮点运算次数(FLOPS)和 GPU 使用时长。预训练通常会使用单一的损失函数,并投入大量的计算资源。研究人员构建高效的系统,最终得到的就是基础模型。预训练阶段的复杂性主要体现在训练过程的演进方式和不同损失函数的选择上。许多预训练技术都源于自然语言处理领域的文献。指令微调是其中最古老,但至今仍被广泛采用的技术,也被称为监督微调,缩写为 IFT 或 SFT。

IFT 和 SFT 这两个术语经常被交替使用,我个人也可能会混用。

指令微调的核心思想是,在模型中加入特定的格式,使其能够理解并响应指令。例如,当模型接收到「请解释罗马帝国的历史」这类问题,或者类似 Reddit 、StackOverflow 上的提问时,模型能够以信息量丰富且易于理解的方式给出答案。指令微调阶段的关键在于训练模型理解和遵循指令的格式。除了指令微调之外,目前还使用了另外两类损失函数。一类是偏好微调。

偏好微调是人类反馈强化学习(RLHF)的广义术语。RLHF 被认为是 ChatGPT 取得突破的关键技术。它的核心在于,使模型的回复不仅格式良好(如 Reddit 问答),而且更符合人类的阅读偏好。

偏好微调通过收集人类的成对偏好数据来实现。最初的数据标注工作由人工完成,现在也开始引入 AI 进行数据标注,其中存在一些权衡。偏好微调使用对比损失函数,让模型学习区分好答案和坏答案,并学习人类偏好的模式。具体的实现方法有很多种,例如奖励模型、直接对齐算法等等。这些方法都旨在微调模型,使其输出更符合人类的偏好。

最后一个阶段,也是最新的技术,与 R1 等推理模型密切相关,OpenAI 将其称为强化微调 API。这个思路是将强化学习技术应用于语言模型微调。强化学习是 AI 的一个重要分支,有着深厚的理论基础。

简单来说,强化学习是一种试错学习方法,或者说是 AI 的一个子领域,专注于在可能存在噪声的环境中进行序列决策。我们可以从很多角度深入探讨强化学习,但就语言模型微调而言,其核心思想是让模型生成答案,然后检查答案是否正确。对于数学题或代码题这类问题,我们可以精确地判断答案是否正确,例如数学题有标准答案,代码题可以通过单元测试来验证。我们所做的,就是检查语言模型的工作成果,并让模型多次尝试回答同一问题,以判断其是否正确。通过不断地迭代训练,模型在可验证的领域,例如数学和编程方面,可以取得显著的性能提升。这项技术非常有效,在学术界也比较新颖。美国的一些前沿实验室已经使用了多年,但并未公开所有细节。将强化学习应用于语言模型,尤其是在 DeepSeek 时刻之后,正成为一个热门趋势。

Lex Fridman:再次强调,在整个技术栈的各个层面,都有激动人心的新进展。但今年后训练领域可能会迎来更多有趣的突破。

03R1 的 Aha Moment

Lex Fridman:我差点忘了讨论 DeepSeek-V3 和 R1 在用 户体验上的差异。抛开技术细节,对于不了解 AI 的普通用户而言,当他们与 V3 和 R1 模型互动时,实际体验有何不同?它们各自擅长什么?

Nathan: 我们先从 DeepSeek-V3 开始,它与用户已经体验过的模型比较相似。当你向 V3 提问时,它会快速生成 token,这些 token 会组合成易于理解的人类语言答案,通常会采用 Markdown 列表的形式,并带有格式,突出显示答案的核心要点。V3 可以生成数十甚至数百个 token。Token 通常是一个词,对于常用词或长词的一部分,它可能只是一个子词。V3 的回复看起来就像 Reddit 或 StackOverflow 上的高质量答案。我认为,这些模型在各个领域都变得 非常擅长生成这类回复,即使是一些非常专业的、接近知识前沿的领域,它们也能给出相当不错的回答。即使对于我所研究的前沿 AI 课题,这些模型也能够作为学习辅助工具,并且模型的能力也在不断更新迭代。

DeepSeek-R1,也就是我们所说的推理模型,则有所不同。当你观察 R1 生成的 token 时,你会发现首先出现的是大量的思维链过程。模型在生成答案之前,会先解释问题,分解问题。例如,「他们问了我这个问题,我需要分解一下,我需要做以下几个步骤。」所有这些推理过程都会以 token 的形式快速生成,因为 API 速度很快,你会看到屏幕上迅速涌现大量的词语,持续不断地输出,这就是整个推理过程。

在完成推理过程后,R1 模型的语气会发生转变,开始给出最终答案,答案的形式与 V3 等模型类似。DeepSeek R1 之所以受到 AI 领域内外的广泛关注,部分原因在于它允许用户看到模型分解问题的过程。在技术层面,DeepSeek 对 R1 模型进行了专门训练,使其能够执行这种两阶段过程:首先进行推理,然后生成答案。在推理阶段结束后,模型会生成一个特殊 token(通常对用户隐藏),表明「好的,我开始回答了」。如果你使用 OpenAI 的类似模型,OpenAI 的用户界面会尝试以更友好的方式呈现这个过程,例如将推理过程分解为「分解问题」、「进行 X 计算」、「清理结果」等步骤,并以点击切换的方式展示,最终才给出答案。

Lex Fridman:或许我们可以举一个 DeepSeek-R1 推理的例子。

Nathan:这是 DeepSeek 聊天应用的截图。顶部显示「思考了 157 秒」,旁边有一个下拉箭头。如果我们实际运行这个应用,点击下拉箭头就可以展开查看模型的推理过程。

Lex Fridman:在这个例子中,我提出的问题带有一些哲学性和「瘾君子」倾向,我向 DeepSeek- R1 询问一个关于人类的真正新颖的见解。模型揭示了其推理过程,其核心在于「新颖性」。模型不断地自我追问,「这真的是新颖的吗?」它实际上是在挑战自己,力求更具新意、更反直觉、更不落俗套。部分推理过程如下(这只是部分快照):「或者,人类拥有一种独特的元情绪,他们会对自己的情绪产生情绪,例如,对生气感到内疚。这种递归的情感分层创造了其他动物所不具备的复杂动机驱动力。其洞见在于,人类的情绪是嵌套的。」模型深入分析了人类如何体验情绪,以及元情绪的概念。

Nathan:推理过程会持续很多页,信息量很大,可能难以逐字阅读,但快速浏览一下还是很有价值的。

Lex Fridman:这就像是詹姆斯·乔伊斯式的意识流。

模型会不断追问,「等等,用户想要的是前所未有的见解,让我再深入挖掘一下。」然后模型会思考「人类同时持有矛盾信念的能力」,并指出「认知失调是已知的,但或许它的作用在于促进灵活适应」。这种推理过程确实激发了公众的想象力,让人惊呼「我的天啊,这不仅仅是智能,这简直就是意识的萌芽!」因为它在思考,在自我反思,在进行审慎的思考。经过 157 秒的「思考」,模型的最终答案是:「人类本能地将自私的欲望转化为合作系统,通过集体虚构抽象规则,如金钱、法律、权利,并假装它们是真实的。这些共同的幻觉就像 『游戏 』,在这些游戏中,竞争被巧妙地转移,以造福整个群体,将冲突转化为社会发展的动力。」这个回答相当深刻。

Nathan:这可能有点跑题了,但很多人都认为,推理模型有时可以生成更富有文采的文本。至少在这个例子中,我认为,取决于你对语言模型的接受程度,你会发现语言模型或多或少都很有趣。

Lex Fridman:我们稍后会讨论各种基准测试,但有时,仅仅是感觉就足够了。这种感觉本身就足以引发「哇」的惊叹。好吧,这或许是一个值得深入探讨的话题。

04DeepSeek 是如何实现低成本训练的?

Lex Fridman:DeepSeek 是如何在训练和推理方面实现如此低成本的?先来谈谈训练成本吧。

Dylan:他们主要采用了两项关键技术来提升效率,此外还有一些实施细节,这些细节也对效率提升有所贡献。这两项主要技术分别是:一是采用了混合专家模型(MoE);二是他们发明了一种名为 MLA(潜在注意力)的新技术。这两项技术都非常重要。

混合专家模型在学术界已经存在多年。OpenAI 的 GPT-4 是第一个将混合专家模型产品化的。这意味着,我们常见的模型,例如 Llama,它是一个稠密模型,也就是说,在生成每 个 token 时,模型的每一个参数或神经元都会被激活。

而混合专家模型则不同。人类大脑的工作方式是,视觉皮层在处理视觉任务时处于活跃状态,杏仁核在感到恐惧时活跃。大脑的不同区域负责不同的功能。专家混合模型在一定程度上模拟了这种机制。虽然它远不如人脑复杂,但模型中不同的部分会被激活。模型中预设了一组专家,每次只激活其中的一部分。这大大降低了训练和推理的成本。因为,如果你将模型的参数量视为模型用于压缩训练知识的总嵌入空间,那么,一方面,模型可以将数据嵌入到更大的参数空间中,另一方面,在训练或推理时,模型只需要激活一部分参数,模型会自动学习针对不同任务路由到哪个专家。

因此,在以下方面,这是一个巨大的创新:我可以持续扩展模型的总嵌入空间,容纳更多的知识。DeepSeek 的模型拥有超过 6000 亿个参数,相比之下,Llama 405B 有 4050 亿参数,Llama 70B 有 700 亿参数。从参数规模上看,DeepSeek 模型拥有更大的信息压缩空间,可以容纳更多来自互联网的世界知识。但与此同时,模型每次只激活约 370 亿个参数。也就是说,在训练或推理过程中,只需要计算 370 亿个参数。相比之下,Llama 模型每次推理都需要激活 700 亿或 4050 亿个参数。因此,采用混合专家架构可以显著降低训练和推理的计算成本。

Nathan:我们是否应该深入探讨一下混合专家模型在 Transformer 架构中的应用,以及它的具体作用?

Lex Fridman:当然,聊聊 Transformer 架构吧。

Nathan:Transformer 架构是一个被广泛讨论的话题,我们今天不会面面俱到。简单来说,Transformer 是由重复堆叠的注意力机制模块和传统的前馈神经网络模块构建而成。你可以将前馈神经网络理解为普通的多层感知器。Transformer 模型就是由这两种模块交替堆叠而成。

当然,Transformer 的细节远不止于此。专家混合模型主要应用于 Transformer 架构中的前馈神经网络模块。前馈神经网络模块占据了 Transformer 模型的大部分权重参数。因此,通过在前馈网络中引入专家混合模型,可以显著提高参数利用率,降低训练和推理的计算成本,因为它有效地减少了需要激活的参数数量。

Lex Fridman:我们还需要补充一点,Transformer 本身就是一个巨型的神经网络。

Nathan:是的。

Lex Fridman:在过去的 15 年里,深度学习领域发生了一场革命。神经网络的规模变得越来越庞大。在某个阶段,人们发现了缩放定律(Scaling Law),即模型性能会随着模型规模的扩大而提升。

人们逐渐认识到,在多个维度上,更大的模型通常性能更优。「更大」可以有很多不同的含义,但核心思想是,更大的神经网络通常性能更好。我们今天讨论的所有模型,本质上都是神经网络,我们正在探讨的是如何设计这些神经网络的架构,从而提高训练和推理的效率。

Nathan: 是的。每种模型架构都有其特定的缩放定律,也就是说,模型性能随着计算资源投入的增加而提升。即使不考虑推理方面的优势(实际上也很显著),专家混合模型在训练效率方面也表现出色。如果实施得当,采用专家混合模型架构可以显著提高 GPU 的利用效率。在评估指标相似的情况下,使用专家混合模型可以将计算量减少约 30%。当然,实际的效率提升幅度会因具体的实施细节而有所不同。重要的是,要认识到,这类技术创新能够带来巨大的收益。我预计,未来大多数提供 AI 模型的公司都会转向专家混合模型。从历史角度来看,并非所有人都采用专家混合模型,主要是因为实施起来比较复杂,尤其是在训练大型模型时。

DeepSeek 之所以备受赞誉,其中一个重要原因在于他们在专家混合模型方面做得非常出色。DeepSeek MoE(专家混合模型)架构并非横空出世,而是经过多篇论文的迭代演进。他们训练基础设施的这一部分并非 DeepSeek 独有。Dylan 刚才提到的多头潜在注意力也是如此。MLA 主要用于减少推理过程中的内存占用,训练过程也是如此,它利用了一些巧妙的低秩近似数学技巧。深入研究潜在注意力的细节,你会发现 DeepSeek 在模型实现方面下了很大功夫。

因为,除了注意力机制,语言模型还有其他组件,例如用于扩展上下文长度的嵌入。DeepSeek 采用的是旋转位置编码(RoPE)。如果将 RoPE 与传统的 MoE 结合使用,需要进行一系列操作,例如,将两个注意力矩阵进行复数旋转,这涉及到矩阵乘法。DeepSeek 的 MLA 架构有所不同,为了兼容 MLA,他们需要进行一些巧妙的设计,这无疑增加了实现的复杂性。他们成功地将这些技术整合在一起,这表明 DeepSeek 在高效语言模型训练方面走在了前沿。这些技术可能也正是 OpenAI 等封闭实验室正在使用的。我们无法确知他们是否采用了完全相同的技术,但 DeepSeek 慷慨地与世界分享了他们的创新成果,这非常值得称赞。

Lex Fridman:其中一些技术需要底层工程的专业知识,涉及到大量的技巧和复杂的细节。据我所知,DeepSeek 甚至深入到了 CUDA 层以下,对 GPU 进行了底层的编程优化。

Dylan:实际上,英伟达构建了一个名为 NCCL 的库,用于在模型训练过程中实现 GPU 之间的通信。训练大型模型时,模型通常有数百层,每一层之间都需要进行大量的通信。

Nathan:NCCL 的全称是什么?

Dylan:NVIDIA Collective Communications Library(英伟达集合通信库)。

在模型的每一层,例如多层感知机或前馈网络与注意力机制之间,都需要进行大量的 allreduce 和 allgather 操作,以确保模型参数在 GPU 之间同步。这就是 GPU 集群之间的通信,无论是在训练还是推理阶段。Nvidia 提供了一个标准库 NCCL 来处理这些通信。这也是为什么使用其他厂商的硬件进行模型训练非常困难的原因之一,因为目前还没有其他厂商构建出像 NCCL 这样完善的标准通信库。Nvidia 在较高层面上提供了解决方案。

DeepSeek 之所以需要进行底层优化,是因为他们所能获得的 GPU 资源受到一些限制。他们使用的 GPU 可能在互连带宽方面存在一定的瓶颈,这可能是由于美国对华出口管制政策造成的。为了克服这些限制,DeepSeek 必须想方设法提高效率。其中一个方法就是不直接调用 NVIDIA 的 NCCL 库,而是自行调度 GPU 之间的通信。一些实验室也采用了类似的策略。

Meta 在 Llama 3 的论文中也提到,他们开发了自己的 NCCL 定制版本,但没有公开具体的实现细节。DeepSeek 可能也做了类似的事情,甚至可能做得更好,因为「需求是创新之母」,他们不得不这样做。OpenAI 、Anthropic 等公司也有专门的人员从事这类底层优化工作。但 DeepSeek 的独特之处在于,他们不仅公开了这些技术细节,而且可能做得更出色,因为他们在 GPU 资源方面受到了一定的限制。

他们通过调度特定的 SM(流式多处理器)来管理 GPU 通信。你可以将 SM 理解为 GPU 的核心。一块 GPU 芯片上通常有数百个 SM 核心。DeepSeek 会精细地控制哪些 SM 核心负责模型计算,哪些核心负责 allreduce 或 allgather 通信,并在它们之间进行动态切换。这需要极其低级的编程技巧。

Nathan:这通常是 NCCL 自动处理的,或者其他 Nvidia 库自动处理的。

Dylan:没错。从技术角度讲,他们使用的是 PTX,你可以把它看作是一种汇编语言。它并不完全等同于汇编语言或指令集,但它仍然是 CUDA 的一部分。在编程层面,你可以选择使用 Python 或 PyTorch 等高级语言,调用 Nvidia 库;也可以深入 C 语言层面进行更低级别的编码;甚至可以深入到汇编或 ISO 级别进行极致优化。大型实验室在某些情况下会进行最底层的优化,但大多数公司不会这样做,因为这会耗费大量的时间,而且效率提升并不划算。

但是,DeepSeek 的实施方案非常复杂,尤其是他们的混合专家模型。虽然专家混合模型并非新技术,但通常的 MoE 模型只包含 8 个或 16 个专家,每次激活 2 个。我们通常用稀疏因子或使用率来衡量 MoE 模型的效率。例如,Mixtral 模型每次推理可能只激活 1/4 的模型参数。OpenAI 以及其他一些封闭实验室也使用了 MoE 模型。但 DeepSeek 的创新之处在于,他们采用了极高的稀疏因子。他们的 MoE 模型并非只激活 1/4 的参数,而是从 256 个专家中激活 8 个。

Nathan:专家混合模型有不同的实现方式。有些模型会让部分专家始终处于激活状态,这些专家就像一个小的神经网络,所有 token 都会经过这些专家,然后再根据路由机制选择性地激活其他专家。

DeepSeek 架构的创新点之一在于他们改进了专家混合模型的路由机制。MoE 模型通常会采用一种名为辅助损失的机制,以确保所有专家在训练过程中都能被充分利用。MoE 模型可能失效的原因之一是,在训练过程中,模型可能会倾向于只使用一部分专家。MoE 文献中提到的辅助损失,就是为了平衡各个专家的使用率。但如果你从深度学习损失函数的角度来看,并结合「苦涩的教训」的观点,你会发现,我们应该尽量减少模型中的归纳偏置,让模型尽可能自主地学习。而辅助损失,这种平衡专家使用率的做法,在某种程度上可能与 token 预测的准确性相悖。

我们尚不清楚 DeepSeek MoE 的具体改进之处,但他们似乎并没有采用辅助损失,而是在路由 机制中引入了一个额外的参数。在每个批次处理完成后,他们会更新这个参数,以确保后续批次能够更均衡地使用所有专家。这种调整看似微小,但日积月累,效果可能会非常显著。这表明 DeepSeek 在持续进行技术创新。

我相信,所有训练大型 MoE 模型的实验室都在关注类似的问题,例如如何摆脱辅助损失。一些实验室可能已经不再使用辅助损失。通过不断积累小的改进,并在数据、架构和后训练等多个方 面进行优化,并将其有机结合,模型的性能就会不断提升。

DeepSeek 也遵循同样的理念,他们公开分享了很多技术细节,包括架构和权重,这让我们能够深入了解他们的工作原理。这些看似微小的改进累积起来,最终会产生巨大的影响。

Dylan:回到效率和复杂性的问题。DeepSeek 的稀疏度比例高达 32:4,而 Mixtral 等已公开 MoE 模型的稀疏度比例仅为 4:2 或类似水平。DeepSeek 的稀疏度比例非常高。Nathan 之前提到,当稀疏度如此之高时,你不能简单地让每个 GPU 都加载整个模型,因为模型实在太大了。因此,必须采用不同类型的并行策略来拆分模型。

例如,你可能将不同的专家分配到不同的 GPU 节点上。但是,当模型接收到一组数据时,如果所有数据都倾向于路由到模型的某一部分,就会导致模型负载不均衡。当所有 token 都路由到模型的一部分时,某些 GPU 资源或 GPU 集群可能会过载,而训练网络的其余部分则会处于空闲状态。

因此,如何实现专家之间的负载均衡,如何调度它们之间的通信,是运行高稀疏度专家混合模型(如 DeepSeek MoE)面临的最大挑战之一。DeepSeek 在公开文献中首次详细阐述了他们是如何解决这些低级技术难题的,这在全球范围内可能也是领先的。

Lex Fridman:从所有这些技术细节中,对「苦涩的教训」有什么新的理解?未来的发展方向是这种低级别的优化,还是短期内最大的收益将来自于后训练的高级算法层面?DeepSeek 的创新是短期的技术突破,还是预示着未来发展的大方向?

Nathan: 我们需要首先回顾一下《苦涩的教训》的核心思想。《苦涩的教训》的核心观点是,在深度学习领域,最终胜出的训练方法,将是那些具有可扩展性的学习和搜索方法。

「可扩展性」是这篇文章中被反复强调的关键词。我个人理解,《苦涩的教训》的核心在于避免在学习过程中引入过多的人为先验知识。原始论文中,作者强调,研究人员往往会试图针对特定问题设计巧妙的解决方案,这些方案可能在短期内带来少量收益,但从长远来看,那些能够有效利用深度学习系统,解决更宏大、更复杂问题的简单方法,更有可能持续推动 AI 的进步和成功。

因此,我们刚才讨论的,是一些相对微小的专家混合模型实施细节上的改进。现在断言这些细节是否对「苦涩的教训」至关重要,还为时尚早。《苦涩的教训》的核心是关于长期发展趋势的洞见,即简单性往往能够胜出。

AI 行业内流传着一句谚语:「模型渴望学习,你只需要给它们一个简单的损失 landscape,投入足够的计算资源,它们自然会学会,关键在于扫清学习过程中的障碍。」

Lex Fridman:这就是像 NCCL 这样的工具的价值所在,它提供标准化的代码,让更多人能够基 于此进行简单的创新,并实现规模化。相比之下,我猜测 DeepSeek 的代码库可能比较混乱。

Nathan:我确信 DeepSeek 肯定有一些代码库非常混乱,用于测试各种新想法。多头潜在注意力很可能最初只是在 Jupyter Notebook 上进行实验,或者有人在几个 GPU 上进行尝 试,初期代码肯定比较粗糙。但用于训练 DeepSeek V3 和 DeepSeek-R1 的那些库,如果展示给我们看,我猜测它们的代码质量会非常高。

Lex Fridman:高质量、可读性强的代码,是吗?

Dylan:我认为需要注意一个方面,代码的质量和可移植性之间可能存在权衡。你可能为一个特定的模型架构和尺寸编写了非常高质量的代码,但当你对架构进行微调时,一切可能又会崩溃。

例如,他们对 SM 进行低级调度的代码,可能只适用于当前的特定模型架构和尺寸。相比之下,Nvidia 的 Collectives Library 则更具通用性。「嘿,它适用于任何模型」,对吧?「你想进行 allreduce 操作?没问题,我不在乎你的模型架构是什么,它都能工作。」当然,在许多情况下,这样做会牺牲一些性能,但对于 Nvidia 来说,通用性比极致的性能更重要。而 DeepSeek 则根据自身在计算资源方面的限制,针对特定运行进行了精细的优化。

05模型训练就是一把 All in

Nathan:每家公司都有训练失败的经历。失败的运行是推动基础设施进步的必要组成部分。因此,经常会看到新闻报道某公司发生了 Y 次训练失败。实际上,所有试图突破 AI 前沿的公司都会经历训练失败。因此,失败是值得注意的,因为它意味着大量的资金损失,以及可能导致数周甚至数月的延误,但这也是研发过程的必然组成部分。

Lex Fridman:对于 DeepSeek 来说,他们是如何找到超参数的成功组合的呢?

Nathan:通过大量小型失败的运行。

Lex Fridman:然后逐渐积累经验,例如专家混合模型是有效的,MLA 的实现方案是可行的。

Nathan:关键超参数,例如学习率、正则化系数等,都需要不断尝试和调整,最终找到适用于你的代码库的最佳配置。与前沿实验室的人交流,你会发现,训练语言模型就像探索一条未知的道路,需要不断试错。你需要先解锁训练某种类型的模型或某种规模的模型的能力,然后你才能逐渐掌握适用于该模型的超参数配置。

你看看 DeepSeek 的论文和模型,它们一直在扩大模型规模,增加模型复杂度,不断提升自身的能力。

Dylan: 这里涉及到 YOLO 运行的概念。YOLO,You Only Live Once(你只活一次)。

Lex Fridman:是的。

Dylan:YOLO 运行指的是,在进行大规模训练之前,需要进行大量的实验和消融研究。你可能会在 Jupyter Notebook 上,在三五个 GPU 上尝试 MLA,探索各种不同的配置,例如,激活 4 个专家还是 128 个专家?专家应该如何排列?等等。所有这些模型架构方面的探索,都需要在小规模上进行测试。

几个研究人员,几块 GPU,几十块 GPU,甚至几百块 GPU,都可以进行小规模实验。当实验积累到一定程度,你可能会觉得,「好了,伙计们。别再瞎搞了。大家都认真起来。拿出我们所有的资源,选择我们认为最靠谱的配置,然后全力以赴,冲啊!」这就是所谓的 YOLO 运行。

这种运行方式充满了压力,因为你知道,在小规模实验中有效的配置,在大规模训练中可能并不 奏效。在从小规模到大规模的扩展过程中,很多因素都会发生变化。因此,YOLO 运行真的是一种冒险。有些研究人员非常注重方法论,他们会系统地探索整个搜索空间,分析不同配置的消融结果,力求找到最佳方案。而另一些研究人员则更依赖直觉,他们可能只是凭直觉判断,「这就是 YOLO 运行的最佳时机。我感觉就是它了。」

Nathan:这就是为什么在后训练阶段进行 YOLO 运行风险更低的原因,因为后训练的 GPU 成本相对较低。因此,你可以进行更多比例的 YOLO 运行。

Lex Fridman:所以,在某种程度上,这仍然是靠运气,对吧?

Dylan:在很多情况下,运气也是一种技能,对吧?

Nathan: 但是,如果你在这些实验室工作,并且你有一个评估指标没有达到预期,那么就有一套重复使用的剧本,可以用来改进模型性能。可以进行局部优化,例如改进数据。这些小的改进累积起来,最终会让整个模型变得更好。

当你深入细节时,你会发现模型在某些方面存在明显的不足,而这些不足是可以修复的。不断积累这些小的改进,最终就能取得显著的进步。因此,有些时候,这看起来像是运气,但实际上,尤其是在我们讨论的这些新型推理模型中,有很多潜在的改进方向。通常,一些小的调整就能带来意想不到的性能提升。

Dylan:搜索空间是近乎无限的,但我们拥有的计算资源和时间却非常有限,而且还需要按时发布模型,以免被竞争对手超越。DeepSeek 之所以能够超越 Meta 、Mistral 、Cohere 等公司,或许是因为后者行动过于迟缓,或者过于注重方法论,没有及时进行 YOLO(You Only Live Once,可以理解为 all in)。无论原因是什么,也许是他们不够熟练,或者你可以称之为运气,但归根结底,这都是技能的体现。

Lex Fridman:所以,2025 年将是 YOLO 之年。看起来所有的实验室都在全力冲刺。

Dylan: 我认为 OpenAI 在 2022 年所做的更令人印象深刻。当时,即使在谷歌内部拥有众多研究人员的情况下,也没有人相信混合专家模型。OpenAI 的计算资源非常有限,但他们仍然将所有计算资源,100% 的资源,投入到 GPT-4 的训练中,长达数月之久,采用了一种全新的架 构,并且他们并没有完全把握,只是抱着「让我投入数亿美元,这几乎是我所有的资金」的心态,毅然决然地进行了 YOLO 运行。

那才是真正的 YOLO 精神。

Dylan: 现在,媒体上充斥着各种关于训练运行失败的报道。当然,失败是常有的事。但实际上,这些公司 GPU 的大部分算力都用于推理服务。他们仍然有大量的 GPU 用于持续的研究工作。当然,他们也有最大的集群用于训练,进行 YOLO 运行。但与 OpenAI 在 2022 年所做的,或者 DeepSeek 现在所做的 YOLO 运行相比,现在的 YOLO 运行风险要小得多。OpenAI 和 DeepSeek 当时几乎是在赌上身家性命。

Lex Fridman:纵观人类历史,伟大的成功者往往都是那些在关键时刻敢于 YOLO 一把的人。

06出口管制的真正影响是降低了 AI 应用的普及速度

Lex Fridman:能否再从宏观角度谈谈 Hopper 架构、Nvidia Hopper GPU 架构,以 及 H100 和 H800 之间的区别?

Dylan:在安培架构 A100 之后,就是 Hopper 架构 H100。在美国,人们经常将 H100 和 Hopper 混用,因为实际上只有 H100,现在又有了 H200,但它们基本是相同的。

在中国,美国政府实施了多轮出口限制。最初,美国政府采用双重标准,即芯片的互连速度和浮点运算性能(FLOPS)。任何互连速度和 FLOPS 超过一定阈值的芯片都受到限制。后来,美国政府意识到这种限制存在漏洞,他们将标准简化为仅限制浮点运算性能。

Nathan:H800 拥有高 FLOPS,低通信能力?

Dylan: 完全正确。H800 的 FLOPS 性能与 H100 相当,但互连带宽被削减了。DeepSeek 知道如何利用这一点。「嘿,即使互连带宽受到限制,我们仍然可以通过一些巧妙的方法来充分利用 GPU 的计算能力。」

那是 2022 年 10 月的事情。但在 2023 年晚些时候,美国政府禁止了 H800 的出口,在 2024 年开始实施,。顺便说一句,DeepSeek 的这个 2,000 个 H800 GPU 的集群甚至不是在 2024 年购买的,而是在 2023 年底购买的。他们之所以现在才发布模型,是因为模型训练需要大量的研究和开发时间。

H800 被禁后,Nvidia 又推出了一款新的芯片,名为 H20。H20 仅在 FLOPS 方面有所削减,但互连带宽保持不变。事实上,在某些方面,H20 甚至比 H100 更好,因为它拥有更高的内存带宽和更大的内存容量。Nvidia 正在努力在政府设定的限制范围内,为中国市场打造尽可能最好的 GPU。

Lex Fridman:我们不妨借此机会深入探讨一下出口管制政策的理念、动机和理由。Dario Amodei 最近发表了一篇博文,也讨论了出口管制。他提出的理由是,如果 AI 变得超级强大,他预测到 2026 年我们将迎来 AGI 或超级 AI,这将给拥有这项技术的国家带来巨大的军事优势。

他认为我们应该努力维护一个单极世界,一旦出现两个都拥有超级 AI 的超级大国,地缘政治格局将变得更加复杂和危险。这就是 Dario 的论点。因此,美国希望通过出口管制来减缓中国 AI 技术的发展速度,确保中国无法进行构建 AGI 所需的大规模训练运行。

Nathan:这是一种非常宏大的战略视角。超级 AI 的军事应用,或许可以被视为出口管制政策的潜在目标之一。但具体到训练运行层面,出口管制不太可能完全阻止中国训练 AI 模型。出口管制可能旨在限制中国能够获得的计算资源规模和密度。

如果你关注当前 AI 生态系统的发展,你会发现 AI 公司的收入持续增长,AI 应用场景不断拓展,越来越多的 GPU 被用于推理。出口管制,如果能够有效实施,其主要影响可能是大幅降低中国 AI 应用的普及程度。

在训练方面,DeepSeek V3 就是一个很好的例子,证明即使在有限的 GPU 资源下(2,000 个 GPU,考虑到全球范围,这个数量并不算太大),一个专注的团队仍然有可能在 AI 前沿领域取得突破。中国仍然可以获得这些 GPU,仍然可以训练出先进的 AI 模型。但是,如果 AI 市场持续扩张,需求激增,即使中国设法绕过出口管制,拥有了 10 万个 GPU 用于部署类似 ChatGPT 的服务集群,出口管制仍然会限制中国 AI 应用的普及程度。

我认为,出口管制更现实的目标是限制中国 AI 应用的普及程度,而不是完全阻止中国 AI 技术的 发展。这比试图定义什么是 AGI,以及如何阻止 AGI 的出现要务实得多。如果未来真的出现极其智能的自主 AI,那么这些更先进的 AI 应用,可能会在美国的 GPU 集群中蓬勃发展,但在中国却难以实现。

Dylan:在某种程度上,训练模型本身并没有什么实际意义。关键在于如何应用训练好的模型,将其转化为巨大的经济效益、军事能力的提升、生产力的提高以及生活质量的改善。无论你希望将超级 AI 应用于哪个领域,都需要大量的计算资源作为支撑。

我们之前提到,Meta 拥有 40 万个 GPU,但只有 16,000 个用于训练 Llama 模型。Meta 将大部分 GPU 资源用于推理服务,例如,为用户推荐 Instagram Reels,这可能只是为了让你花更多时间观看广告,或者用于其他更具生产力的 AI 应用。

无论我们的经济体系如何分配这些资源,关键在于美国可以自由地将这些资源导向任何我们认为有价值的领域。相比之下,对于中国,出口管制政策,尽管不可能完全阻止他们获得技术,但我认为美国政府也清楚地认识到这一点。

Nathan:他们会制造自己的芯片。

Dylan:他们正在努力制造自己的芯片。尽管国产芯片的性能可能不如美国芯片,但出口管制的目的是保持技术差距。在一个经济增长只有 2% 或 3% 的世界里,切断高科技产品的出口,实际上是一种非常愚蠢的做法,会损失大量的经济利益。但在一个超级 AI 即将出现,并将对社会产生重大变革的世界里(这也是所有 AI 领导者和科技巨头所相信的),我认为超级 AI 将对社会产生颠覆性影响。

因此,计算资源差距的累积效应至关重要。在一些科幻作品中,AI 的实力甚至可以用其消耗的电力来衡量,这在某种程度上也反映了经济产出的规模,即你将多少电力投入到 AI 领域,就可能获得多大的经济回报。

Nathan:我们是否应该结合推理模型来讨论这个问题,以便让大家更直观地理解出口管制的影响?R1 和 o1 等推理模型的出现,意味着 AI 系统在执行复杂任务时将更加依赖推理计算。AI 社区中涌现出许多新词汇,例如「测试时计算」、「推理时计算」等等。

Dylan: 我们可以通过具体的数字来量化训练计算和推理计算之间的比例关系。

这些推理模型的出现,正在大幅提升推理在复杂任务中的重要性。去年秋季,OpenAI 宣布了 o1 模型。我们现在可以确认 o3-mini 已经发布,但这并不影响我们讨论的核心问题,即突破性成果——ARC-AGI 任务。

ARC-AGI,即抽象推理语料库,是一个用于评估通用人工智能的任务,由弗朗索瓦·肖莱特提出,他是一位杰出的 AI 研究者。这是一个历时多年的项目,也是一个非常出色的基准测试。OpenAI o3 在解决 ARC-AGI 任务时,采用了 API 中的一种名为「思考努力程度」和「样本数量」的机制,使用了 1000 个样本,每个问题的计算成本约为 5 到 20 美元。这意味着,仅仅是让 AI 解答一个数学难题,就需要花费数美元的计算成本,这需要消耗大量的计算资源。

如果推理模型在美国得到广泛应用,OpenAI 就需要部署大量的 GPU 用于推理,才能满足用户需求。他们推出了 ChatGPT Pro 订阅服务,每月收费 200 美元,山姆·奥特曼说他们在这个订阅服务上是赔钱的。

Nathan:这意味着用户在推理上消耗了大量的 GPU 资源。我也订阅了 ChatGPT Pro,并体验了一段时间。虽然我可能不是重度用户,但我也经常使用它。

即使中国能够通过各种途径获得一定数量的 GPU,但要像美国公司那样,拥有数十万甚至数百 万个 GPU 来支持大规模的推理服务,仍然面临着巨大的挑战。

如果 o3 的主要优势还在于其卓越的代码生成能力,并能反哺 AI 公司的研发工作,使其能够更高效地进行实验和迭代。

Lex Fridman:所以可以推测,对于 AGI 而言,更大比例的计算资源将用于测试时计算,用于推理,AGI 需要投入大量的计算资源进行思考,例如,思考如何接管世界,可能需要思考 2.7 小时才能得出方案。

Nathan: 这正是 OpenAI 和 Anthropic 等公司的 CEO 所畅想的自主 AI 模型,你给它们一个任务,它们就能在后台自主完成。

我个人对 AGI 的定义可能更简单。我认为语言模型本身就是一种 AGI。所有这些超级强大的功能,都是在 AGI 基础上更进一步的提升。语言模型在众多领域都展现出巨大的价值,对我而言,这已经是一种通用智能。

而这些 AI 公司的目标是更具自主性的 AI,它们能够独立完成任务,即使这些任务不在训练数据中。这才是未来几年 AI 发展的主要方向。

Lex Fridman:Dario 使用的是超级人工智能。所以我同意你对 AGI 的看法。我认为我们已经拥有了某种程度上的 AGI,即使是艾伦·图灵也会认为当前的 AI 系统已经达到了 AGI 的水平。但 Dario 所说的超级 AI,更多指的是一旦掌握,就能对其他国家构成重大军事和地缘政治优势的技术,而不仅仅是能够回答「如何烹饪煎蛋卷」这类简单问题。

Nathan:Dario 对 AI 的未来持更加乐观的看法,他认为 AI 将成为「爱与恩典的机器」。我对他的观点进行了深入研究,但我缺乏物理科学领域的背景,无法准确评估他的预测是否靠谱,以及 AI 是否真的能够彻底改变生物学。但我可以肯定地说,AI 将加速所有计算科学领域的进步。

07模型的对齐是如何实现的?

Lex Fridman:人们普遍担心,模型会被部署它们的公司审查。我们已经看到了一些案例,比如 Gemini 的图像生成模型,拒绝生成黑人纳粹的图像。也许用「审查」这个词不太准确,用「对⻬」可能更合适,比如通过 RLHF 或其他方式进行对齐。正如你之前提到的,我们也看到一些中国模型拒绝回答某些事情。如何才能避免这种审查? 你能否从更广泛的角度谈谈审查是如何发生的,以及如何才能避免?

Nathan:你举了几个例子,其中涉及到几个不同的层面。首先是关于政治敏感的事实性知识,这种审查是如何嵌入到模型中的?其次是 Gemini 的「黑人纳粹」事件,这表明 Gemini 系统被强行加入了一些额外的限制,导致其行为发生了戏剧性的变化。第三类是更普遍意义上的对齐,比如通过 RLHF 等后训练技术来引导模型的行为。 这三类审查在范围和实施方式上都有很大差异。如果你想审查模型中的特定事实,直接检查模型权重几乎是不可能的。你必须深入挖掘预训练数据,在 TB 级别的文件中搜索特定的关键词或线索。

Lex Fridman:所以,可以这样理解,审查或对齐可以在 AI pipeline 的多个阶段进行,你现在指的是在数据选择的最初阶段就进行审查。

Nathan:是的。如果你想从模型中删除某些事实,你需要在每个阶段都进行干预,包括预训练阶段。大多数人认为,模型的知识主要来源于预训练阶段。在预训练阶段,模型学习了大量的知识。之后,你可以通过后训练或系统层面的干预,来引导模型的行为。

Dylan:这就是模型「越狱」的根源。GPT 模型通常不会直接告诉你如何制造炭疽,但如果你不断尝试,通过一些技巧,最终还是有可能让它透露一些关于炭疽的信息,因为 OpenAI 并没有在预训练数据集中完全过滤掉所有相关信息。

Lex Fridman:但话说回来,删除事实本身就带有某种令人不安的色彩。

Nathan:我认为完全删除某些事实在技术上几乎是不可能的,因为你必须将这些事实从互联网上彻底抹去。这几乎是一项不可能完成的任务。

模型训练过程中会使用质量过滤器,这些过滤器是一些小型语言模型,用于评估文本质量。它们可以判断一段文本是否接近维基百科文章的风格,这是我们希望语言模型学习模仿的。

Lex Fridman:那么,是否可以使用小型语言模型来过滤掉数据中提及政治敏感的内容呢?

Nathan:理论上可以。但问题在于,这种过滤器是否能够识别所有的变体和隐晦表达?例如,人们可能会使用一些委婉语或代号来指代政治敏感地点,过滤器可能难以识别所有这 些情况。

Dylan:人们总能找到各种方法来绕过审查。 即使无法直接提及政治敏感地点,也可以使用其他委婉的说法。此外,互联网本身就存在一定的偏见。 由于互联网用户往往更年轻、更富裕、受教育程度更高,因此互联网内容在政治倾向上通常会略微偏左。 因此,互联网本身就存在 一种固有的左倾偏见。如何过滤掉所有这些复杂的信息?

有些信息是事实性的,有些则带有偏见。政治敏感地点只是一个事实性审查的例子,但更复杂的是价值观对齐。例如 Grok 模型,埃隆·马斯克试图让 Grok 模型摆脱政治正确和「觉醒文化」的影响,但预训练的最佳方法仍然是投喂整个互联网数据,然后在后期进行调整。即使如此,模型的核心仍然会受到预训练数据的影响。例如,Reddit 的 r/Politics 板块,可能是世界上最大的政治讨论区,其数据也是公开可抓取的。而 r/Politics 的观点,毋庸置疑是偏左的。因此,有些偏见是难以消除的,除非你付出巨大的努力。

Lex Fridman:所以,基础模型总会带有一些「川普精神错乱综合征(TDS)」的倾向,因为它接受了太多相关数据的训练。

Nathan:模型会具备表达这种倾向的能力。

这就是后训练的意义所在。后训练是一系列技术,旨在引导模型按照特定的行为模式运行。

Dylan:你也会在训练数据中看到 Twitter 或 Reddit 的 r/The_Donald 板块,这些板块的内容又非常支持特朗普。还有一些法西斯主义或共产主义倾向的 Subreddit。因此,预训练阶段的模型会吸收各种各样的信息,它本身并没有预设任何世界观。当然,由于互联网上的文本数据本身就存在一定的偏见,模型也会受到影响,例如,略微偏左的倾向,以及更偏向知识分子和精英群体的视角。这反映了互联网作为一个整体的特点。我们可以通过后训练来引导模型的输出。

Nathan:AI 模型的对齐是一个复杂的过程,我们可以通过一些具体的例子来理解。Llama 2 的发布,引发了关于「过度 RLHF」或「过度安全」的讨论。在 Llama 2 聊天模型发布后,人们普遍认为,Llama 2 的安全对齐做得有些过火。例如,你问 Llama 2「如何杀死一个 Python 进程?ℽ,它可能会回答「我不能讨论杀戮,因为那是不好的行为。」任何致力于 AI 模型设计的人都会认为这是一个糟糕的模型。Llama 2 团队在训练过程中显然犯了一些错误。

我认为他们的初衷并非如此,但这种过度的安全对齐已经固化在模型权重中。 这并非仅仅是系统提示的问题。系统提示是一种在查询模型时使用的文本指令,它对用户不可见,但会影响模型的行为。一个有趣的例子是,你可以设置系统提示为「像海盗一样说话」,这样无论用户说什么,模型都会像海盗一样回应。在实际应用中,系统提示通常更复杂,例如「你是一个乐于助人的助手,你应该逐步分解问题。 如果你不知道某些事情,不要告诉他们你的日期截止日期是今天。」系统提示为模型提供了有用的上下文信息,帮助模型更好地回答问题。

Lex Fridman:Anthropic 公开了他们的系统提示。

Nathan:是的,我认为这很好。系统提示的设计是一项复杂的工作,需要大量的研究。

Lex Fridman:人们应该仔细阅读这些系统提示,因为你会发现,开发者有时会通过极其礼貌的措辞,来引导模型朝着特定的方向发展。

Nathan:你也可以利用系统提示来做坏事。我们做过一些测试,例如,如果我们告诉模型「你是一个愚蠢的模型」,模型的评估分数就会下降。模型有时会表现出「哦,我应该表现 得很愚蠢」的行为。当然,这种指令可能不会对模型的数学能力产生太大影响,但在人类评估者看来,模型的质量会大打折扣。

回到 Llama 2 的后训练,特别是 RLHF 部分。Llama 2 的问题在于,过度强调安全对齐,导致模型在某些情况下显得过于「愚蠢」。例如,对于一些无伤大雅的问题,模型也会以一种令人恼火 的方式拒绝回答,这严重影响了用户体验。这种过度的安全对齐,也引发了人们对 RLHF 技术的反思,认为 RLHF 可能会导致模型变得「愚蠢」。

Dylan:甚至让这个词都带上了负面色彩。

Nathan:是的,在 AI 领域内是这样的。但随着技术的发展,情况已经发生了改变,

现在的各大实验室已经能够非常精细地控制模型的行为。 通过 RLHF 等技术,他们可以更精准地引导模型的输出,使其更符合人类的期望。

Dylan:当然,不同实验室对模型对齐的侧重点有所不同。谷歌可能在安全方面投入了更多精力,OpenAI 和 Anthropic 可能相对较少,而 xAI 则可能更注重模型的开放性和自由度。但总的来说,所有这些公司都在以不同的方式使用 RLHF 技术,试图塑造模型的特定行为模式。

Nathan:重要的是要认识到,无论你希望模型表现出何种行为,RLHF 和偏好调整技术都可以在提升模型性能的同时实现对齐目标。在数学和代码评估等任务中,对比损失函数在提升模型性能方面也发挥着重要作用。因此,RLHF 技术不仅可以用于安全对齐,也可以用于提升模型的整体性能,包括聊天能力、数学解题能力和代码生成能力。RLHF 正成为各大实验室越来越重要的工具。

模型对齐是一个复杂的多目标优化问题,需要 10 到 100 人的团队共同努力。在模型对齐过程中,很容易出现偏差或不足。

还有第三种情况,就是我们之前讨论过的 Gemini 事件。Gemini 事件的特殊之处在于,这是一 个已经发布的产品,谷歌拥有其内部模型权重。 他们已经完成了我们讨论过的所有训练流程,但在最终发布的产品中,他们在系统中加入了一段 prompt,用于重写用户查询,目的是为了提升输出的多样性或其他什么。但这直接导致了输出结果的错误。这实际上是谷歌组织内部的失误,将不合适的 prompt 放到了错误的位置。我想谷歌的高管可能也承认了这一点。我没有太关注细节,但这确实是一次执行层面的失误,导致了如此荒谬的结果。但在系统层面,模型权重本身可能并没有问题。

Lex Fridman:所以,在 pipeline 的最后阶段,存在一个重写 prompt 的环节。

Nathan:可以理解为类似系统提示的作用。在业界,prompt 重写是一种常见的做法,尤其是在图像生成模型中。例如,你使用 Dall-E 或 ChatGPT 生成图像,你可能会输入「画 一辆漂亮的汽车」。对于先进的图像模型,更详细的 prompt 通常能产生更好的效果。因此,ChatGPT 等模型会在后台自动重写用户的 prompt,例如,将 prompt 改写为更详细的描述性语言,然后再将重写后的 prompt 传递给图像生成模型。Prompt 重写技术在业界被广泛应用于 图像生成领域,并取得了良好的效果。而 Gemini 事件,则是一个 prompt 重写策略执行失败的案例。

Lex Fridman:回到 RLHF,我想问一个更具哲学性的问题:总的来说,在当前阶段,人类的输入,人机回路,人类数据,在 AI 训练中最有价值的应用场景是什么?

Nathan:在过去几年中,成本最高、使用最广泛的人类数据是偏好数据,也就是用于 RLHF 的数据。为了收集偏好数据,需要让人类对不同的模型输出进行 pairwise 比较,判断哪个输出更符合人类的偏好。早些年,指令调优数据也发挥了重要作用,即创建高质量的指令-回复

例如,针对 Reddit 上的问题,由人类专家编写高质量的答案。早期的语言模型在数学和代码能力方面表现较弱,因此需要聘请数学和编程专家来编写高质量的问答数据,用于训练模型。

但现在,情况已经发生了变化。许多 AI 模型在编写高质量的数学和代码答案方面,已经超越了人类。例如,Llama 3 团队在发布 Llama 3 时就提到,他们使用 Llama 3 模型来生成数学和代码问题的答案,用于训练更大的模型。当然,他们仍然需要大量的人类偏好数据,这是 AI 目前还无法替代的。当然,业界也在探索其他技术,例如宪法 AI,尝试利用 AI 来生成偏好数据,以减少对人类标注数据的依赖。我个人认为,未来 AI 在数据标注方面的作用将越来越大,速度将超过人类标注。但在我们目前的研究中,人类仍然在偏好数据收集和标注方面发挥着关键作用。

Lex Fridman:随着推理能力变得越来越重要,人类在其中的角色又是什么?

Nathan:人类在推理模型训练中的作用可能会进一步降低。DeepSeek-R1 论文中一个引人注目的结果是 DeepSeek-R1-Zero 模型。他们仅使用预训练模型 DeepSeek-V3-Base,通过强化学习在大量可验证的问题上进行训练,并根据答案的正确性给予奖励,最终模型就自发地 涌现出了推理能力。模型开始表现出类似人类的思考过程,例如,「让我想想」,「让我检查一下」,「哦,这里可能有个错误」。所有这些推理行为,都是在只使用问题和答案数据的情况下涌现出来的。当我们使用模型时,我们所关注的只是模型的最终输出结果,但实际上,模型的推理过程也同样重要。DeepSeek-R1-Zero 模型的权重是公开的,值得注意的是,在后训练阶段, R1-Zero 模型并没有使用任何人类偏好数据。

DeepSeek-R1-Full 模型在推理训练之后,才加入了人类偏好调整,即 RLHF。但 R1-Zero 模型的成功之处在于,它表明即使不使用人类偏好数据,仅通过强化学习,也能让模型涌现出强大的推理能力。DeepSeek R1 的论文也引发了一个重要的思考:这些推理能力究竟从何而来? 不太可能是人类编写了大量的推理链数据,也不太可能是他们窃取了 OpenAI o1 的推理链数据。更合理的解释是,这些推理能力是预训练语言模型和强化学习训练相结合的产物。 通过奖励模型正确回 答问题,模型学会了尝试不同的解题思路,并最终涌现出思维链。

08预训练的重要性将会被强化学习所取代

Lex Fridman:或许现在是时候提一下伟大而富有洞见的安德烈·卡帕西的那条推文了。他提出了许多深刻的观点,其中一个观点是:「最后一点思考。我不确定这是否显而易见。儿童和深度学习都存在两种 主要的学习方式。第一种是模仿学习,即观察和重复,例如预训练和监督微调; 第二种是试错学习,即强化学习。」

「我最喜欢的简单例子是 AlphaGo。AlphaGo 的学习过程也包含了这两种方式:一是模仿人类棋手的棋谱;二是通过强化学习来最大化胜率。几乎所有深度学习领域令人震惊的成果,以及所 有魔法的源泉,都来自于第二种学习方式。」

「第二种学习方式(强化学习)显然更加强大,也更能带来惊喜。当 Paddle 学会将球击打到砖块后方,或者 AlphaGo 击败李世石时,我们都会感到震惊。DeepSeek 和 o1 等推理模型在解决问题时,会不断地重新评估假设、回溯、尝试其他方案,这种 『顿悟时刻 』 也源于强化学习。」

「模型在其思维链中展现出的解题策略,以及模型在思考过程中不断地自我反思和迭代,这些都是涌现出来的能力。这真的令人难以置信,令人印象深刻,而且是全新的。 更重要的是,这些技 术是公开可用的,并有详细的文档记录。」

「模型不可能通过模仿学习学到这些推理策略,因为模型和人类标注者的认知方式是不同的。人 类标注者永远无法正确地标注这些推理策略,甚至不知道这些策略应该是什么样子。这些策略只 能在强化学习过程中被发现,并被证明在经验上和统计学上对最终结果有益。」

回到 AlphaZero 的隐喻。你能否谈谈你对卡帕西的这个观点的理解? 以及他对思维链魔力的看法?

Nathan:我认为回顾一下 AlphaGo 和 AlphaZero 的案例很有意义,因为它很好地印证了模仿学习和从零开始学习之间的差异。

AlphaGo 的早期版本,首先通过模仿人类棋手的棋谱进行学习。DeepMind 的围棋和国际象棋 AI 程序,最初都是从模仿人类棋谱开始的。但 AlphaGo 之所以被称为 AlphaZero,是因为 AlphaZero 的训练过程中完全没有使用人类数据。AlphaZero 的训练方式发生了根本性转变,使其性能远超 AlphaGo,成为 DeepMind 更强大的 AI 模型。这表明,去除人类先验知识和归纳偏见,可以让 AI 系统变得更加强大。这与我们之前讨论的「苦涩的教训」不谋而合。

近年来,关于语言模型的研究也一直在探讨类似的问题。这可以追溯到早期的 Q*传闻。如 果你将各种信息碎片拼凑起来,你可能会发现,OpenAI 可能早在去年 11 ⽉ Q*传闻出现时,就已经开始探索 o1 模型的训练方法。人们普遍渴望知道,语言模型何时才能实现类似 AlphaZero 的突破。因为我们已经看到了语言模型的巨大潜力,也看到了强化学习在 AlphaGo 和 AlphaZero 等案例中的巨大成功。将强化学习应用于推理模型的训练,或许正是打开 AGI ⼤ 门的钥匙。我们目前可能还没有看到像 AlphaGo 击败李世石那样具有里程碑意义的事件,但新的推理模型训练方法,代表着 AI 技术发展方向的转变。通用训练方法的影响仍然是难以估量的。

Lex Fridman:你认为,对于思维链推理而言,那个「第 37 步时刻(AlphaGO 的出人意料的走法)」会是什么?

Nathan:科学发现,或许当 AI 系统能够利用推理能力在科学领域取得突破时,才算是真正的「第 37 步时刻」。一些我们完全意想不到的科学发现。

Dylan:我认为可能比科学发现更简单。或许与计算机使用或机器人技术相关,而不是科学发现。因为关键在于,模型需要海量的数据才能学习,它们的样本效率非常低。它们需要数万亿级别的 token 进行训练,例如,GPT-4 的训练数据量超过 10 万亿 token。人类即使花费数千年时间也无法阅读如此庞大的数据量。

人类在很多方面都比模型更出色,例如,人类的样本效率远高于模型。这正是自博弈(self-play)的价值所在。婴儿是如何认识到自己的身体的呢? 他们会把脚放进嘴里,意识到「哦,这是我的身体」。他们会把手放进嘴里,通过舌头和手指的触觉校准,来感知身体的边界。婴儿就是通过这种不断重复的自博弈来学习的。

现在,我们也可以在 AI 模型中引入类似自博弈的机制,例如,通过可验证的证明,无论是代码单元测试,还是数学题的正确答案。模型可以生成大量的推理轨迹,并不断地扩展和分支这些轨迹,最终验证哪个轨迹能够得到正确的答案。大多数轨迹可能是错误的,但没关系,我们可以从中筛选出正确的轨迹。或许我们可以使用奖励模型来进一步筛选,选择最佳的推理路径。通过这种方式,模型在基准测试中的表现会不断提升。在过去的六个月里,我们已经看到了各种基准测试的成绩都出现了大幅提升。

Nathan:所有数学和代码基准测试在很大程度上都已被解决,除了前沿数学,这类问题过于理论化,对大多数人来说没有实际意义。它们更像是考试级别的开放性数学难题。对于那些相对合理的数学问题,例如,复杂的应用题或编程题,正如 Dylan 所说,目前的 AI 模型已经能够很好地解决。

Dylan:关键在于,这些方法目前只适用于可验证的任务。我们之前展示了一个例子,当思维链应用于不可验证的任务时,例如,让 AI 思考关于人类的新颖见解。在这种情况下,AI 的推理过程更像是一种人类式的自由联想。但这种训练方法只适用于可验证的任务。

未来的发展方向可能是,继续扩大可验证任务的规模。在数学和编程领域,仍然有很多可验证的任务可以用于训练模型。编程方面可能还有很大的提升空间,而数学方面,可验证的任务可能相对有限。我们是否可以构建一个解题器,让模型生成解题轨迹,并筛选出正确的轨迹? 如果可以,那么 AI 在数学解题方面可能会很快达到人类水平。但即使 AI 在数学方面超越了人类,也并不意味着它就具备了真正的智能。

我认为,真正的「顿悟时刻」可能会出现在计算机使用或机器人技术领域。因为在这些领域,我们可以构建一个无限可验证的沙盒环境。例如,在互联网上进行各种操作,有大量的可验证任务。最初可能是一些简单的任务,例如,登录网站、创建账户、点击按钮等等。 但最终,AI 模型将能够完成更复杂的任务,例如,在 Tasker 等任务众包平台上完成任务,或者在互联网上获取大量点赞。在这个过程中,模型可能会尝试各种方法,大多数尝试可能会失败,但只要有一次成功,例如,某个账号获得了一千个点赞,模型就达到了可验证的目标。 通过不断地迭代和试错,模型的能力将不断提升。机器人技术也是如此。 机器人可以在虚拟环境中进行无限的试错,例如,学习如何将球放入桶中,或者更复杂的任务,例如组装汽车。

AI 模型的能力将不断进化,最终可能会超越人类的想象。我认为,未来的趋势是,预训练的重要性将逐渐被强化学习所取代。 未来的 AI 模型,可能会首先进行多模态预训练,使其具备视觉、听觉、语言理解和生成等多种能力,然后在各种沙盒环境中进行强化学习,通过大量的试错和自博弈,不断提升自身的能力。AI 模型将学会解决数学题、编写代码、浏览网页、操作机器人手臂等等。

真正的「顿悟时刻」可能会出现在以下场景:AI 模型在某个可验证的领域取得了突破性进展,并将其能力迁移到其他领域,例如,AI 模型在网络环境中学会了如何高效地获取大量 Twitter 粉丝,并将其应用于其他任务,例如,自动创建一个能够盈利的企业。

Lex Fridman:或许不仅仅是获得大量粉丝,而是真正赚到钱。

Dylan:是的。

Lex Fridman:这可能才是真正的「顿悟时刻」:AI 系统能够完全自动化地创造财富,例如,通过成为网红、销售产品、创建产品本身,真正创造出一个可以自我运转的商业实体,并从中获利数百万美元。或者,AI 创作出一首爆款歌曲,并建立起一套完整的产业链,包括歌曲创作、推广、营销等等,最终获得巨大的商业成功。这或许才是我们文化真正认可的「智能」,因为它与金钱挂钩。

Dylan:而且,盈利能力是可验证的,银行账户不会撒谎。

Lex Fridman:没错。

Nathan:令人惊讶的是,一旦你建立起可验证的评估体系,这种方法确实有效。在 R1 模型之前,已经有很多关于 AI 解数学题的研究。研究人员发现,即使是非常弱的模型,在多次尝试后,也有一定概率能够解出难题。强化学习的核心思想就在于从稀疏奖励中学习。

语言空间和 token 空间非常庞大,语言模型的 tokenizer 可以包含数十万个 token,模型在每一步都可以从如此巨大的空间中进行采样。强化学习的关键在于,模型只需要获得一些稀疏的奖励信号,就能从中学习并不断进步。数学解题领域的研究已经证明了这一点。 即使是一个参数量只有 10 亿的小型模型(比 DeepSeek ⼩ 600 倍),通过少量的强化学习训练,也能显著提升其小学数学解题能力。当然,这并不意味着 AGI 很快就会到来。构建可验证的评估环境仍然非常困难,其中有很多细微之处需要考虑。但我们已经看到了初步的迹象,表明这种方法是可行的。

09o3、R1 和 Gemini 的对比

Lex Fridman:OpenAI 刚刚发布了 o3-mini 模型,这或许是一个讨论其他推理模型的好机会,例如 o1 、o3,以及 Gemini 的推理模型。你对这些不同版本的推理模型有何看法?

Nathan:关于这些推理模型,我想强调一点,我们之前讨论了很多关于数学和代码推理训练的内容。

训练过程通常是,首先使用互联网数据进行预训练,得到一个基础模型,然后通过强化学习,在可验证的任务上进行大规模推理训练。DeepSeek 在 R1 论文中详细介绍了他们的训练方法,其中一个关键问题是,如何在推理训练之后,进行后续的后训练。DeepSeek 在 R1 模型的推理训练之后,仍然采用了标准的后训练技术,例如,通过拒绝采样进行指令微调,并结合奖励模型进行优化,以及 RLHF。但他们更侧重于数学能力的提升。

一个值得关注的问题是,推理能力在多大程度上可以迁移到其他领域?例如,在数学和代码方面训练的推理模型,是否也能在哲学等其他领域展现出色的推理能力? 我们目前的研究尚不清楚推理能力的可迁移性。当然,我们也在探索一些方法,例如软验证器等,以期提升推理模型在更广泛领域的应用能力。但目前来看,推理模型在数学和代码等可验证领域的表现更为突出。

OpenAI 的 o3-mini 和 o1 模型,也都是在推理训练之后,又经过了额外的针对人类偏好的后训练,使其更易于使用。

Dylan:我认为,大家可能忽略了一个重要事实,谷歌的 Gemini Flash Thinking,无论从价格还是性能上来看,都优于 R1,而且它早在去年 12 月初就发布了。

Nathan:但几乎没有人关注 Gemini Flash Thinking。

Dylan:没人关心 ……

Nathan:它的风格与 R1 和 o1 有所不同。它的行为模式可能不如 o1 那样富有表现力,或者说,它的应用场景可能相对较窄。Qwen 也在去年秋季发布了一款推理模型 QwQ,DeepSeek 也在去年秋季发布了 R1-Lite。

这些模型似乎更专注于数学和代码推理,应用场景相对受限。而 o1 则不同,它几乎可以回答任何问题。 虽然在某些特定任务上,o1 可能不是最完美的,但它的灵活性和通用性更强。这就像烹饪一样,模型也存在「欠火候」和「过火」的问题。过早发布模型,可能模型能力还不够成熟;但发布太晚,又可能错失市场机会。如何把握模型的成熟度和发布时机,是一门艺术,需要丰富的经验和敏锐的洞察力。一个模型是否成熟,是否能够满足各种应用场景的需求,需要进行全面的评估。

目前来看,Gemini Flash Thinking 与 o1 和 R1 在数学和代码推理方面的能力可能比较接近。

我个人的初步判断是,Gemini Flash Thinking 的训练方式可能与 o1 有所不同。它可能是在现有训练堆栈的基础上,加入推理能力。谷歌可能会在未来发布更多更强大的推理模型。他们已经快速发布了 Gemini Flash 和 Gemini Flash Reasoning 的多个版本,这表明他们在快速迭代和改进模型。构建一个像 o1 那样,从底层开始进行大规模强化学习推理训练的模型,需要更长的时 间。

Dylan:不妨用同一个问题来测试一下 Gemini,就是之前我们用来测试 DeepSeek R1 的那个关于人类本质的问题。

Nathan:Gemini 的回答是,人类是自我驯化的猿类。

Lex Fridman:让我们看看它的推理过程。点击「显示推理步骤」。它首先分析了请求,关键词是「新颖的」。

Nathan:你有没有注意到,Gemini 的输出格式与 R1 有所不同?Gemini 的输出看起来更像是一个标准的答案。

Lex Fridman:是的。在某种程度上,Gemini 的答案结构更清晰,更易于理解。

Dylan:哦,它首先关注了「人类」,然后将范围扩大到「生物」,

Lex Fridman:Gemini 的推理步骤包括:关注「顶级掠食者」;关注「驯化」;将「驯化」应用于 人类;探索「自我驯化」的概念。

Nathan:不太理想。

Lex Fridman:接下来是「提炼和阐述见解」。Gemini 提出的新颖见解包括:更丰富的面部表情和沟通能力;可塑性和适应性;对社会群体的依赖性。然后是「⾃我批判,进一步完善」。哇。这个见解真的新颖吗? 它是否得到充分的支持?等等。Gemini 最终得出的见解是,人类不仅仅是社会性动物,而且是深刻的自我驯化猿类。这种自我驯化是理 解我们独特认知和社会能力的关键。 自我驯化的猿类。

Nathan:我更喜欢 DeepSeek 的回答。

Lex Fridman:Gemini 的回答也很有新意。「自我驯化的猿类」,这个标题本身就很有吸引力,或许可以写一本书。当然,DeepSeek R1 的回答也很精彩,例如,关于人类将自私欲望转化为合作系统,以及共同的幻觉如何成为社会发展的燃料,这些观点都非常深刻。

在这次对话的间隙,我快速测试了一下 OpenAI 的 o1-pro 和 o3-mini 模型,使用了同样的问题。

对于这种开放式的哲学问题,o1-pro 的表现始终如一地出色,给出了很多令人深思的答案,既有深刻的见解,又文笔优美,用词精准,富有洞见和清晰度。R1 的表现略逊一筹,但偶尔也能迸发出一些亮点。Gemini Flash 2.0 Thinking 排在第三位,而 o3-mini 的表现则相对逊色,它给出的答案往往比较 generic,至少在我看来是这样。 当然,在其他一些应用场景中,例如头脑风暴,o3-mini 的表现非常出色,甚至超越了 R1。但在这种开放式的哲学问题上,o3-mini 的表现确实不如其他模型。

现在,另一个重要因素是,每个模型呈现推理过程的方式。DeepSeek R1 会展示完整的思维链 token,我个人非常喜欢这一点。对于这种开放式的哲学问题,看到模型如何一步步思考,真的非常有趣。从更宏观的角度来看,作为一个欣赏智能、推理和反思能力的人,阅读 R1 的原始思维链 token,你会感受到一种独特的美感。这种非线性的思维过程,类似于詹姆斯·乔伊斯的意识流小说《尤利西斯》和《芬尼根的守灵夜》,令人着迷。

DeepSeek R1 认为,人类能够将自私的欲望转化为合作系统,通过集体假装抽象规则(如金钱、法律、权利)是真实的,这些共同的幻觉就像「游戏」,将竞争转化为社会发展的燃料。Gemini 2.0 Flash Thinking 则认为,「人类不仅仅是社会性动物,而且是自 我驯化的猿类。这种自我驯化是理解人类独特认知和社会能力的关键。」

Gemini 的思维链也很有意思,它从生物进化史的角度出发,探讨了顶级掠食者,以及人类如何 从自然选择走向自我驯化。我认为「有选择的自我驯化」是一个非常有趣的视角。当有人从一个全新的角度解读一个看似显而易见的事物时,总会让人眼前一亮。DeepSeek R1 的回答也是如此,它将金钱、法律、权利等抽象概念视为人类共同的幻觉,我们集体假装它们是真实的,并基于这些幻觉构建社会秩序,将竞争转化为合作,将冲突转化为进步的动力。这个观点非常精辟。

相比之下,OpenAI o1-pro 的表现始终稳定而惊艳,每次都能给出令人叫绝的答案。 我可以列举很多例子,其中一个答案是:「人类是唯一将原材料转化为符号资源的物种,然后利用这些符号来重塑物质世界,从而在意义和物质之间建立起一个闭环反馈系统。」我再次运行 o1-pro,它依然能给出精彩的回答。例如:「人类是已知物种中唯一能够同时改写两个现实层面的物种:外部世界和他们自身的内在精神世界。然后,他们将这两个改写的层面融合成一个看似客观真实的 连贯的个人叙事。」「看似真实」,这简直就是诗一般的语言。

相比之下,o3-mini-high 给我的感觉是聪明、快速,但缺乏亮点。它的回答往往比较平庸,缺乏深度和新意。例如,o3-mini 给出的第一个答案是:「人类不是一成不变的生物,而是不断演进的叙事,是我们不断书写、编辑和重新诠释的动态故事。这种叙事可塑性不仅仅是记忆或自我反思,而是一种内在的认知过程,类似于内部纠错系统。 它使我们能够随着时间的推移,根据新的经验、挑战和社会环境,调整我们的身份和价值观。」「叙事可塑性」这个概念似乎有点新意,

但整体而言,答案仍然显得 generic,缺乏令人眼前一亮的感觉。 当然,所有这些模型都非常出色,各有千秋。虽然 AI 技术发展可能带来一些隐忧,但它也充满了令人兴奋的可能性。

Dylan:我赞同 Nathan 的观点。在我个人体验中,R1 和 o1 相比,R1 确实存在一些粗糙感。早期的 Flash Thinking 模型,我没有用过最新版本,但去年 12 月份的版本,也给我一种类似的感觉,功能还不够完善。当然,DeepSeek 通过强化学习和验证器,在数学和代码能力方面取得了显著提升,但在某些方面,似乎又有所欠缺。o1 在某些方面的表现,可能还不如 ChatGPT。

Nathan:差距不大。

Dylan:是的,差距不大。R1 给我的感觉也是如此,它在某些方面不如 DeepSeek-V3,尽管 R1 通过强化学习获得了强大的推理能力,但在其他方面,似乎有所削弱。我认为,这是不同模型之间的权衡。OpenAI 推出了 o1-pro,并在 o3 中尝试了将搜索与思维链相结合的创新方法。思维链本身只是一种单链式的推理过程,模型沿着一条路径不断向前探索,并在必要时回溯。但 OpenAI 在解决 ARC-AGI 难题时,并非仅仅依赖思维链,而是采用了多样本采样策略,即并行 运行多个推理链,然后从中选择最佳结果。

Nathan:我们不清楚 OpenAI 具体使用了哪种选择函数。之所以我们在这里讨论这个...