AI 隐藏“思维链”，是怕被人类监督污染！OpenAI首席科学家最新访谈：驾驭工程会越来越通用|openai|埃隆_马斯克|思维链|智能体|机器人|算法|预训练|驾驭工程

从接管真实代码，到重塑社会财富分配。

编译 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

OpenAI 这些年最不缺的，就是被放大的人。

Sam Altman 当然不用说，几乎已经成了这家公司对外叙事的一张脸，而上周末的两场遇袭事件，更是让他备受煎熬。离开了好久的 Ilya Sutskever，在很长一段时间里，则更像 OpenAI 技术理想主义的化身。哪怕在 OpenAI 早期就分道扬镳的马斯克和 Dario Amodei，也早就是这轮 AI 竞赛里绕不过去的人物。

可真正接替 Ilya、坐上 OpenAI 首席科学家位置的Jakub Pachocki，反而一直没怎么被真正看见。

这其实有点反常。一家公司走到今天这个位置，首席科学家按理说不该是一个模糊角色。尤其是在 OpenAI 这样一家一举一动都被放大的公司里，谁在主导研究、谁在判断模型能力往哪走、谁在决定哪些方向值得继续压重注，理论上都应该是外界最想知道的事。可过去很长一段时间里，Jakub 更像一个在背景里工作的人。你知道这个名字重要，但很少真的听他把一整套判断完整讲出来。

最近，他接受 Jacob Efron 播客的《Unsupervised Learning》访谈，两人从编程智能体的爆发聊起，一路谈到数学和物理 benchmark 为什么曾经是 OpenAI 的北极星、强化学习怎么从 code 和 math 走向更长时程的开放任务、模型开始反过来加速模型研究之后，研究组织该怎么管，最后又落到一个比时间表更硬的问题上：当越来越多智力劳动可以被自动化，权力会不会以前所未有的速度集中到极少数人手里。

当 Codex 已经在 OpenAI 内部承担了大多数真实编码工作，当模型开始成为研究流程的一部分，当一个高度自动化的研究组织、甚至高度自动化的公司开始显出轮廓，问题就不再只是，AGI 还有多远，或者下一个 benchmark 还能不能涨。问题会慢慢变成，谁在控制这些系统，组织会被改写成什么样，财富和权力会不会以前所未有的速度集中到极少数人手里，而这些事，我们到底有没有准备好。

要点速览

编程智能体的爆发已经把研究组织带进了新阶段。Codex 在 OpenAI 内部已经承担了大多数真实编码工作，这不是单一产品成功，而是“研究实习生级能力”正在逼近的直接信号。
数学、物理 benchmark 的这些题不是终点，而是过去几年 OpenAI 用来追踪“模型到底有没有变聪明”的北极星。但现在，随着模型开始碰到 IMO 级问题、进入研究数学，OpenAI 也在把北极星改成“能不能在真实世界真正有用”。
在很长一段时间里，harness（驾驭工程）的实现本身都不该成为真正的限制。我们会得到越来越通用的 harness，能被用到很多别的领域。
在强化学习的问题上，不是 RL 在 code 和 math 上有多强，而是下一站其实是“长时程 + 开放任务”。
OpenAI 的方向不是让每个行业都重造一套系统，而是让模型越来越能在你已经使用的界面、工具和上下文里工作，最终“AI 默认应该来适应人，而不是要求人去适应 AI 的限制”。
更长期、更难的问题仍然是泛化：模型到了陌生情境、能力大幅上升之后，最终会回落到什么价值观上。
高度自动化的研究实验室和公司，可能被极少数人控制，而这种权力集中本身就是社会问题，而且目前没有显而易见的解决方案。

OpenAI 的“北极星”为何从做数学题转向真实世界？

主持人：几个月前，你和 OpenAI 团队提到，希望今年 9 月前做到“研究实习生级能力”，再往后到 2028 年 3 月，走向更完整的自动化 AI 研究员。四个月过去了，你现在怎么看这些时间表？

Jakub Pachocki：过去几个月里最明显的变化，就是 coding tools 的爆发式增长。说它是增长都算轻描淡写。OpenAI 现在已经到了一个阶段：我们把 Codex 用在了大多数真实编码工作上。所以我觉得，对大多数人来说，编程这件事本身已经变了。这当然会让我觉得，有些东西确实还在轨道上。

另一个让我很在意的更新，是模型在数学研究上的进步，以及我们在物理等领域看到的结果。模型现在展现出来的这种能力——提供洞见、调用基础设施、在测试时动用更多算力，而这正是 Codex 现在已经在做的——再加上我预计未来几个月里通用智能还会继续提升，这一切都让我们仍然非常专注于这条路线。

主持人：那你们会怎么判断，自己真的到了“研究实习生级能力”这一步？

Jakub Pachocki：在我看来，“研究实习生”和“完全自动化的研究员”之间，最关键的区别，是系统能自主工作的时间跨度有多长，以及你需要把任务交代得多具体。

我并不觉得今年我们就会有这样的系统：你只要对它说，“去提升模型能力”“去解决对齐问题”，它就能自己全包下来。今年还不会。但如果是更具体的技术想法，比如“我有一个提升模型的方法”“我有一种新的评测做法”，我觉得我们需要的那些部件，大体上已经都在了，更多只是把它们拼起来的问题。

主持人：Karpathy 之前发过一段很火的演示，用这些模型去改进他自己的小模型。虽然那远没有你们这里复杂，但那种方向是不是大致对路？

Jakub Pachocki：我觉得是同一个方向。我预期它会像 Codex 现在的状态那样，沿着一条连续演化的线往前走：更高一点自主性、能连续跑更长时间。我们会看到越来越多这样的应用。总的来说，模型会变得更自主，也会在更多事情上动用更高的算力。

主持人：你提到数学和物理。对很多人来说，coding progress 很容易理解，因为它直接能帮助 AI research。但数学和物理上的进展，到底是怎么和这件事连起来的？

Jakub Pachocki：数学 benchmark 对我们最大的价值，是它充当了一种通用 benchmark，也是一颗北极星，帮助我们判断该怎么继续提升这项技术。数学高度可测，比起判断一段软件到底写得好不好，判断一道数学题有没有做出来，容易得多。而且数学可以变得非常难：它既有清晰的对错标准，又能无限拉高难度。

直到不久之前，我对这件事的理解还是：我们的模型能做简单数学题，但做不了 IMO 级题目。这说明模型智能里存在一个非常清晰、非常容易测量的缺口，而这恰好给我们提供了方向。对 reasoning models 来说，这一直是我们的北极星。

但现在，这件事正在快速变化。我们已经碰到了之前一直努力想达到的几个里程碑，比如解 IMO 问题，甚至开始试探研究级数学。从这个阶段往后看，继续用这些 benchmark 测进步仍然有意义，而且从数学推理能力到 AI 研究能力之间，的确存在迁移。我们很多最好的研究员，本来就是数学或其他理论学科出身。

但同样很明确的是，我们正在改变自己对北极星的理解。我们越来越关心新一代模型在真实世界里到底有没有用，尤其是对 AI research 有没有用，对其他有经济价值的任务有没有用，对别的科学领域，尤其是更偏应用的科学，有没有用。之所以发生这个转变，是因为我们觉得模型已经足够强了——不是说它在所有方面都比人聪明，但已经强到足以实质性改变经济、改变做事方式。所以我们对这件事的紧迫感也在迅速上升。

未来 AI 的默认底色，是主动“长在”你的工作流与界面里

主持人：早期选择数学这种领域，几乎是最理想的起点：足够难，但又容易验证。code 也有类似属性。但很多真正有价值的任务，比如医学、法律、金融，并没有那么容易验证。大家现在都在想，RL 在这些领域还能不能复制在 code 和 math 上那种惊人的进步。

Jakub Pachocki：我当然觉得可以。我们经常会从一个对偶关系去理解这件事：对于更一般、更难评估的任务，它们其实和“更长时程的任务”共享了很多共同点。你想，就算是一个定义得很清楚的数学题或 coding 问题，如果它需要你干一年，那即便一年后的成功标准很清楚，第一天到底该干什么，仍然是一个非常开放的问题。

所以我觉得，这两种难度其实是在重合的，而且非常清楚地构成了系统发展的下一条前沿。我们已经看到不少令人鼓舞的信号：一方面，我们在这些更一般的领域上扩展 RL 的能力是有前景的；另一方面，我们在一些相关努力上也看到了很大的潜力。

主持人：在这些领域里，一个最大的难点就是你甚至不知道“成功”到底是什么。短任务就已经更难了，长任务只会更难。你们会怎么理解这个研究挑战？

Jakub Pachocki：我总会回到一个现实问题：怎么让模型连续工作很久，以及怎么教会它判断“局部进展”。

哪怕不说 RL，光看更长时程能力的来源，也能看到一些线索。随着模型在纯监督式预训练下变得更稳定，它会逐渐获得一种感觉：什么样的中间产物算是好的。所以即便我们没有在 RL 上取得特别巨大的扩展，我也觉得这些工作时长本身会继续拉长。真正的研究难点，是怎么把这些从 RL 来的新想法，迁移到更一般的领域中去。但我对这件事是比较乐观的。

主持人：听起来，你有一个很重要的心智模型：模型本身也要能以某种可靠节奏检查自己的进展。

Jakub Pachocki：是的。我们当然还在大规模买算力，因为我们仍然相信这条路，而且在某种程度上比过去更相信。我们也看到了新技术、新的扩展方式。但我们毕竟已经不再只是造一个悬在天上的“大脑”，而是想把它真正接进现实世界。

如果你真想让它去做医学研究，想让它未来帮助治癌症，它就必须以某种有意义的方式认识现实世界，甚至自己设计实验、从实验结果里学习。要做到这一点，你就必须把它接上去。那确实会把问题带向你刚才说的方向，但这不意味着我们过去一直在扩展的那些简单算法就失效了。

主持人：我最近跟很多公司聊，大家都会问同一个问题：要不要自己做 RL？拿一个开源模型，结合自己任务上的数据和 evals，值不值得自己动手？

Jakub Pachocki：强化学习当然可能是一种非常高效的方式，让模型在某个任务上大幅提升。但我们还知道另一种更高效的学习方式，那就是 in-context learning。某种意义上，这甚至可能是人类教模型最根本的方式：你给它例子、给它指令，告诉它你想要什么。

我预计这种学习方式以后会越来越强。所以最关键的，还是模型能不能适应你的上下文，适应你关心的任务。我觉得这件事会非常重要。至于直接复制今天这套 RL pipeline，是不是正确路径，我并不确定。但这确实是我们一直在想的问题。

主持人：换句话说，公司还是得自己弄清楚哪些 eval 重要、收集数据、整理例子，但未来也许并不需要自己训模型，只要把这些内容高质量地喂给模型上下文就够了。

Jakub Pachocki：我觉得这很有可能。

主持人：那 harness（驾驭工程）呢？很多人也在想，像法律、金融、医疗这些领域，要不要自己重造一套调用框架。

Jakub Pachocki：在很长一段时间里，harness 的实现本身都不该成为真正的限制。我们会得到越来越通用的 harness，能被用到很多别的领域。实际上，如果你愿意试试，Codex 拿去做 coding 之外的事情，也已经挺不错了。

主持人：所以长期看，harness 会越来越通用，越来越像人类面对工具的方式？

Jakub Pachocki：我觉得还应该再往前想一步：我们到底希望人类最终通过什么界面跟模型交互？

模型当然可以拥有自己的 UI affordance，也能自己搭界面，做很多在人看来很费时间的事。但我同样觉得，有非常大的空间，是让模型去接入我们已经在用的那些界面。比如，我当然希望 AI 能在 Slack 里工作，能接进我们的上下文，从这些上下文里学习，去调用我们已经在使用的东西。

所以这里会有一个中间地带。但长期来看，默认应该是 AI 来适应你所在的位置；如果它没有这么做，那应该是因为它多出了一些新能力，而不是因为它本身有局限。

主持人：很多人会抱怨，模型做不了更长的任务、做不了更复杂的工作。但很多时候，问题是不是只是因为模型没接上足够的上下文、文件和系统？

Jakub Pachocki：我觉得很大程度上确实是这样。很多人以为那是“能力缺口”，其实可能只是模型根本没有被接入到做事需要的上下文、文件、工具和环境里。

回头看我们对 RL 路线的讨论，早期我很明确地把“先教会模型用自己的 token 做推理”看作第一优先级。之后当然还得让它学会调用工具、学会看、学会在某个阶段使用物理身体。但现在我们已经明显进入另一个阶段了：模型真的需要和环境交互，需要看见环境，而再往后，不久之后，我们也会开始真正关心机器人。

OpenAI 是如何重注算力与重构组织的？

主持人：你现在每天肯定都能在研究端看到很多疯狂的东西。对你来说，什么样的里程碑现在还是有冲击力的？

Jakub Pachocki：现在最关键的就是 research 本身。模型到底能不能发现新东西？能不能真的执行一个更长时程的研究问题？

主持人：就像某天你看到一个结果，会想：如果这是我团队里某个研究员提出来的点子，我也会很在意。

Jakub Pachocki：实际上，就连 GPT-4 也已经给过我们一些很小、但我认为挺有影响力的想法，我们现在内部就在使用。只不过，它离我预期中的那个阶段还差得远。

主持人：模型显然会继续变强，也会越来越深入地参与研究。你自己就在第一线和这些模型协作。你觉得，一个研究组织在这种变化下会变成什么样？

Jakub Pachocki：我觉得我们已经到了一个转折点：短期内模型本身的质量，很快就会非常直接地决定研究进展的速度，因为模型将驱动其中很大一部分工作。

这件事要求我们重新改写一些关于“怎么管理研究组织”的直觉。正常情况下，你不会过度关注眼前模型质量，而是更看重长期。但现在不一样。我们当然还有很多非常令人兴奋的东西在排队推进，可我也确实对执行速度有很强的紧迫感，因为我们需要把这些模型智能上的进展真正转化成 AI research，尤其是 AI alignment research 的加速度。

主持人：这很有意思。过去的研究组织，更像是给研究员时间和空间，让他们追那些一两个月看不到结果、但长期更关键的方向。现在则像是，你必须同时盯住眼前模型质量，因为它会直接改变一切。

Jakub Pachocki：对，我们最近确实花了很多时间讨论这个问题。

主持人：你们现在显然有大量算力。预训练有 scaling，RL 也有 scaling，同时还会有很多和这两条主线无关、但也许很有意思的新实验。你们到底怎么分算力？

Jakub Pachocki：这会非常复杂，因为真的有太多事情要做。我们最近开始坚持的一条纪律，是明确地把一大块算力预算留给那些最 scalable（可扩展）的方法，留给那些我们认为最能推动通用模型智能的东西。

即便从某些时刻看，这也不一定是最有效率的分配方式。因为如果你把这么多算力都压到一个实验、或者一组实验上，外面总会有很多地方，只要分一点算力过去，就能加快很多事。但问题是，如果你不这么做，很容易把算力全部切碎，最后反而没有认真做成那些你自己最相信的重要工作。

当然，你仍然要看经验数据，要保证 eval 体系是完整的，实验 rigor 是够的。然后你也要给自己一点“正则化”：我们到底理解不理解这个方法？它真的有扩展性吗？它能不能变成未来可持续构建的东西？还是只是一次性的？这些都会决定优先级。

主持人：去年几乎可以说是 coding 领域疯狂爬坡的一年。Codex 当然也很成功，但 Anthropic 某种程度上在这个市场更早跑出来，Claude Code 一度是很强势的产品。你怎么看 Anthropic 在这件事上的成功？

Jakub Pachocki：我觉得这归根到底是，你的产品方向有多聚焦在你认为下一阶段技术最重要的应用上。

如果回头看 OpenAI 的产品优先级，我们当然也一直在做 coding 产品，但在很长一段时间里，它并不是最核心优先级。更有意思的是，这种产品优先级，并不完全反映 OpenAI 研究组织内部的优先级。

因为从 ChatGPT 在 2023 年爆发之后，我们确实获得了一个和我们长期愿景一致、也非常成功的产品，但它并不能代表这项技术全部能做的事情。所以研究组织的大部分工作，其实一直都在押更后面的那个未来方向。我觉得，研究优先级和短期产品策略之间的脱钩，是越来越明显的。

我对我们在研究端、在模型智能端正在构建的东西非常有信心。而现在产品侧的重新聚焦，本质上是在回答一个问题：怎么把它们真正部署出去，因为我们越来越相信，这些东西现在就已经是最重要的了。

主持人：除了这些内部节奏，现在回头看 OpenAI 这些年的变化，你会怎么概括？

Jakub Pachocki：OpenAI 其实经历了几个阶段。

我 2017 年初加入时，它更像一个很学院派的实验室，追很多不同想法，实际操作里也没有那么“scaling-pilled”（俚语，意思是“被 scaling 洗脑了”）。第一次大的变化，是 Dota 和 GPT 这些项目把公司带进了另一个阶段：我们得买大机器、得扩展、得发展 scaling 的科学，也得发展支撑 scaling 的基础设施。那之后，OpenAI 进入了“我们真的在 scale”这个阶段。

再往后，是 ChatGPT 这件大事。我原本以为，最先大规模起飞的会更像视频那类生成式应用，文本模型反而会是要在长期研究里不断取舍的一支。结果恰好相反，文本模型先成为了最先大规模进入现实的东西。与此同时，我们也很早就意识到，一定会出现这种张力：你已经有一个现在就很流行的产品，但你又相信它离最终要去的地方还远，还会继续变化。我觉得 OpenAI 过去一段时间一直处在这个阶段。

而现在，我们开始进入另一个阶段：我们相信自己正在部署某种接近 AGI、或者至少已经具有巨大经济变革性的系统。

主持人：过去一年，你自己对 AI 世界最大的想法变化是什么？

Jakub Pachocki：是我越来越在认真处理一个张力：你最终造出来的 AI，当然是作用于真实世界的；但在离那个阶段还远的时候，你又只能把它当作一个相对抽象的训练对象、算法对象来推进。现在我的想法越来越偏向另一边：我们必须更认真地考虑，这项技术到底怎么进入现实世界、怎么真正被部署。

主持人：所以它会像 coding models 那样，继续变成日常生活的一部分？

Jakub Pachocki：我觉得会。而且不只是能执行更长任务这么简单，它还会逐渐变成一种可靠、可信赖的助手，甚至某种陪伴者。

OpenAI 为何死活要“雪藏”思维链？

主持人：你们在 AI for Science 这边也做了很多事。比如 First Proofs 挑战，对很多人来说可能没有 coding 那么直观。你能不能讲讲，为什么这类结果重要？

Jakub Pachocki：我对 First Proofs 挑战特别兴奋。这个 benchmark 的设定很有意思：几位受尊敬的数学家、理论计算机科学家，拿出一些他们认为接近自己日常工作的问题，这些题此前没有发表出来，让模型去真正试一试。

那次挑战来得很突然，几乎没有提前预告，只给了一周时间。偏偏那时候我们手上正好有一个非常令人兴奋的模型训练。于是负责训练的 James Lee 就开始手工给这个模型喂 prompt，看看它到底能不能解这些题。然后我们就发现：它真的在解。

其中有一道题，恰好来自我读博士时所在的领域。你看到模型在一小时左右想出来的一些点子，是那种如果让我自己花一两周想出来，我也会很为之骄傲的点子。那种感觉非常奇怪。我上一次有这种感觉，还是看我们的 Dota bot 打出那些很离谱、很有创造性的 Dota 局面的时候。你会有一种近乎魔法的感觉：这种有意思的东西，本来不该无限地发生。

所以，当这种事开始发生在数学上，发生在我认为更接近现实研究、更接近真正重要工作的地方时，我的紧迫感其实是被进一步推高了。

主持人：过去大家总说，模型只是 pattern matcher（模式匹配器），不可能真正给科学带来新想法。现在是不是已经开始动摇这个说法了？

Jakub Pachocki：我觉得是的。你可以说，我们正在按计划看到一些很小的推进：不是惊天动地的大突破，而是一个小点子、一点真正新东西，或者和科学家合作出来的一些更大的成果。

但如果你回头想，AlphaZero 是 pattern matcher 吗？AlphaGo 是吗？我们的 Dota bots 又算不算？它们都在自己的环境里发明过新策略。

当然，你永远可以说，这些系统都有漏洞，AlphaGo 也会被特定策略击败，Dota bots 也一样。未来很长一段时间里，这些模型当然还会有各种不足。但我认为，它们确实能够发现新东西。只是从早年那种封闭小环境，走到今天这样更一般的科学研究，中间需要它们先吞下大量人类知识、先学会所有这些语言与表示而已。底层原则，其实是相通的。

主持人：有人当时还说，你们给出的某些证明像 19 世纪数学一样，偏 brute force（暴力破解），而不是现代数学更优雅的路线。这会让你担心吗？

Jakub Pachocki：不会，我觉得这是预期之中的事。至少在其中一道题上，我们的模型实际上给出了一个比原设想更短的漂亮证明。但更一般地说，模型短时间内能展开的推理量，本来就比人类大得多。所以我并不觉得那会是一个长期特征。

主持人：如果再往前一步看，AI for Science 最终会是什么形态？是一个有物理世界接口的通用 LLM，还是会出现很多围绕特定学科单独构建的模型？

Jakub Pachocki：我其实会沿用我刚才谈 Codex 界面的那个答案：你应该围绕一种技术的能力来建东西，而不是围绕它的局限来建。

如果你已经有了一个能大规模设计有趣化学实验、生物实验的系统，那当然值得为它搭建新的实验室能力。但与此同时，就算模型很会设计实验，也不代表你必须彻底把人排除出去。我们不应该把它想成一个二选一的问题——不是“要么完全自动化，要么只是个带点工具的花哨系统”。更现实的图景可能是，我们会进入一个人类和 AI 科学家一起工作、而且后者在设计和 ideation 里占比越来越高的世界。

主持人：那在架构层面呢？会不会还是要分出很多专用模型，比如蛋白质折叠、材料科学这些方向？

Jakub Pachocki：自然语言推理、我们现在优先扩展的这类能力，能带来非常强的通用性。但也确实会有一些任务，更适合单独训练模型。比如如果你的目标只是做一个极强的围棋模型，我并不觉得大语言模型是效率最高的路径，尽管它最终也可能带来最好的结果。蛋白质折叠这类问题，我觉得也有类似情况。

主持人：我也想谈谈 AI safety。你们之前做过一项很有代表性的工作，就是 chain-of-thought monitoring（思维链监控）。能不能先讲讲，那到底是什么？

Jakub Pachocki：这个想法，是在我们看到这一代推理模型第一次真正跑起来的时候形成的。那时我们在想：如果这件事成立，未来一两年、两三年，世界会发生什么变化？我们还能怎么理解这些模型到底在做什么？

后来我们意识到，因为我们并不直接监督模型的推理过程，情况和普通对话模型很不一样。ChatGPT 会被训练得礼貌、得体，但推理模型的思维链并没有被直接优化成某种固定样子。它唯一被优化的，是怎样更好地帮助模型产出高质量结果。

所以，我们突然意识到，这可能正好提供了一个非常强的解释窗口。它其实和机制可解释性的逻辑并不远：后者也是去观察那些没有被直接监督过的内部激活，因为那些激活可能会泄露模型真实的内部机制。

只不过，思维链最大的优势是：它默认就是英语。概念越复杂，这个优势越明显。与此同时，如果我们真的走到模型可以长时间自主运行、可以完成更长任务的未来，那么推理过程只会变得更多。于是，模型能力增强到哪里，我们对它进行监督和理解的窗口，也有机会一起扩展。

主持人：但这里的关键前提，其实恰恰是你不能去监督思维链。

Jakub Pachocki：对。这也是我们当初在发布 preview model 时决定隐藏思维链的主要原因。对我来说，这几乎是最根本的理由。因为如果你在产品里公开展示它，迟早就得去训练它。你会出于和训练其他产品能力一样的理由，开始要求它“说得更好”“更得体”“更适合公开看”。一旦这样，那个窗口就被污染了。

我并不是说思维链本身一定不能被用户以其他方式感知。比如我们现在会用一些思维链摘要，当作折中方案。再往后，也许更好的方式是模型在推理时实时跟你交流，最新一代 Codex 和 reasoning GPT 已经有一点这个味道，但我觉得还会继续进化。

真正让我兴奋的是，我们至少不用让训练信号和理解模型这件事直接对打。如果你一边想理解模型长期会怎么想、动机会怎么变化，一边又在大规模使用一种直接破坏这种可观察性的训练方式，你多半不会有好下场。

所以，对我来说，这种“解耦”给了我一点希望。不是说它解决了长期对齐问题，它远远不是终极方案，但它是工具箱里非常关键的一件工具。它至少能帮助我们继续向前推进，慢慢啃这些更根本的问题。

主持人：除了思维链监控，还有哪些方向是你觉得值得押注的？

Jakub Pachocki：更长期的对齐问题，本质上是泛化问题。

我们当然能把模型训练得在分布内表现得不错，也能在那些我们明确训练过的任务上大致控制它的行为。但真正让人担心的，是当模型碰到非常不一样的任务、非常不一样的环境，或者它比以前聪明得多、能力扩展得多时，会发生什么。我们其实并没有真正学会怎么为那种情况训练它。

所以，从这个角度看，长期价值对齐研究，本质上是在研究泛化：模型最终会回落到什么价值上？在这件事上，我非常感兴趣的一条研究线，是理解这种泛化和预训练数据之间的关系。我们现在也在这上面投入很多。我觉得这里面还有很大空间。

主持人：过去半年，你对对齐问题的担忧是上升了还是下降了？

Jakub Pachocki：如果只说长期挑战，我的想法这几年其实变了很多。以前我会觉得，这个问题太模糊了，甚至很难定义，更别说抓手；现在我越来越觉得，它其实是可以通过非常具体的技术路径去推进的。所以我们才会把对齐当成研究的核心部分，而不是附属品。

也正因为如此，我对“这里有一条研究路径，最终能把世界带向一个非常好的状态”这件事，信心是上升了很多的。与此同时，我对高能力模型的时间表也明显提前了。我觉得我们离那种非常有变革性的模型已经不远了。

我不是说它们在所有方面都比我们聪明，但它们已经足够强到改变很多事情。所以我一方面对我们持续掌握对齐进展、评估模型风险这件事还算乐观；另一方面，我也认为整个行业都必须做好准备，在必要时真正接受妥协，甚至在看到某些信号时放慢开发速度。

当“几个人就能运转一家超级公司”

主持人：你刚才提到模型接入现实世界。那在机器人这件事上，你怎么看时间线？

Jakub Pachocki：我觉得那里已经有一些非常有希望的算法想法，而且它们和我们现在所走的这套路线并没有那么远。所以我对机器人时间线是乐观的，只不过我觉得它会比纯虚拟世界里的 AI 稍微更慢一点。

主持人：说到更大的社会层面，你觉得今天整个社会最被低估的问题是什么？

Jakub Pachocki：如果我们真的走到大量智力劳动都可以被自动化的阶段，会出现一些非常大的问题，而且我不觉得这些问题有显而易见的解法。

最自然的一层，是工作岗位与财富集中。我怀疑这件事最后一定需要真正的 policymaker 介入。我也听过一些比较乐观的解法，但从根上说，如果某些过去很有价值、很昂贵、也承担着重要功能的工作，突然能被很便宜地完成，长期看它当然可能是好事，可它也可能发生得非常快。

还有一个相关问题是：如果你真的拥有一个自动化研究实验室、一个自动化公司，它能做非常多事，却只需要非常少的人控制，事情就会变得很不一样。哪怕没有机器人，这件事也已经足够疯狂；有了机器人，只会更夸张。

所以，未来这些强大到惊人的组织到底该怎么治理？这些组织可能只由几个人构成，却拥有巨大的行动能力。我们该怎么理解这种东西？我觉得，这是一个整个社会都必须面对的新问题。

主持人：说到这些新问题，我最近刚有了孩子，所以我也一直在想：十年后，他的生活会是什么样？你离这件事这么近，AI 改变了你对下一代该怎么被抚养、该怎么接受教育的看法吗？

Jakub Pachocki：我觉得，我们所有人的任务，是把 AI 和这个世界一起建设成一种状态：到头来，仍然是人类拥有 agency，由人类来设定方向。

也许今天我们很珍视的很多技术挑战，未来会更像一种业余爱好——但这并不意味着人没有事做。恰恰相反，人类的挑战会越来越多地转向另一类问题：什么是真正重要的？我们应该去做什么？

如果世界能往那个方向去，我觉得人反而会拥有更多事情可做，而且是更多真正值得做、也更令人兴奋的事。但与此同时，我依然觉得，人还是应该对技术有一定理解，不管这种基础教育是通过什么方式获得的，因为你得有能力去思考这些问题。

主持人：这听起来已经不是一个单纯技术问题了。

Jakub Pachocki：对。我觉得我们刚刚讨论的这些问题，包括对齐、监控，都会越来越变成紧迫问题。而它们并不只是 AI 研究者自己的挑战。它们当然是政策制定者的挑战，也是整个社会需要一起想清楚的问题。现在已经开始出现一些讨论了，但我觉得还远远不够。

【活动分享】"48 小时，与 50+ 位大厂技术决策者，共探 AI 落地真路径。"奇点智能技术大会是由深耕多年的「全球机器学习技术大会」重磅升级而来。2026 奇点智能技术大会将于 4 月 17-18 日在上海环球港凯悦酒店正式召开，大会聚焦大模型技术演进、智能体系统工程、OpenClaw 生态实践及 AI 行业落地等十二大专题板块，特邀来自BAT、京东、微软、小红书等头部企业的 50+ 位技术决策者分享实战案例。旨在帮助技术管理者与一线 AI 落地人员规避选型风险、降低试错成本、获取可复用的工程方法论，真正实现 AI 技术的规模化落地与商业价值转化。这不仅是一场技术的盛宴，更是决策者把握 2026 AI 拐点的战略机会。