OpenAI 首席科学家最新采访：为何思维链不能公开、首位 AI 实习生将到来、通用 harness|deepmind|openai|人工智能|思维链|机器人|知名企业|知识库|通用汽车|量子计算机

来源：AGI Hunt

Jakub Pachocki 是 OpenAI 现任首席科学家，GPT-4、o1、o3 系列模型的主要设计者之一，也是历史上最年轻的 IOI（国际信息学奥林匹克）金牌得主之一。

Jacob Effron 和 Jakub Pachocki 对谈现场截图（Unsupervised Learning 播客）

他很少公开接受采访，但这一次，他在 Redpoint AI 的播客上坐下来，聊了将近一个小时。

话题包括 AGI 时间线、OpenAI 内部如何跑实验、为什么故意把 chain of thought 藏起来、以及他对 AI 改变科学研究的真实判断。

OpenAI 首席科学家 Jakub Pachocki 与 Jacob Effron 对谈

节目叫「Unsupervised Learning」，主持人 Jacob Effron 是 Redpoint Ventures 的管理合伙人，聊的是他「最想问的那些问题」。

OpenAI Newsroom 转发了该采访，配文称：「算力驱动 AI 的每一层，而 @merettm 正在谈论构建自动化 AI 研究员的进展。」

下面是整场对话里，核心的内容整理。

2026 年 9 月

四个月前，Jakub 和 OpenAI 团队公开说过一个时间表：

• 今年 9 月：达到「研究实习生级别」的 AI 系统

• 2028 年 3 月：实现完全自动化的 AI 研究员

这次他接受采访，第一个问题就是：四个月过去了，还在轨道上吗？

“ 「我们在 OpenAI 内部，现在已经用 Codex 完成了大部分实际编程。编程这件事，对大多数人来说，已经发生了相当大的变化。我把这视为一个信号，说明某些东西是在轨道上的。」

另一个让他觉得「进展超预期」的领域，是数学和物理。

他说，过去那套靠数学比赛来衡量模型能力的方法，已经快要不够用了。模型已经解决了 IMO 第 6 题，进入了「研究级数学」的领域。他们正在把注意力移向「模型在真实世界里有多有用」这个维度。

“ 「我们相信，模型现在的能力已经足够，虽然不是在每个方面都比人聪明，但已经足以实质性地改变经济运转方式。我们对此感到非常紧迫。」

什么叫「实习生」

Jacob 追问：你怎么知道自己到达了那个门槛？

Jakub 的区分方式，倒是很简单明确。

他说，「研究实习生」和「完全自动化研究员」的区别，在于任务的时间跨度和具体程度。

不要指望今年的系统能接受「去提升你的模型能力」或者「去解决对齐问题」这种指令，然后自己去干。这今年还做不到。

但如果任务足够具体，比如「我有一个改进模型的特定想法，帮我跑这个实验，把这个评估用不同的方式跑一遍」，他认为现在已经有了大部分需要的组件。

“ 「我认为我们主要需要的，只是把这些组件拼在一起。」

Karpathy 那篇用这些模型改进自己「小得多的模型」的文章，他觉得是对这类工具未来样子的一个预演。

数学是北极星

OpenAI 为什么一直盯着数学比赛跑？

这不是因为数学本身有多重要，而是因为数学是验证「模型有没有真的变聪明」的最好工具。

可以验证（对就是对，错就是错），可以无限变难，还能告诉你模型在「推理」这件事上到底进步了多少。

他说，这条路线引出了 reasoning 模型的整套方法论。现在，这个「北极星」本身快到顶了。

数学没有变得没用，团队的注意力开始移向更实际的问题：模型在真实科研、真实经济活动里到底能做多少事。

有个特别的细节是，他提到了一个叫「first proofs」的挑战，是几位受尊敬的数学家/理论计算机科学家发布的一批未曾发表的研究级问题，给模型来解。

这个挑战发布时没有提前通知，只有一周时间。

OpenAI 当时手上正好有一个训练中的模型，一位叫 James Lee 的工程师直接开始手动提示那个模型，然后发现它真的在解那些题。

Jakub 说，其中一道题来自他自己博士研究的领域。

“ 「看到模型想出了我可能需要一两周才能想到的那些思路，而它用了大概一个小时，那是一种很奇怪的感受。就像以前看我们的 Dota 机器人用非常有趣的方式下棋，感觉有什么魔法在发生……那类东西不应该是无穷尽的。」「而现在，这件事发生在了数学上。发生在了我认为真正具有代表性的领域上。这大大增加了我的紧迫感。」

代码和数学，是 RL 最好发挥的地方，因为验证答案很容易。

但医疗、法律、金融呢？

Jakub 的看法：他相当乐观，但承认这是「下一个真正的前沿」。

问题的本质，他认为和「长时间任务」高度重合。想想看，一个数学题如果要研究一年，那第一天做什么，本来就是一个开放性问题。所以「难以验证」和「长时间跨度」这两个难点，其实是同一件事。

“ 「我们在这些更通用的领域扩展 RL，已经看到非常鼓舞人心的迹象。」

对于那些问「我们应不应该自己做 RL」的公司，他的建议：RL 确实是一种数据效率很高的方式让模型专注于某个任务。但还有一种更数据高效的方式，那就是上下文学习（in-context learning）。只要把你的例子、你的指令放进去，模型就能学。

他的直觉是：与其复制目前 OpenAI 的 RL 流程，不如先把精力放在搞清楚什么 eval 是对的、积累什么数据，未来直接喂进模型上下文，效果可能更好。

通用 harness

关于「要不要自己搭 harness」，他也给了个明确的判断。

“ 「harness 的实现，在很长一段时间内都不应该成为限制。我们会有更通用的 harness，可以被用于各种各样的领域。Codex 其实如果你拿去用在编程以外的地方，效果还不错。」

他描述的未来图景是：AI 应该主动来到你所在的地方，而不是让你去迁就它的限制。

比如，AI 应该出现在 Slack 里，接入你的上下文，能够学习、能够执行。不是说有这个功能是因为它能做，而是说没有这个功能就表示它存在局限。

“ 「长期来看，AI 应该默认出现在你所在的地方。如果没有，那只应该是因为它有了新的能力，而不是因为它有局限。」

推理链的秘密

这是整场对话里，最有深度的部分之一。

OpenAI 在发布早期 reasoning 模型时，做了一个决定：不向用户展示 chain of thought（推理链）。

这个决定有争议，也有很多人不理解。

Jakub 解释了他当时的主要动机。

核心逻辑是这样的：这类 reasoning 模型的推理过程，在训练时没有被直接监督（不像 ChatGPT 那样被训练成「礼貌、友好」）。训练信号只作用于最终输出，而不作用于中间推理。

这就意味着，推理链是模型在没有「表演压力」下真实运行的地方。

“ 「这其实是一种非常强大的范式，可以用来解读模型在做什么。这和机制可解释性（mechanistic interpretability）的想法并不太不同，后者是分析那些没有被直接监督的模型激活值……但推理链的优势在于，它默认是用英文写的，所以理解起来容易得多。」

他说，如果 OpenAI 在产品里展示 chain of thought，最终就不可避免地会用它来做训练。而一旦这样做，chain of thought 就会开始被「优化」，就会开始变成另一种表演，而不是模型真实的内部运行。

“ 「如果你想长期理解模型的行为，但你在扩展的方法却在直接对抗这个目标，那你大概不会有什么好结果。」

他把让模型拥有「私人空间」这件事，视为维持长期可监控性的关键设计。

目前的过渡方案是「推理链摘要」，但他认为长期解决方案是让模型实时和你对话，而不是展示原始推理链。

最新版本的 Codex 和推理型 GPT 模型，已经在往这个方向走了。

跑几天都没问题

多久以后，我们会看到模型可以自主工作几天？

“ 「我认为，模型能够自主工作几天的那个阶段，并不太远。也许需要用到比现在更多的算力，然后能自主产出质量更高的成果。」

至于是否需要工程师背景才能有效监督这些运行几天的 agent：他觉得对于很多输出，你现在就已经不需要太多专业经验了。但如果你想构建更大的东西，你仍然需要「整体设计感」，需要能判断哪些模块合适、哪些不合适。

“ 「我确实预计这种技能需求会发生相当大的转变。」

方向是：向「设定方向、把控全局」的那种能力。

model scheming 研究

Jakub 提到了一项他认为「非常令人兴奋」的跨实验室合作研究：

Model scheming，即：在不同训练环境下，模型是否会发展出隐藏目标并开始「假装」对齐？

而值得注意的是，这项研究是 OpenAI、Anthropic 和 DeepMind 合作完成的。

他们发现，chain of thought monitoring 正是这类研究得以进行的关键工具，因为它让研究者真正能够检查模型的动机。

“ 「这种能力对于研究长期对齐很有帮助。它可能会把我们带向完全不同的缓解方向，比如修改预训练数据，或者采用接种提示（inoculation prompting）这类想法。能够理解，对于评估这些方法非常有帮助。」

对齐的真正难题

Jakub 认为，对齐问题的长期挑战，本质上是一个泛化问题。

在分布内的场景，他们大体上能控制模型行为。真正令人担忧的，是模型遇到训练时从未见过的情况时会怎样，比如面对一个完全不同的处境，或者变得比以往任何时候都聪明得多。

“ 「值得泛化的价值观是什么？当模型陷入非常不同的处境时，它会退回到哪些价值观？对我来说，这是一条让我相当兴奋的研究线索。」

他说，过去几年他对对齐问题的看法，从「这是一个模糊的、难以界定的问题」，演变成了「我们可以通过非常具体的技术方案来取得进展」。

他的整体判断是：乐观。

他相信存在一条技术路径能把我们带到一个「极其美好的世界」。但他同样清楚，能力时间线在压缩，准备时间不多。

“ 「我们必须做好准备，必要时接受权衡，甚至根据我们所看到的，放慢发展速度。」

AI 为科学

Jakub 对于 AI 驱动科学研究的判断，分几个层面。

关于架构的问题：他认为，LLM 加持物理世界和特定领域专用架构（比如蛋白质折叠用不同模型）并不矛盾。两条路可以并行。

“ 「我不认为大型语言模型是训练出最优蛋白质折叠模型的最高效方式，尽管它们最终也许会产出最好的模型。」

至于哪些科学领域会最快被 AI 改变：他没有给出具体答案，但他认为关键在于「模型能不能接入现有的生态系统」。

那些实验室能够快速改造自身、接纳这些新工具的领域，会跑得更快。

他描述的图景，不是一个「全自动 AI 科学家」独自跑通一切，而是：

“ 「一个非常自然地与 AI 科学家合作的世界，这些 AI 科学家正在努力解决一个问题。」

AI 驱动设计和创意，人类在回路中。

财富的归宿

快问快答环节，Jakub 被问到：作为一个社会，我们在哪些事上想得还不够？

他说的是「财富集中」。

“ 「大量脑力工作可以被自动化这件事，带来了一些我认为没有明显解决方案的大问题。其中一个是工作和财富集中的问题，我猜这需要政策制定者的参与。」

他还说了另一件事，让人更警觉一些：

“ 「如果你真的有一个自动化研究实验室，一个可以做很多事情的自动化公司，它可能会被非常少数的人控制……这些组织如此强大，却可能只由几个人组成。如何思考对这类组织的治理，是我们作为社会必须面对的新问题。」

机器人部分，他也提了一句：时间线比虚拟 AI 要长，但算法上已经有非常有希望的思路了。

他回顾了 OpenAI 的演变：

2017 年：学术实验室，追求各种想法，还不太相信 scaling。

GPT 时代：转向，买大计算机，开始做 scaling science 和基础设施。

ChatGPT 时刻：他坦言当时预计会是视频/生成式 AI 先爆发，没想到是文本对话先跑出来。但这个张力，他们其实预见到了：你有一个当下很火的产品，但你相信它会演变很多。

现在：他们认为，已经开始进入「部署 AGI」的阶段。不是「在所有方面都比人聪明」那种 AGI，而是足以「实质性改变经济运转方式」的那种。

关于 Codex 和 Anthropic 的 Claude Code 的竞争，他也说了真话：在 OpenAI 内部，编程工具一直是「次要优先级」，主要精力放在「未来那件事」上。这就给了专注于此的 Anthropic 一个先手。

“ 「我对我们在研究和模型智能侧正在构建的东西，非常有信心。我们现在对产品侧加大投入，是因为我们相信：现在这些东西真正重要了。」

结尾

采访的最后，他说的是这个：

“ 「我们刚才谈到的那些问题，关于对齐、可监控性，我认为它们正在变得非常紧迫。而且这些问题不只是 AI 研究员的问题，是政策制定者的问题，也是我们所有人需要思考的问题。我很高兴看到一些讨论开始出现，但我们需要更多。」

58 分钟的对话，Jakub 全程干货输出。

2026 年 9 月，「实习生」正在到来。

2028 年 3 月，「研究员」即将问世。

那些我们以为是十年后的问题，终于已经，快到门口了！

YouTube 完整视频：https://youtu.be/vK1qEF3a3WM

️ 播客：Unsupervised Learning by Redpoint AI (@RedpointAI)

Jacob Effron：https://x.com/jacobeffron/status/2042234897134162077

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

未来知识库是 “21世纪关键技术研究院”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）