来源:AGI Hunt
Jakub Pachocki 是 OpenAI 现任首席科学家,GPT-4、o1、o3 系列模型的主要设计者之一,也是历史上最年轻的 IOI(国际信息学奥林匹克)金牌得主之一。
他很少公开接受采访,但这一次,他在 Redpoint AI 的播客上坐下来,聊了将近一个小时。
话题包括 AGI 时间线、OpenAI 内部如何跑实验、为什么故意把 chain of thought 藏起来、以及他对 AI 改变科学研究的真实判断。
OpenAI 首席科学家 Jakub Pachocki 与 Jacob Effron 对谈
节目叫「Unsupervised Learning」,主持人 Jacob Effron 是 Redpoint Ventures 的管理合伙人,聊的是他「最想问的那些问题」。
OpenAI Newsroom 转发了该采访,配文称:「算力驱动 AI 的每一层,而 @merettm 正在谈论构建自动化 AI 研究员的进展。」
下面是整场对话里,核心的内容整理。
01
2026 年 9 月
四个月前,Jakub 和 OpenAI 团队公开说过一个时间表:
• 今年 9 月:达到「研究实习生级别」的 AI 系统
• 2028 年 3 月:实现完全自动化的 AI 研究员
这次他接受采访,第一个问题就是:四个月过去了,还在轨道上吗?
“ 「我们在 OpenAI 内部,现在已经用 Codex 完成了大部分实际编程。编程这件事,对大多数人来说,已经发生了相当大的变化。我把这视为一个信号,说明某些东西是在轨道上的。」
另一个让他觉得「进展超预期」的领域,是数学和物理。
他说,过去那套靠数学比赛来衡量模型能力的方法,已经快要不够用了。模型已经解决了 IMO 第 6 题,进入了「研究级数学」的领域。他们正在把注意力移向「模型在真实世界里有多有用」这个维度。
“ 「我们相信,模型现在的能力已经足够,虽然不是在每个方面都比人聪明,但已经足以实质性地改变经济运转方式。我们对此感到非常紧迫。」
02
什么叫「实习生」
Jacob 追问:你怎么知道自己到达了那个门槛?
Jakub 的区分方式,倒是很简单明确。
他说,「研究实习生」和「完全自动化研究员」的区别,在于任务的时间跨度和具体程度。
不要指望今年的系统能接受「去提升你的模型能力」或者「去解决对齐问题」这种指令,然后自己去干。这今年还做不到。
但如果任务足够具体,比如「我有一个改进模型的特定想法,帮我跑这个实验,把这个评估用不同的方式跑一遍」,他认为现在已经有了大部分需要的组件。
“ 「我认为我们主要需要的,只是把这些组件拼在一起。」
Karpathy 那篇用这些模型改进自己「小得多的模型」的文章,他觉得是对这类工具未来样子的一个预演。
03
数学是北极星
OpenAI 为什么一直盯着数学比赛跑?
这不是因为数学本身有多重要,而是因为数学是验证「模型有没有真的变聪明」的最好工具。
可以验证(对就是对,错就是错),可以无限变难,还能告诉你模型在「推理」这件事上到底进步了多少。
他说,这条路线引出了 reasoning 模型的整套方法论。现在,这个「北极星」本身快到顶了。
数学没有变得没用,团队的注意力开始移向更实际的问题:模型在真实科研、真实经济活动里到底能做多少事。
有个特别的细节是,他提到了一个叫「first proofs」的挑战,是几位受尊敬的数学家/理论计算机科学家发布的一批未曾发表的研究级问题,给模型来解。
这个挑战发布时没有提前通知,只有一周时间。
OpenAI 当时手上正好有一个训练中的模型,一位叫 James Lee 的工程师直接开始手动提示那个模型,然后发现它真的在解那些题。
Jakub 说,其中一道题来自他自己博士研究的领域。
“ 「看到模型想出了我可能需要一两周才能想到的那些思路,而它用了大概一个小时,那是一种很奇怪的感受。就像以前看我们的 Dota 机器人用非常有趣的方式下棋,感觉有什么魔法在发生……那类东西不应该是无穷尽的。」 「而现在,这件事发生在了数学上。发生在了我认为真正具有代表性的领域上。这大大增加了我的紧迫感。」
04
代码和数学,是 RL 最好发挥的地方,因为验证答案很容易。
但医疗、法律、金融呢?
Jakub 的看法:他相当乐观,但承认这是「下一个真正的前沿」。
问题的本质,他认为和「长时间任务」高度重合。想想看,一个数学题如果要研究一年,那第一天做什么,本来就是一个开放性问题。所以「难以验证」和「长时间跨度」这两个难点,其实是同一件事。
“ 「我们在这些更通用的领域扩展 RL,已经看到非常鼓舞人心的迹象。」
对于那些问「我们应不应该自己做 RL」的公司,他的建议:RL 确实是一种数据效率很高的方式让模型专注于某个任务。但还有一种更数据高效的方式,那就是上下文学习(in-context learning)。只要把你的例子、你的指令放进去,模型就能学。
他的直觉是:与其复制目前 OpenAI 的 RL 流程,不如先把精力放在搞清楚什么 eval 是对的、积累什么数据,未来直接喂进模型上下文,效果可能更好。
05
通用 harness
关于「要不要自己搭 harness」,他也给了个明确的判断。
“ 「harness 的实现,在很长一段时间内都不应该成为限制。我们会有更通用的 harness,可以被用于各种各样的领域。Codex 其实如果你拿去用在编程以外的地方,效果还不错。」
他描述的未来图景是:AI 应该主动来到你所在的地方,而不是让你去迁就它的限制。
比如,AI 应该出现在 Slack 里,接入你的上下文,能够学习、能够执行。不是说有这个功能是因为它能做,而是说没有这个功能就表示它存在局限。
“ 「长期来看,AI 应该默认出现在你所在的地方。如果没有,那只应该是因为它有了新的能力,而不是因为它有局限。」
06
推理链的秘密
这是整场对话里,最有深度的部分之一。
OpenAI 在发布早期 reasoning 模型时,做了一个决定:不向用户展示 chain of thought(推理链)。
这个决定有争议,也有很多人不理解。
Jakub 解释了他当时的主要动机。
核心逻辑是这样的:这类 reasoning 模型的推理过程,在训练时没有被直接监督(不像 ChatGPT 那样被训练成「礼貌、友好」)。训练信号只作用于最终输出,而不作用于中间推理。
这就意味着,推理链是模型在没有「表演压力」下真实运行的地方。
“ 「这其实是一种非常强大的范式,可以用来解读模型在做什么。这和机制可解释性(mechanistic interpretability)的想法并不太不同,后者是分析那些没有被直接监督的模型激活值……但推理链的优势在于,它默认是用英文写的,所以理解起来容易得多。」
他说,如果 OpenAI 在产品里展示 chain of thought,最终就不可避免地会用它来做训练。而一旦这样做,chain of thought 就会开始被「优化」,就会开始变成另一种表演,而不是模型真实的内部运行。
“ 「如果你想长期理解模型的行为,但你在扩展的方法却在直接对抗这个目标,那你大概不会有什么好结果。」
他把让模型拥有「私人空间」这件事,视为维持长期可监控性的关键设计。
目前的过渡方案是「推理链摘要」,但他认为长期解决方案是让模型实时和你对话,而不是展示原始推理链。
最新版本的 Codex 和推理型 GPT 模型,已经在往这个方向走了。
07
跑几天都没问题
多久以后,我们会看到模型可以自主工作几天?
“ 「我认为,模型能够自主工作几天的那个阶段,并不太远。也许需要用到比现在更多的算力,然后能自主产出质量更高的成果。」
至于是否需要工程师背景才能有效监督这些运行几天的 agent:他觉得对于很多输出,你现在就已经不需要太多专业经验了。但如果你想构建更大的东西,你仍然需要「整体设计感」,需要能判断哪些模块合适、哪些不合适。
“ 「我确实预计这种技能需求会发生相当大的转变。」
方向是:向「设定方向、把控全局」的那种能力。
08
model scheming 研究
Jakub 提到了一项他认为「非常令人兴奋」的跨实验室合作研究:
Model scheming,即:在不同训练环境下,模型是否会发展出隐藏目标并开始「假装」对齐?
而值得注意的是,这项研究是 OpenAI、Anthropic 和 DeepMind 合作完成的。
他们发现,chain of thought monitoring 正是这类研究得以进行的关键工具,因为它让研究者真正能够检查模型的动机。
“ 「这种能力对于研究长期对齐很有帮助。它可能会把我们带向完全不同的缓解方向,比如修改预训练数据,或者采用接种提示(inoculation prompting)这类想法。能够理解,对于评估这些方法非常有帮助。」
09
对齐的真正难题
Jakub 认为,对齐问题的长期挑战,本质上是一个泛化问题。
在分布内的场景,他们大体上能控制模型行为。真正令人担忧的,是模型遇到训练时从未见过的情况时会怎样,比如面对一个完全不同的处境,或者变得比以往任何时候都聪明得多。
“ 「值得泛化的价值观是什么?当模型陷入非常不同的处境时,它会退回到哪些价值观?对我来说,这是一条让我相当兴奋的研究线索。」
他说,过去几年他对对齐问题的看法,从「这是一个模糊的、难以界定的问题」,演变成了「我们可以通过非常具体的技术方案来取得进展」。
他的整体判断是:乐观。
他相信存在一条技术路径能把我们带到一个「极其美好的世界」。但他同样清楚,能力时间线在压缩,准备时间不多。
“ 「我们必须做好准备,必要时接受权衡,甚至根据我们所看到的,放慢发展速度。」
10
AI 为科学
Jakub 对于 AI 驱动科学研究的判断,分几个层面。
关于架构的问题:他认为,LLM 加持物理世界和特定领域专用架构(比如蛋白质折叠用不同模型)并不矛盾。两条路可以并行。
“ 「我不认为大型语言模型是训练出最优蛋白质折叠模型的最高效方式,尽管它们最终也许会产出最好的模型。」
至于哪些科学领域会最快被 AI 改变:他没有给出具体答案,但他认为关键在于「模型能不能接入现有的生态系统」。
那些实验室能够快速改造自身、接纳这些新工具的领域,会跑得更快。
他描述的图景,不是一个「全自动 AI 科学家」独自跑通一切,而是:
“ 「一个非常自然地与 AI 科学家合作的世界,这些 AI 科学家正在努力解决一个问题。」
AI 驱动设计和创意,人类在回路中。
11
财富的归宿
快问快答环节,Jakub 被问到:作为一个社会,我们在哪些事上想得还不够?
他说的是「财富集中」。
“ 「大量脑力工作可以被自动化这件事,带来了一些我认为没有明显解决方案的大问题。其中一个是工作和财富集中的问题,我猜这需要政策制定者的参与。」
他还说了另一件事,让人更警觉一些:
“ 「如果你真的有一个自动化研究实验室,一个可以做很多事情的自动化公司,它可能会被非常少数的人控制……这些组织如此强大,却可能只由几个人组成。如何思考对这类组织的治理,是我们作为社会必须面对的新问题。」
机器人部分,他也提了一句:时间线比虚拟 AI 要长,但算法上已经有非常有希望的思路了。
12
他回顾了 OpenAI 的演变:
2017 年:学术实验室,追求各种想法,还不太相信 scaling。
GPT 时代:转向,买大计算机,开始做 scaling science 和基础设施。
ChatGPT 时刻:他坦言当时预计会是视频/生成式 AI 先爆发,没想到是文本对话先跑出来。但这个张力,他们其实预见到了:你有一个当下很火的产品,但你相信它会演变很多。
现在:他们认为,已经开始进入「部署 AGI」的阶段。不是「在所有方面都比人聪明」那种 AGI,而是足以「实质性改变经济运转方式」的那种。
关于 Codex 和 Anthropic 的 Claude Code 的竞争,他也说了真话:在 OpenAI 内部,编程工具一直是「次要优先级」,主要精力放在「未来那件事」上。这就给了专注于此的 Anthropic 一个先手。
“ 「我对我们在研究和模型智能侧正在构建的东西,非常有信心。我们现在对产品侧加大投入,是因为我们相信:现在这些东西真正重要了。」
13
结尾
采访的最后,他说的是这个:
“ 「我们刚才谈到的那些问题,关于对齐、可监控性,我认为它们正在变得非常紧迫。而且这些问题不只是 AI 研究员的问题,是政策制定者的问题,也是我们所有人需要思考的问题。我很高兴看到一些讨论开始出现,但我们需要更多。」
58 分钟的对话,Jakub 全程干货输出。
2026 年 9 月,「实习生」正在到来。
2028 年 3 月,「研究员」即将问世。
那些我们以为是十年后的问题,终于已经,快到门口了!
YouTube 完整视频:https://youtu.be/vK1qEF3a3WM
️ 播客:Unsupervised Learning by Redpoint AI (@RedpointAI)
Jacob Effron:https://x.com/jacobeffron/status/2042234897134162077
阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”
未来知识库是 “21世纪关键技术研究院”建 立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
热门跟贴