全文 3,000字 | 阅读约 8 分钟

打开网易新闻 查看精彩图片

 OpenAI 双高管:AI 进入“长思考”时代,企业要改这四件事
打开网易新闻 查看更多视频
OpenAI 双高管:AI 进入“长思考”时代,企业要改这四件事

(对谈片段:Jakub Pachocki深度解析 AI 长时推理突破)

不是更会聊天。

是更会长思考。

最近,硅谷风投 a16z Podcast 发布一场深度对谈,OpenAI 首席科学家 Jakub Pachocki 与首席研究官 Mark Chen 同台, 首次完整披露 GPT-5 背后的核心发展方向:

长时推理(long-horizon reasoning),强化学习(RL)的持续突破,以及在基准测试分数趋于饱和的情况下,AI 如何实现进一步发展。

他们提出了一个重要观点:我们正在进入 AI 的“长思考”时代。

Jakub 说,GPT-5 代表着关键转变:AI 从秒级反应走向小时级思考。

而Mark 补充说,在内测中,专业研究人员发现模型已经具备了协同思考的能力:“氛围编程”,正在演化成“氛围研究”。

这不仅是技术突破,更预示着 AI 应用模式的根本转变:

当 AI 进入“长思考时代”,企业的使用方式、协作节奏、组织结构都要重新设计。

第一节|AI 的工作方式,从秒反应变成小时思考

过去几年,大家习惯了和 AI 聊天,一问一答,几秒钟内出结果。 但 GPT-5 发布后,OpenAI 内部传递出一个新信号:

“AI 不该只在几秒钟内反应,而应该在几小时内真正想清楚。”

这正是模型背后的根本设计方向。

Jakub 解释说,在 GPT-5 之前,OpenAI 其实有两条不同的模型路径:

  • 一条是我们熟悉的 GPT-3.5、GPT-4,追求快速响应、即时输出;

  • 另一条是 O 系列,比如 O3,模型在内部想一会儿,再慢慢给出更靠谱的答案。

GPT-5 的目标,就是把这两种能力合并,让模型能自动选择合适的思考时长。

Mark Chen 解释说:“我们想让用户不用操心到底该用哪个版本、选哪个速度。模型会自己判断:这个问题需要想多久,再开始动手。”

OpenAI 内部团队认为,AI 正在从快速响应转向深度思考。

比如在数学建模、代码改写、策略规划这些场景中, 用户不再只是要一个答案,而是希望 AI 能:

  • 想清楚问题到底是什么;

  • 拆成哪几步来解;

  • 每一步要不要重新推理;

  • 哪一步错了,能不能调整;

  • 形成一套完整的解决思路。

Jakub 说,这类长时间推理的任务能力,以前靠人来做,现在AI已经能够胜任:

现在的模型已经能在 1 小时到 5 小时的时间范围内持续工作。

就像一个研究生不再是看一眼题目就给答案,而是能盯着一道难题琢磨一下午,最终得出一套完整思路。

Mark 也强调,O3是第一个真正适合日常推理工作的模型,而GPT-5进一步增强了这种能力,能在更长时间内保持稳定和准确。

这对企业意味着什么?

你需要重新认识 AI 的能力边界。它不再只是快速输出答案,而是能够进行长时间、深层次的问题分析。

AI 工作模式的这种根本转变,要求企业也要调整自己的使用策略。

第二节|提示词没用,AI 要你陪它做研究

过去几年,很多企业围着 AI 搭场景、搞培训、练提示词。 但 OpenAI 两位高管给出的提醒很明确:

我们现在要做的,不只是让模型回答,而是让它能“自己想办法”。

在这次访谈中,主持人提到了一个真实场景:几位高中生使用GPT编程时发现,现在写代码变成了 “氛围编程 (Vibe Coding)”,更像是在跟 AI 讨论、试探,根据AI的建议逐步完成。

对此,Mark 表示:“我觉得未来会进入一个新阶段,叫'氛围研究(Vibe Researching) '。”

这句话意思是:AI 开始具备辅助发现的能力。

在GPT-5 的内部测试中,OpenAI 把模型交给专业科学家和数学家试用。Jakub 发现了一个意外现象:他们拿出真正困难的问题,模型能够找到全新的解法,这些是之前版本做不到的。

这些专家的反馈是:GPT-5 已经不是在给答案,而是在和他们一起思考、一起寻找解题路径。

这种使用方式与传统的 AI 交互完全不同:

  • 不是下个指令等输出;

  • 而是与 AI 共同解决难题,愿意等它深度思考后再给出结论。

Mark 强调了这一转变:“我们发现,旧一代模型在简单问题上花费过多时间,复杂问题上反而处理得太快。新的 Codex 正在寻找平衡点:简单任务快速完成,复杂问题投入充足时间。”

模型不再只是被动执行指令,而是开始主导思考过程。

与此同时,企业需要适应是: 从追求完美的提示词技巧,转向设定清晰目标, 然后给系统充分的思考空间。

就像与专业顾问合作,你描述清楚问题,然后信任对方的判断和工作方式。

第三节|别只看答得准,要看能不能发现新东西

很多企业在上线智能工具后,习惯用传统指标评估效果:模型在测试题里答对了多少;响应速度如何;有没有犯错误。

但在 OpenAI 看来,这类评估标准,已经不够用了。

Jakub 明确表示:

“我们过去几年用的这些评估指标,已经快饱和了。”

什么意思?

比如数学题、编程题这种测试方式,从 GPT-3 到 GPT-4 到 GPT-5, 准确率从 96% 到 98%、99%,进步空间已经很有限。

就像一位学生,已经能稳定考 98 分,再追问他能否考 99 分意义不大。

Jakub 提出,真正重要的,是看模型能不能发现新东西。

我们希望看到的标志,是模型在科学或工程上,能有一些真正的实际进展。

举个例子:

OpenAI 最近在 AtCoder 编程比赛中测试模型, 它的表现已经能拿下全球第二名。主持人调侃说:“那你们只差第一名了。”

Jakub 并没有纠结于排名,而是强调了比赛的深层意义:

“这些比赛其实是未来研究成功的真实标志。世界上很多优秀的研究员都是从这种竞赛走出来的。”

但他也指出,这些标准仍有局限,因为它们还是人为设定的任务,都有固定答案。

接下来,OpenAI 更关注的是:

  • 模型能否在没人给方向的情况下自己探索

  • 能否真正提出别人没想到的做法

  • 能否在开放的、没有标准答案的领域里持续推进

这类过程已经远超答对错的范畴,更像是在考验独立研究能力。

Mark 透露,为了训练这种能力,OpenAI 内部会让模型完全自主解决问题,不提供任何提示或答案。

回到实际应用层面,企业不应只关注工具做对几道题,而要重点评估:

  1. 创新性它是否带来了你没想到的解决方法

  2. 效率性:它是否显著提升了工作效率,解决了原本耗时很久的任务

  3. 价值性:它是否产生了真正的经济价值,解决了实际问题

这才是下一个阶段,评估 AI 能力的核心标准。

第四节|AI具备持续推理能力,组织要适应变化

当 AI 具备了长时间思考的能力,企业能否真正用好它,关键在于组织结构是否匹配。

在 GPT-5 的研发背后,OpenAI 也面临着一样的问题: 如何让团队适应更复杂、更长周期的 AI 研发?

为了解决这一问题,Mark Chen 提到,OpenAI 持续推出新模型的背后,是一种专注攻克难题的研究文化:

我们不是靠模仿别人,也不是靠盯着竞争对手。我们知道自己要做什么,大家被这个目标吸引而来。

这句话的重点,不在信念,关键在于组织方式:不依赖个别天才单打独斗,而是构建一个不怕失败、有储备、有接力能力的团队。

Jacob 分享了一个细节:

“我们最成功的一些研究员,加入 OpenAI 前根本没做过深度学习。他们原来是做物理、做数学、做金融的。”

但他们有两个共同特征:

  • 有技术基础;

  • 能在一个方向上反复尝试,愿意做难题。

这也意味着,招聘重点不应该是工具使用的熟练程度,而应该是持续学习和适应变化的能力。

当然,学习适应能力也有不同的表现形式。Mark 说,OpenAI 内部有两种研究员都很重要:

  • 一种擅长提出新想法,探索多个方向;

  • 另一种擅长深挖一个想法,逐步验证和打磨。

他们的策略是把不同专长的人才组合起来,实现优势互补。

同样地,对企业而言,要发挥 AI 价值,组织结构也需要相应调整:

  • 专注长期目标持续推进,而非只追短期热点;

  • 建立能够留人、培养人、支持迭代的机制;

  • 培养团队与智能系统协同工作的能力。

正如 Jakub 所说:

“一个好的研究组织,最明显的标志是团队永远在学习新东西,从没停下来过。

这个趋势下,AI 进入新阶段,组织调整必须跟上。

结语|AI 不再只是工具,而是思考伙伴

OpenAI 的 Jakub Pachocki 与 Mark Chen 花了一个小时只讲一件事:AI 正在从聊天工具变成思考伙伴。

具体来说:

AI 开始会深度思考、持续推进、主动规划。

这要求企业同步调整四个方面:

  • 任务周期:适应长时间推理过程

  • 协作方式:从下指令转向共同探索

  • 评估标准:从准确率转向创新能力

  • 团队结构:匹配 AI协作需求

企业如果还停留在提示词优化和试点项目上,就会被时代抛弃。

GPT-5 标志着新协作模式的开始。

AI 进入“长思考”时代, 企业面临的不再是如何用好 AI,而是如何跟上 AI。

本文由AI深度研究院出品,内容翻译整理自OpenAI首席科学家Jakub Pachocki与首席研究官Mark Chen在a16z Podcast的访谈。未经授权,不得转载。

星标公众号, 点这里 1. 点击右上角 2. 点击"设为星标" ← AI深度研究员 ⋮ ← 设为星标

https://www.youtube.com/watch?v=KSgPNVmZ8jQ&utm

https://podcasts.apple.com/be/podcast/from-vibe-coding-to-vibe-researching-openais-mark-chen/id842818711?i=1000728378665

来源:官方媒体/网络新闻,

排版:Atlas

编辑:深思

主编:图灵