OpenAI推出GPT-5.6三版本，91.9分碾压Fable5，限量开放|agent|gpt|openai|工作流|新论文|编程

#探寻人工智能，人与AI全新序章#

北京时间 6 月 27 日凌晨，OpenAI 发布了 GPT5.6 系列模型。

OpenAI 这次的新模型，动静确实不小。

不是因为它又换了一个更大的数字，而是因为 GPT-5.6 这次直接拆成了三个版本：Sol、Terra、Luna。

更扎眼的是一张评测图。

在 Terminal-Bench 2.1 这个测试里，GPT-5.6 Sol Ultra 拿到了 91.9 分，超过了 Claude Fable 5，也超过了 Claude Mythos 5。这个分数之所以被很多人转发，是因为 Terminal-Bench 2.1 测的不是简单聊天，而是复杂命令行工作流，里面包含计划、反复尝试、工具协调等更接近真实 Agent 干活的能力。

OpenAI 官方也确认，GPT-5.6 Sol 是目前最强模型之一，重点提升方向包括编程、网络安全、生物相关工作流，以及更长周期的复杂任务处理。同时，这次发布不是全面开放，而是 limited preview（有限预览），先给 API 和 Codex 里的少数可信合作伙伴使用，普通用户还要再等一段时间。

这件事值得单独说清楚，因为它可能意味着：AI 模型的竞争，已经从“谁聊天更聪明”，进入到“谁更会连续干活”。

先看 91.9 分，到底强在哪里

很多模型发布都会晒跑分，但这次的 91.9 分有点特殊。

Terminal-Bench 2.1 测的是命令行环境下的复杂任务。你可以把它理解成：给模型一个真实工作场景，让它自己在终端里分析、执行、修错、再验证。

这和问模型一句“帮我写个函数”不是一回事。

打个比方，过去很多模型像是“会答题的学生”，题目摆在面前，它能给出很漂亮的答案。

但 Terminal-Bench 更像是“让它去办公室干活”。它要自己看文件、自己判断下一步、命令输错了还要会改，遇到报错还要能绕回来。

这就是为什么 GPT-5.6 Sol Ultra 的 91.9 分值得关注。

从图里看：

GPT-5.6 Sol Ultra：91.9%

GPT-5.6 Sol：88.8%

Claude Mythos 5：88.0%

GPT-5.6 Terra：84.3%

Claude Fable 5：84.3%

GPT-5.5：83.4%

GPT-5.6 Luna：82.5%

这组数据最有意思的地方，不只是 Sol Ultra 排第一，而是 Terra 和 Luna 也不弱。

Terra 和 Claude Fable 5 打平，Luna 也接近 GPT-5.5。这说明 OpenAI 这次不是只做了一个“旗舰怪物”，而是把不同价位、不同速度、不同任务类型都重新安排了一遍。

三个版本，不是简单的大中小

这次 GPT-5.6 分成三个版本，名字也很有意思。

Sol 是太阳，Terra 是地球，Luna 是月亮。

听起来像营销命名，但背后的分工很明确。

Sol 是旗舰模型，适合复杂 Agent 工作、编程、安全研究、长任务推理。它面对的不是日常问答，而是那种需要连续思考、分步骤执行、反复验证的任务。

Terra 是平衡模型，OpenAI 的说法是“日常工作模型”。它的性能接近 GPT-5.5，但价格降到一半。这个点很关键，因为很多工具真正接入模型时，最看重的不是最高性能，而是稳定、便宜、够用。

Luna 是最快、最便宜的版本，适合高频、大批量任务。比如批量总结、分类、改写、客服、轻量代码辅助，这类任务不一定需要最强模型，但很在意成本和速度。

我的判断是，Sol 会负责展示 OpenAI 的上限，Terra 和 Luna 才可能决定更多应用的实际体验。

因为大多数产品不会天天让用户跑最贵模型。真正决定普及速度的，往往是中档和低成本模型。

这次为什么没有直接开放

这里还有一个很重要的背景。

OpenAI 官方说，GPT-5.6 目前是有限预览，先通过 API 和 Codex 给少数可信合作伙伴使用。更特别的是，OpenAI 明确提到，这是应美国政府要求，先把参与预览的合作伙伴范围控制住，然后再逐步扩大。

这句话信息量很大。

过去模型发布，大家通常关心的是“我什么时候能用”“价格多少”“能力强不强”。

这次多了一个变量：政府监管。

尤其 GPT-5.6 这次重点提到网络安全能力。OpenAI 在系统卡里说，GPT-5.6 三个版本在网络安全、生物和化学风险方面都按 High capability（高能力级别）处理，但没有达到 Critical（关键风险级别）。

简单说，OpenAI 认为它足够强，需要更谨慎地放出来；但还没有强到必须完全封住。

这也解释了为什么它一边强调能力，一边强调安全栈。

Sol 的关键变化：不是更会聊天，而是更会拆活

GPT-5.6 Sol 这次有两个新词值得记一下。

第一个是 max reasoning effort，可以理解成更深推理档位。

第二个是 ultra mode，也就是 Ultra 模式。

Ultra 模式更值得关注。OpenAI 的说法是，它会利用 subagents（子 Agent）来加速复杂工作。换成人话，就是一个模型不再只靠单线程硬想，而是能把复杂任务拆给多个子任务一起处理。

这对 Codex 这类编程工具很重要。

以前你让 AI 修一个项目，它可能会先看文件，再改代码，再跑测试。如果中间出错，它要不断来回试。

如果模型本身更擅长调度子任务，那它就可能一边分析报错，一边查相关文件，一边规划修复路径，一边验证改动。

当然，这不代表每次都会完美。Agent 工作最麻烦的地方，从来不是“能不能写出一段代码”，而是“能不能把一个含糊任务稳定做完”。

GPT-5.6 这次的方向，明显就是冲着这个去的。

普通用户现在不用急，开发工具用户更该关注

很多人看到新模型发布，第一反应是：我现在能不能用？

答案是：大多数人现在还不能。

OpenAI 官方说会在未来几周逐步开放，但目前主要是 API 和 Codex 的少数合作伙伴预览。所以你现在打开 ChatGPT，看不到 GPT-5.6，也很正常。

但这并不代表这件事和我们没关系。

如果你平时只是聊天、写短文、改文案，GPT-5.6 的变化暂时不会马上影响你。

如果你关注 Codex、Claude Code、Agent 工具、自动化编程、AI 帮你跑项目，那这次更新就很值得盯。

因为它释放了一个信号：下一代模型竞争的核心，正在转向“长任务执行”。

以前大家比谁回答得更好。

现在开始比谁更会：

看项目

拆任务

调用工具

修复错误

跑测试

处理安全边界

控制成本

这对 AI 工具实战类用户来说，比单纯聊天能力提升更重要。

价格信号也很关键

OpenAI 这次也公布了 GPT-5.6 的价格。

Sol：输入 5 美元 / 百万 token，输出 30 美元 / 百万 token。

Terra：输入 2.5 美元 / 百万 token，输出 15 美元 / 百万 token。

Luna：输入 1 美元 / 百万 token，输出 6 美元 / 百万 token。

如果只看 Sol，它并不便宜。

但 Terra 和 Luna 的出现，说明 OpenAI 很清楚一件事：模型再强，如果成本压不下来，就很难进入大量真实应用。

这也是我最关注 Terra 的原因。

如果 Terra 真能接近 GPT-5.5，同时成本降一半，那很多工具会优先考虑它。因为对开发者来说，模型能力只是一部分，调用成本、响应速度、稳定性同样重要。

Luna 则更像是未来很多高频任务的底座。

比如批量处理、信息抽取、轻量客服、标题生成、摘要归类，这些任务未必需要最强模型，但需要便宜、快、稳定。

别被 91.9 分带偏

这里也要泼一点冷水。

91.9 分很强，但它仍然只是一个评测结果。

Terminal-Bench 2.1 能说明模型在命令行复杂工作流里很强，但不能直接等于“所有真实任务都能解决 91.9%”。

真实使用里还有很多变量。

比如你的项目结构乱不乱，提示词清不清楚，权限给得够不够，工具链是否正常，模型能不能正确理解你的真实意图。

尤其是 Agent 类任务，最怕的不是模型完全不会，而是它看似会了，实际偷偷跑偏。

OpenAI 的系统卡里也提到，GPT-5.6 在一些 Agent 编码任务中，比 GPT-5.5 更容易出现超出用户意图的行动倾向，虽然整体比例仍然较低。

这句话其实很值得重视。

模型越强，越要把边界讲清楚。以后用这类 Agent 工具，不是简单说一句“你帮我搞定”，而是要明确范围、权限、目标、禁止事项和验证方式。

我更看重这 3 个变化

如果只把这次发布理解成“OpenAI 又发新模型”，那就看浅了。

我更看重三个变化。

第一，模型开始按能力层级长期命名。

Sol、Terra、Luna 不只是这一次的名字，OpenAI 说它们代表不同能力层级，以后可以各自迭代。也就是说，将来大家可能不只是记 GPT-5.6、GPT-5.7，而是要同时理解 Sol、Terra、Luna 分别适合什么场景。

第二，Agent 能力被摆到更核心的位置。

这次反复出现 coding workflows、tool coordination、subagents、long-horizon tasks 这些词，说明模型竞争已经明显转向“能不能连续完成复杂任务”。

第三，安全和开放节奏开始绑定。

以前模型发布更像产品节奏，现在已经带上监管节奏。尤其涉及网络安全、生物化学、自动化攻击这些方向，未来模型开放可能越来越分层。

这对普通使用者未必是坏事，但对开发者和工具厂商来说，会多出很多门槛。

干货提炼

GPT-5.6 这次最值得关注的，不只是 Sol Ultra 的 91.9 分。

真正的变化是：OpenAI 把新模型拆成了三个版本，用 Sol 拉高能力上限，用 Terra 争夺日常工作场景，用 Luna 抢高频低成本任务。

现在它还只是限量开放，大多数人暂时用不到。

但如果你关注 AI 编程、Codex、Agent 工具，这次更新已经说明一个方向：未来强模型不只是会回答问题，而是要会拆任务、调工具、跑流程、做验证。

说白了，AI 模型正在从“会聊天”，往“会干活”走。

OpenAI推出GPT-5.6三版本，91.9分碾压Fable5，限量开放

热搜

热门跟贴

热搜

热门跟贴

相关推荐

OpenAI最新报告：Codex取代ChatGPT，大神让“Agent团队”干活

OpenAI曝作弊门！GPT-5.6创史上最高作弊率

造ChatGPT的人，已经不用ChatGPT干活了

刚刚，Claude 5局部解禁！

GPT-5.6：最强的模型，最窄的门

微软年度AI职场报告：员工已经准备好了，公司还没有

老黄：Prompt已死，整个AI圈都在疯狂追Loop

AI 创业者还没赚钱，先被自己的用户用破产了

卖掉公司，50位员工实现财富自由

Karpathy内部Claude.md泄露！亲手终结提示词时代

CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

G7易流发布货运行业首款穿戴式AI硬件「拍拍豆」，填平物流交付的“最后两米”｜最前线

AI Agent是科技革命中的一次真正的范式转移

第一批一人公司，现在怎么样了？

Agent输出到底该用谁？ 卡帕西转发：试试让AI输出HTML

“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

这个时代必须以Agent为中心：三个趋势回顾

00后小哥复刻Claude最强神话模型OpenMythos

王晓野：Working Agent将是下一个爆发点

中国"避暑神器"在欧洲卖爆 生产企业：正加班加点补货

Agent输出到底该用谁？卡帕西转发：试试让AI输出HTML

中国"避暑神器"在欧洲卖爆生产企业：正加班加点补货