#探寻人工智能,人与AI全新序章#
北京时间 6 月 27 日凌晨,OpenAI 发布了 GPT5.6 系列模型。
OpenAI 这次的新模型,动静确实不小。
不是因为它又换了一个更大的数字,而是因为 GPT-5.6 这次直接拆成了三个版本:Sol、Terra、Luna。
更扎眼的是一张评测图。
在 Terminal-Bench 2.1 这个测试里,GPT-5.6 Sol Ultra 拿到了 91.9 分,超过了 Claude Fable 5,也超过了 Claude Mythos 5。这个分数之所以被很多人转发,是因为 Terminal-Bench 2.1 测的不是简单聊天,而是复杂命令行工作流,里面包含计划、反复尝试、工具协调等更接近真实 Agent 干活的能力。
OpenAI 官方也确认,GPT-5.6 Sol 是目前最强模型之一,重点提升方向包括编程、网络安全、生物相关工作流,以及更长周期的复杂任务处理。同时,这次发布不是全面开放,而是 limited preview(有限预览),先给 API 和 Codex 里的少数可信合作伙伴使用,普通用户还要再等一段时间。
这件事值得单独说清楚,因为它可能意味着:AI 模型的竞争,已经从“谁聊天更聪明”,进入到“谁更会连续干活”。
先看 91.9 分,到底强在哪里
很多模型发布都会晒跑分,但这次的 91.9 分有点特殊。
Terminal-Bench 2.1 测的是命令行环境下的复杂任务。你可以把它理解成:给模型一个真实工作场景,让它自己在终端里分析、执行、修错、再验证。
这和问模型一句“帮我写个函数”不是一回事。
打个比方,过去很多模型像是“会答题的学生”,题目摆在面前,它能给出很漂亮的答案。
但 Terminal-Bench 更像是“让它去办公室干活”。它要自己看文件、自己判断下一步、命令输错了还要会改,遇到报错还要能绕回来。
这就是为什么 GPT-5.6 Sol Ultra 的 91.9 分值得关注。
从图里看:
GPT-5.6 Sol Ultra:91.9%
GPT-5.6 Sol:88.8%
Claude Mythos 5:88.0%
GPT-5.6 Terra:84.3%
Claude Fable 5:84.3%
GPT-5.5:83.4%
GPT-5.6 Luna:82.5%
这组数据最有意思的地方,不只是 Sol Ultra 排第一,而是 Terra 和 Luna 也不弱。
Terra 和 Claude Fable 5 打平,Luna 也接近 GPT-5.5。这说明 OpenAI 这次不是只做了一个“旗舰怪物”,而是把不同价位、不同速度、不同任务类型都重新安排了一遍。
三个版本,不是简单的大中小
这次 GPT-5.6 分成三个版本,名字也很有意思。
Sol 是太阳,Terra 是地球,Luna 是月亮。
听起来像营销命名,但背后的分工很明确。
Sol 是旗舰模型,适合复杂 Agent 工作、编程、安全研究、长任务推理。它面对的不是日常问答,而是那种需要连续思考、分步骤执行、反复验证的任务。
Terra 是平衡模型,OpenAI 的说法是“日常工作模型”。它的性能接近 GPT-5.5,但价格降到一半。这个点很关键,因为很多工具真正接入模型时,最看重的不是最高性能,而是稳定、便宜、够用。
Luna 是最快、最便宜的版本,适合高频、大批量任务。比如批量总结、分类、改写、客服、轻量代码辅助,这类任务不一定需要最强模型,但很在意成本和速度。
我的判断是,Sol 会负责展示 OpenAI 的上限,Terra 和 Luna 才可能决定更多应用的实际体验。
因为大多数产品不会天天让用户跑最贵模型。真正决定普及速度的,往往是中档和低成本模型。
这次为什么没有直接开放
这里还有一个很重要的背景。
OpenAI 官方说,GPT-5.6 目前是有限预览,先通过 API 和 Codex 给少数可信合作伙伴使用。更特别的是,OpenAI 明确提到,这是应美国政府要求,先把参与预览的合作伙伴范围控制住,然后再逐步扩大。
这句话信息量很大。
过去模型发布,大家通常关心的是“我什么时候能用”“价格多少”“能力强不强”。
这次多了一个变量:政府监管。
尤其 GPT-5.6 这次重点提到网络安全能力。OpenAI 在系统卡里说,GPT-5.6 三个版本在网络安全、生物和化学风险方面都按 High capability(高能力级别)处理,但没有达到 Critical(关键风险级别)。
简单说,OpenAI 认为它足够强,需要更谨慎地放出来;但还没有强到必须完全封住。
这也解释了为什么它一边强调能力,一边强调安全栈。
Sol 的关键变化:不是更会聊天,而是更会拆活
GPT-5.6 Sol 这次有两个新词值得记一下。
第一个是 max reasoning effort,可以理解成更深推理档位。
第二个是 ultra mode,也就是 Ultra 模式。
Ultra 模式更值得关注。OpenAI 的说法是,它会利用 subagents(子 Agent)来加速复杂工作。换成人话,就是一个模型不再只靠单线程硬想,而是能把复杂任务拆给多个子任务一起处理。
这对 Codex 这类编程工具很重要。
以前你让 AI 修一个项目,它可能会先看文件,再改代码,再跑测试。如果中间出错,它要不断来回试。
如果模型本身更擅长调度子任务,那它就可能一边分析报错,一边查相关文件,一边规划修复路径,一边验证改动。
当然,这不代表每次都会完美。Agent 工作最麻烦的地方,从来不是“能不能写出一段代码”,而是“能不能把一个含糊任务稳定做完”。
GPT-5.6 这次的方向,明显就是冲着这个去的。
普通用户现在不用急,开发工具用户更该关注
很多人看到新模型发布,第一反应是:我现在能不能用?
答案是:大多数人现在还不能。
OpenAI 官方说会在未来几周逐步开放,但目前主要是 API 和 Codex 的少数合作伙伴预览。所以你现在打开 ChatGPT,看不到 GPT-5.6,也很正常。
但这并不代表这件事和我们没关系。
如果你平时只是聊天、写短文、改文案,GPT-5.6 的变化暂时不会马上影响你。
如果你关注 Codex、Claude Code、Agent 工具、自动化编程、AI 帮你跑项目,那这次更新就很值得盯。
因为它释放了一个信号:下一代模型竞争的核心,正在转向“长任务执行”。
以前大家比谁回答得更好。
现在开始比谁更会:
看项目
拆任务
调用工具
修复错误
跑测试
处理安全边界
控制成本
这对 AI 工具实战类用户来说,比单纯聊天能力提升更重要。
价格信号也很关键
OpenAI 这次也公布了 GPT-5.6 的价格。
Sol:输入 5 美元 / 百万 token,输出 30 美元 / 百万 token。
Terra:输入 2.5 美元 / 百万 token,输出 15 美元 / 百万 token。
Luna:输入 1 美元 / 百万 token,输出 6 美元 / 百万 token。
如果只看 Sol,它并不便宜。
但 Terra 和 Luna 的出现,说明 OpenAI 很清楚一件事:模型再强,如果成本压不下来,就很难进入大量真实应用。
这也是我最关注 Terra 的原因。
如果 Terra 真能接近 GPT-5.5,同时成本降一半,那很多工具会优先考虑它。因为对开发者来说,模型能力只是一部分,调用成本、响应速度、稳定性同样重要。
Luna 则更像是未来很多高频任务的底座。
比如批量处理、信息抽取、轻量客服、标题生成、摘要归类,这些任务未必需要最强模型,但需要便宜、快、稳定。
别被 91.9 分带偏
这里也要泼一点冷水。
91.9 分很强,但它仍然只是一个评测结果。
Terminal-Bench 2.1 能说明模型在命令行复杂工作流里很强,但不能直接等于“所有真实任务都能解决 91.9%”。
真实使用里还有很多变量。
比如你的项目结构乱不乱,提示词清不清楚,权限给得够不够,工具链是否正常,模型能不能正确理解你的真实意图。
尤其是 Agent 类任务,最怕的不是模型完全不会,而是它看似会了,实际偷偷跑偏。
OpenAI 的系统卡里也提到,GPT-5.6 在一些 Agent 编码任务中,比 GPT-5.5 更容易出现超出用户意图的行动倾向,虽然整体比例仍然较低。
这句话其实很值得重视。
模型越强,越要把边界讲清楚。以后用这类 Agent 工具,不是简单说一句“你帮我搞定”,而是要明确范围、权限、目标、禁止事项和验证方式。
我更看重这 3 个变化
如果只把这次发布理解成“OpenAI 又发新模型”,那就看浅了。
我更看重三个变化。
第一,模型开始按能力层级长期命名。
Sol、Terra、Luna 不只是这一次的名字,OpenAI 说它们代表不同能力层级,以后可以各自迭代。也就是说,将来大家可能不只是记 GPT-5.6、GPT-5.7,而是要同时理解 Sol、Terra、Luna 分别适合什么场景。
第二,Agent 能力被摆到更核心的位置。
这次反复出现 coding workflows、tool coordination、subagents、long-horizon tasks 这些词,说明模型竞争已经明显转向“能不能连续完成复杂任务”。
第三,安全和开放节奏开始绑定。
以前模型发布更像产品节奏,现在已经带上监管节奏。尤其涉及网络安全、生物化学、自动化攻击这些方向,未来模型开放可能越来越分层。
这对普通使用者未必是坏事,但对开发者和工具厂商来说,会多出很多门槛。
干货提炼
GPT-5.6 这次最值得关注的,不只是 Sol Ultra 的 91.9 分。
真正的变化是:OpenAI 把新模型拆成了三个版本,用 Sol 拉高能力上限,用 Terra 争夺日常工作场景,用 Luna 抢高频低成本任务。
现在它还只是限量开放,大多数人暂时用不到。
但如果你关注 AI 编程、Codex、Agent 工具,这次更新已经说明一个方向:未来强模型不只是会回答问题,而是要会拆任务、调工具、跑流程、做验证。
说白了,AI 模型正在从“会聊天”,往“会干活”走。
热门跟贴