OpenAI 发布了他们的 GPT-5.6 预览版,但这次有点怪:模型发布了,但用不了。
这可能是第一次出现厂商发布了版本,大众却完全无法使用的情况。
原因大家应该也知道,就是因为美国政府现在对所有顶尖模型的发布都要做事先审核,目前只会有限开放给审批过的用户。
至于普通用户什么时候能使用到,目前并没有一个具体的说法。
所以目前只能基于官方文档做一些简单的介绍。
这次发布的 GPT-5.6 系列一共有三个档位:旗舰版 Sol(太阳)、均衡版 Terra(大地)、轻量版 Luna(月亮)。
那它们到底怎么样?我们一起来了解一下。
旗舰模型 Sol
Sol 直接对标 Anthropic 之前发布的 Mythos Preview。
它在 测试安全能力的指标 ExploitBench 上的表现跟 Mythos Preview 基本持平,但只用到了对方三分之一的 Token 量。
所以 GPT-5.6 Sol 是 OpenAI 目前最强大的网络安全模型,可以用来做漏洞挖掘、漏洞研究和利用。
不过,OpenAI 特别澄清了一点:在针对 Chrome 和 Firefox 的测试里面,Sol 能找到漏洞和漏洞利用的组件,但并不能够独立完成端到端的完整攻击链。
所以现阶段的 Sol 更像是一个顶级的防守型工具,帮安全公司找漏洞、写修补的补丁、做渗透测试,还不是一个能够自动发起攻击的武器。
除了安全方面之外,Sol 还有一个关键的参数升级,就是上下文从 GPT-5.5 的 105 万 Token 直接扩展到了 153 万 Token,增长了接近 43%。
这样的长度,对于分析代码也好,还是去做复杂的项目规划也好,都非常关键。
在编程方面也表现得非常强大。
Terminal Bench 2.1 是一个专门用来测试命令行实际操作能力的指标,Sol Ultra 的得分是其中最高的。
即便是普通的 Sol,它的得分也比 Claude Mythos 5 以及 Claude Fable 5 更高。
从这个指标看,它是目前市面上编程赛道的全新王者。
在生物学方面,还有一个 GeneBench V1,专门用来测试基因组学和定量生物分析的长任务能力。
在这个测试中,GPT-5.6 Sol 的得分比 GPT-5.5 的 22% 提高了不少,达到了 30%,而且使用的 token 更少。
OpenAI 的安全报告直接把 GPT-5.6 系列标记为生物和化学风险领域的高能力级别。
不过这并不是说它会制造病毒,而是说它在生化领域的理解和辅助能力已经非常强了,以至于触发了更高等级的安全预警。
两个新推理模式:Max 和 Ultra
随着 GPT-5.6 的发布,OpenAI 这次引入了两个新的推理模式:Max 和 Ultra。
Max 模式很好理解,就是给模型更多的时间推理,让它在回答问题之前想得更深。这种模式在其他模型中也存在。
Ultra 模式就不一样了。
在这个模式下,主模型会把任务拆开,调度多个子进程并行处理,最后再把结果进行汇总。
价格和时间线
关于价格,Sol 每百万 token 输入是 5 美元,输出是 30 美元。Terra 是它的一半,Luna 就更低了。
模型 输入 / 百万 token 输出 / 百万 token 上下文窗口 Sol 旗舰版 $5.00 $30.00 150 万 Terra 均衡版 $2.50 $15.00 150 万 Luna 轻量版 $1.00 $6.00 150 万
目前只有 API 和 Codex 渠道向少数的合作伙伴开放,接下来的几周会向更多的用户开放。
还有一个细节,GPT-5.6 引入了更可预测的提示词缓存机制,最短的缓存有效期是 30 分钟。
如果从缓存里面读取的话,甚至能享受到 90% 的折扣。
对高频调用 API 的开发者来说,这块可能能省不少钱。
命名这次学 Claude 了
OpenAI 这个模型的命名以前都很乱:GPT-4o、GPT-4.5、o1、o3,后来又变成了纯数字的 5.3、5.4、5.5。
本来已经很清晰了,但这次又变了。
它变得和 Claude 一样,用一个数字代表模型在哪一代,再用名称区分能力等级。
比如 5.6 这一代对应了 Sol、Terra 和 Luna,跟 Claude 的 4.8Opus、Sonnet、Haiku 不是一样的套路吗?
这两家公司竞争到最后,真的是我中有你,你中有我。
最后说说有限预览这事。
网络上大家对这个事情吐槽非常多,很多人会把矛头直接指向 Anthropic 的 CEO 达里奥,觉得是他把大家的机会都毁了,我们再也回不去了。
接下来的情况可能是,每一个模型在发布之前政府都要审查。那种可以直接广泛、全量发布最新模型的日子,可能一去不复返了。
那些大佬多年来一直鼓吹 AI 是一项毁灭世界的技术,需要监管。他们想要的监管终于来了。
这种方式也势必会加剧不平等。
热门跟贴