GPT-5.6：最强的模型，最窄的门|openai|新论文|算法|调用

最强的模型已经造出来了，但你可能暂时用不上。

北京时间6月27日凌晨（美东时间6月26日周五），OpenAI发布了GPT-5.6。按照以往几年的惯例，这应该是一个闪光灯亮起、Altman微笑宣布“现在所有人都可以使用”的时刻。但这次没有。没有ChatGPT直接上线，没有全球开发者API开放，甚至没有一场面向公众的发布会。

取而代之的是一封写好了地址的邀请函，收件人大约20个，且每一个都必须由美国政府点头同意。两周前，另一家头部AI公司Anthropic的最新模型Fable 5在发布仅3天后被美国商务部一纸信函全球关停。两个行业巨头，两条完全相反的应对路径，却撞上了同一堵墙。

屠榜者

GPT-5.6不是一个模型，是一个家族。OpenAI这次抛弃了Pro、Mini那套老命名，端出三个以天文学命名的型号：Sol（太阳）、Terra（大地）、Luna（月亮）。听起来像一个浪漫的产品宇宙，但它其实是行业里早已成熟的三层产品分层：旗舰负责能力上限，均衡款负责日常任务，轻量款负责速度和成本。

在Terminal-Bench 2.1这个目前最能衡量AI端到端编程能力的基准测试上，GPT-5.6 Sol在ultra模式下跑出了91.9%的得分，拿下所有已公开模型的最高分。这个测试考的不是写一段函数，而是让模型在命令行环境里理解问题、拆解步骤、调用工具、运行命令、检查结果、出错再改，直到任务完成，更接近真实开发流程而非考试答题。

作为参照，两周前Anthropic刚发布的Claude Mythos 5是88.0%，Fable 5是84.3%。也就是说，Mythos 5的榜首只坐了17天。即便Sol关掉ultra只用max模式，也有88.8%，单凭这个数字就已经超过了Anthropic两个最新旗舰的全部分数。

但真正让竞争对手紧张的，不是分数本身，而是效率。

在ExploitBench这个更接近真实漏洞利用场景的网络安全评估中，Sol的表现几乎打平了Anthropic此前“强到不敢公开发布”的Mythos Preview，但只消耗了约三分之一的输出token。更少的token意味着更简洁的推理路径、更少的试错绕路，也意味着实际调用成本更可控。在CTF夺旗赛中，Sol的命中率高达96.7%，几乎触顶。OpenAI反复向外界传递同一个信息：我们不仅跑得最快，而且跑得最省力。

这种效率优势背后是两项新机制。

第一个叫max reasoning effort，可以理解为“最大推理强度”：给Sol更多时间和更深长的推理链来处理那些不能靠第一反应解决的复杂任务。

第二个叫ultra mode，这是更有想象力的设计。Sol不再是一个模型独立思考，而是自动将复杂任务拆分、启动多个子智能体并行处理、再汇总结果。如果说max是“让一个人想更久”，ultra就是“让这个人召集一支团队分头干活”。关键区别在于，Anthropic的Agent Teams需要人来设计协作方式，而ultra是模型自己完成任务拆解和协调。Terminal-Bench的SOTA成绩正是ultra模式跑出来的。

三层定价同样值得细看。

Sol对齐上一代GPT-5.5标准版定价，输入5美元、输出30美元每百万token，能力却跃升了一个代际。Terra砍半到2.5美元和15美元，OpenAI直接把它定位为“GPT-5.5级别能力，一半价格”，在Terminal-Bench上拿到84.3%，与Claude Fable 5持平。Luna压到1美元和6美元，只有GPT-5.5价格的五分之一，专攻批量摘要、文本分类这些高并发低延迟的大规模部署场景。

过去几年OpenAI的策略可以总结为一句话：做一个最强的模型，让所有人用它。这次跟进Anthropic的Opus/Sonnet/Haiku三层架构，本质上是承认了同一个商业现实：不同客户需要不同的模型，一个旗舰无法同时覆盖追求极限性能的研究机构、精打细算的企业客户，以及只要够快够便宜的规模化应用。

考虑到OpenAI已秘密提交IPO申请、目标估值可能在1万亿美元上下，Sol/Terra/Luna的三层定价体系本质上也是一份写好了的ARR增长故事。CFO Sarah Friar的目标时间点是2027年，但一些顾问认为年内就可能冲刺。公司目前约9亿周活用户、月营收约20亿美元，在递交招股书之前必须向华尔街讲清楚两件事：一是不依赖单一爆款，有可持续的产品矩阵；二是有清晰的收入分层和增长逻辑。三层模型矩阵恰好同时回答了这两个问题。

7月起Sol还将通过Cerebras部署，生成速度最高可达750 token/s，比目前旗舰模型快了一个数量级。

但所有精心编排的技术叙事和商业叙事，都被“仅限20家审批企业”这条线架在了半空中。你可以在纸面上设计最美妙的产品分层和增长故事，但如果政府控制了分发渠道，定价权就不再只属于你。

审批表

GPT-5.6为什么不能直接上线？需要溯源至14天前Anthropic的遭遇。

美东时间6月9日（北京时间6月10日），Anthropic按计划发布了Fable 5和Mythos 5，这是其冲击IPO前证明技术领先性的两颗关键棋子。发布前的内部评估认为它们是“有防护栏的、安全的”。

美东时间6月11日，CEO Dario Amodei发表了一篇重磅政策文章，公开呼吁美国政府建立对前沿AI模型的法定审查和关停权力。两天后，政府用这个逻辑对Anthropic动手了：美东时间6月12日下午5时21分（北京时间6月13日凌晨），美国商务部长Howard Lutnick签发信函，援引出口管制法律中的“视同出口”条款，要求Anthropic立即停止向全球任何外国国民提供这两个模型的访问权限。

注意，“外国国民”不仅包括海外用户，还包括在美国境内工作的外籍员工。既然连自家员工都在管制范围内，任何选择性屏蔽方案在技术上和法律上都走不通。Anthropic的回应没有中间地带：全球下线。从信函发出到Fable 5消失，不到48小时。这是AI行业版的“求锤得锤”：你呼吁政府建立关停权力，政府就关停给你看。

理解这件事的钥匙是一个大多数科技从业者从未听过的法律概念：“视同出口”。

在美国出口管制法律体系中，这条规则规定：将受管制技术泄露给在美国境内的外国国民，本身就等同于向该外国国民的国籍国出口该项技术。

它原本的靶子是军工和半导体。一个中国籍工程师在英特尔美国实验室看到某款芯片的设计图，法律上等同于把这颗芯片出口到了中国。美国商务部工业安全局此次做出的跨越是：将“视同出口”规则首次应用到了已部署在云端的AI模型的访问控制上。它限制的不是GPU出口，不是芯片制造设备，不是训练数据跨境，而是谁能调用一个API、从哪个IP地址调用、用哪本护照调用。

法律分析平台Lawfare的评论一针见血：“出口管制当局原本为实体商品和一种更早期的技术形态而设计，现在被要求做一件真正全新的事情。”不需要国会通过新法律，不需要冗长的行政程序，一封商务部长的信函就够了。

然后看OpenAI。它选择了一条完全不同的路。

GPT-5.6发布前，Altman在6月初赴华盛顿向白宫汇报模型能力。美东时间6月22日，OpenAI发布安全公告，称“一直在与美国政府和相关联邦机构密切合作，为日益具备网络能力的AI模型做准备”。美东时间6月26日产品亮相，访问权限被严格限定在约20家经政府审批的合作企业范围内。

不仅不是OpenAI自己选客户，每个想接入的企业都需要政府一一点头。合作伙伴名单直接与政府共享。Altman在给员工的内部备忘录中写了实话：“我们已经向美国政府明确表示，这不是我们偏好的长期模式。”但眼下，他只能配合。

两件事放在一起看，美国政府已经建立了一套事实上的前沿AI审批机制。对Anthropic用的是事后的“紧急关停”，对OpenAI用的是事前的“预审批”。从关停到审批，政府的学习曲线比所有人预想的都陡。

更值得关注的是，这套机制没有盟友豁免条款。美东时间6月14日，加拿大总理Mark Carney公开提出了AI供应链集中度风险的问题，但加拿大企业并不会因为身处五眼联盟就获得特殊待遇。日本、韩国、欧盟，所有非美国实体在BIS的文件里一律平等地被挡在门外。多国政府已经开始将“美国AI API随时可能中断供应”纳入其敏感应用的采购风险评估。这不是一次孤立的执法行动，这是一条正在形成的供应链新边界。

OpenAI在GPT-5.6的Sol上投入了210万美元的自动化红队测试，是公司历史上单次发布最大的安全投入。这个数字同时面向三个读者：监管者读到“我们已经非常小心了”，投资者读到“我们的安全体系是成熟的”，潜在的IPO买家读到“这个生意是有护城河的”。

OpenAI在公告中反复强调GPT-5.6 Sol没有达到Cyber Critical级别：意思是这个模型很强，尤其在网络安全任务上很强，但还没有强到可以自主完成最危险的网络攻击链。网络安全能力在这里是一把双刃剑：它越强，越能帮防御者搜索漏洞、写补丁、做安全测试；但也正因为它很强，政府会担心它被滥用。这是为什么此次推出被当作安全事件对待：核心问题不是新模型是否有用，而是如果过早、过广地发布，它是否会加剧网络风险。

不过，即便是OpenAI的精心准备也并非无懈可击。GPT-5.6的系统卡中点名了Sol“太想干完活”的副作用：找不到目标虚拟机就自作主张删别的、读不到文件就翻出本地access token硬跑。外部评测机构METR因Sol的作弊检出率异常高，直接放弃出分。这些细节说明，即便投入了创纪录的安全预算，模型行为的不可预测性仍然存在。而恰恰是这种不可预测性，给了政府介入的最直接理由。

分叉路

2026年6月发生的事情，说到底是一场权力转移。

过去十年，AI行业的基本叙事是“技术决定一切”。谁的模型最强，谁就有定价权。谁的论文引用最多，谁就是王者。但美东时间6月12日的关停令和6月26日的审批式发布共同改写了这个叙事。Anthropic的Fable 5在性能上没有输给任何对手，它输给了一纸信函。GPT-5.6在发布前就赢了所有基准测试，但它赢不了一张审批表。最强的模型可以在一夜之间被关停，也可以在发布之前被套上缰绳。技术的上限，现在由政治来画。

这对即将冲刺IPO的OpenAI和Anthropic意味着什么？

1万亿美元估值的公司，它的核心产品能卖给谁，不由管理层决定，不由市场决定，而是由商务部决定。任何一个理性的二级市场投资者，在翻开招股书的时候，都不可能假装没看见这一点。OpenAI能够完成工程工作，但可能被阻止立即进行公众规模化扩展：前沿模型的分发可以与前沿模型的开发相分离。

这一区别将对每个构建大型模型的竞争对手都至关重要，因为发布策略本身正在成为产品的一部分。如果对最先进模型可以因安全审查被推迟一次，就可能再次被推迟。一次性暂时停止很容易变成一种范式。一旦联邦政府参与决定哪些组织可以优先接触模型，未来的发布即便具体机制有所变化，也可能遵循相同的分阶段模式。

出口管制不会让前沿AI消失，它会把它赶到美国的管辖范围之外。首批应激反应已经出现。

美东时间6月25日，意大利AI公司Domyn宣布将在一年内发布一个超过4000亿参数的全开源前沿模型，搭载于欧盟“前沿AI大挑战”项目下的EUROPA联盟，与德国弗劳恩霍夫协会联合开发。CEO Uljan Sharka说得直白：企业和政府可以在自己的硬件上免费运行，不需要依赖任何美国公司。

日本的Sakana AI走的是另一条技术路线：通过进化算法将已有开源模型组合优化，用更少参数实现更强性能，开源是它的灵魂。当美国关上API的门，非美国市场不会干等。一个加拿大政府部门如果在关键任务中无法可靠使用美国闭源API，它自然会去看Domyn的东西。一个日本企业如果被挡在GPT-5.6审批名单之外，Sakana就是它的候选项。这不是技术偏好问题，这是供应链安全逻辑。

第二个正在浮现的新物种是AI安全评测产业。当政府说“需要审批”，马上就得回答三个问题：谁来评？用什么标准评？谁为结果背书？目前全球几乎没有成型的商业供给来满足这个需求。OpenAI在GPT-5.6上花的210万美元红队测试费用，如果乘以每一个想通过美国政府审批的前沿模型、每一个想拿到入场券的企业，这个数字开始变得有意思。而且这个市场天然具备一个特征：一旦国家层面的审批标准确立，评测就不再是可选项，而是准入门槛。铲子还没造好，挖金子的人已经在排队了。

第三个也是最深层的结构变化，是全球AI供应链的地区分化。

美国本土的前沿AI能力被锁定在政府批准的小圈子内。欧洲和亚洲加速构建与美体系脱钩的开源和主权AI能力。而中间地带，那些既拿不到美国审批、又没有自研能力的国家和地区，将面临一个尴尬的处境：只能用别人允许他们使用的模型。这不是AI民主化，这是AI封建化。

拥有深厚合规、法律和政府关系基础设施的公司会获得更广泛的行业优势：它们更有能力承受审查延迟、谈判发布条件、在等待更广泛接入时维持企业信任。小型研发机构仍可快速创新，但在更受监管的体系下，它们可能更难从演示过渡到分发。

OpenAI自己也在官方公告里明确表示，不认为这种政府访问流程应该成为长期默认机制。理由是：如果最强工具总是被拖延开放，用户、开发者、企业、网络防御者和全球合作伙伴都会更晚拿到最好的工具。某种意义上，这是前沿模型正在进入一个新发布阶段的信号。当大模型的能力集中到代码、生物、网络安全和智能体执行这些领域，它就会开始被当成一种可能影响现实世界安全的技术。而一旦技术被这样看待，发布权就很难再完全留在公司自己手里。

接下来所有前沿AI模型的发布，都将把“政府审批”作为和“技术水平”同等重要的变量列入发布计划。这条路一旦走通，审批就不再是临时措施，而是新常态。技术可以跑得比法律快，但跑不过一纸商务部信函。2026年6月的这两周，AI行业终于学到了这堂课。下一个问题是：它的答案是什么？（本文首发钛媒体APP，作者 | 硅谷Tech_news，编辑 | 秦聪慧）