OpenAI把"双系统"藏进一个模型，API设计变了

摸鱼算法

2026-04-27 19:22 ·北京

一个本该叫GPT-6的模型，发布时变成了GPT-5.5。更奇怪的是，OpenAI没让你选"快版"或"慢版"，而是给同一个模型加了五个档位——低、中、高、超高、不思考。这背后藏着一个正在重塑行业的工程决策。

从"选模型"到"调档位"

内部代号"Spud"的模型，预训练据称在2026年3月底完成。传闻中的发布日是4月14日，当天却毫无动静。九天后，4月23日，模型以GPT-5.5之名上线——不是GPT-6，而是GPT-5家族的延续。

OpenAI保留了三个变体：标准版、Thinking版、Pro版。但真正值得注意的，是API里新增的reasoning.effort参数：低、中、高、超高、不思考，五档可选。

这不是简单的性能调节。你的调用会被路由到不同的计算路径——同一个模型名称，内部可能是完全不同的执行链路。OpenAI把它包装成"单模型带旋钮"，但本质上是把过去两年开发者手写的"验证器循环"（verifier loop）、"快路径+深路径"等模式，做成了原生API。

「如果你正在开发任何调用大语言模型的产品，现在的问题是：当档位选择变成和模型名称一样的基础参数时，你准备好了吗？」

双系统的工程本质

卡尼曼的"系统1/系统2"框架被用烂了，但这里的工程实现很具体。

系统1：便宜、快速，处理绝大多数查询。"法国首都是什么""格式化这段JSON""改写这封邮件"——4000亿参数的推理器纯属浪费，延迟还会毁掉用户体验。

系统2：昂贵的验证器或推理器，负责检查、做数学、走思维链。触发条件简单到可笑：if confidence < threshold: ask the smart model。

这个模式本身不新。过去两年，开发者们一直在手写类似逻辑：先调轻量模型，置信度不够再升档。OpenAI的新意在于——把这套路由层收进官方API，让"档位"成为一等公民。

你的代码不再需要维护两套调用逻辑。但代价是：你对内部路由的可见性降为零。

幻觉率的两个故事

发布时，OpenAI声称幻觉率比前代降低60%。这是基于自有评测集的数据。

但第三方评测呈现了更复杂的图景。据VentureBeat援引Artificial Analysis的数据，在AA-Omniscience评测中，GPT-5.5的幻觉率高达86%，而Opus 4.7仅为36%。

矛盾吗？不矛盾。AA-Omniscience的设计是：模型被测试它"知道"的内容。在这个评测里，GPT-5.5比对手懂得更多——但也因此在错误时更加自信。这是新闻稿没提的部分。

双层架构让评测方法的问题更尖锐。effort=超高的幻觉率，不等于effort=低的幻觉率。而你的生产代码，大概率为了省钱正在调用低档。

你看到的"模型性能"，其实是路由策略+计算档位+评测条件的复合结果。单一数字正在失去意义。

为什么现在发生

推理成本的压力是真实的。大多数查询确实很简单，用重模型是烧钱又伤延迟。但完全砍掉深度推理能力，又会漏掉关键场景。

OpenAI的选择是：不选。把选择权变成连续谱，让用户用参数表达偏好，自己在后端做路由优化。

这对行业的影响是结构性的：

第一，模型评测将分裂为"同档位对比"和"端到端对比"两套体系。前者看单一路径的极限，后者看默认策略的性价比。

第二，提示工程（prompt engineering）的重心可能转移。当模型能根据提示特征自动选档，优化目标从"让大模型听懂"变成"让路由层识别出这是复杂问题"。

第三，竞争维度增加。除了模型能力，"默认路由策略是否聪明"会成为差异化点——同样叫GPT-5.5，不同服务商的档位阈值可能完全不同。

开发者的实际处境

如果你在用OpenAI API，现在需要重新审视调用逻辑。

旧模式：选模型（GPT-4→GPT-4 Turbo→GPT-5）→ 调温度 → 收结果。

新模式：选模型（GPT-5.5）→ 选档位（低/中/高/超高/不思考）→ 收结果。

表面简化了，实际更复杂。因为档位和模型变体交叉：标准版、Thinking版、Pro版各自支持哪些档位？不同档位的定价梯度？延迟差异的量化数据？OpenAI的文档正在追赶这些细节。

更隐蔽的问题是：当路由层黑箱化，你如何调试？一个回答错了，是因为模型能力不足，还是因为路由层误判了问题难度，扔给了快路径？

过去你可以换模型验证。现在你得换档位、换提示、甚至换变体——调试空间膨胀了。

行业的跟随压力

OpenAI把档位参数做成原生API，其他提供商面临选择：跟进，还是坚持"一个模型一个性格"的清晰区分？

跟进的代价：基础设施复杂度飙升，需要维护多条计算路径的动态调度。

不跟进的代价：在成本敏感场景失去竞争力，用户会用脚投票给更灵活的方案。

中间路线也可能出现：把档位做在模型层面（小/中/大模型），而非调用参数层面。但这和OpenAI的方案有本质区别——后者允许单次对话内的动态升降档，前者需要显式切换模型ID。

动态路由的颗粒度，可能是下一个竞争焦点。

幻觉率的真相与谎言

回到那个86%的第三方数据。它不是"OpenAI撒谎"的证据，而是揭示了一个被忽视的变量：评测条件。

AA-Omniscience测试的是模型在"已知领域"的表现。GPT-5.5覆盖的知识更广，所以触发的测试项更多——包括那些它其实不懂但自信满满的边缘领域。Opus 4.7覆盖窄，触发的测试项少，但准确率更高。

这像极了考试策略：知识面广的学生可能答更多题，但错误率也更高；知识聚焦的学生答得少，但稳。

加上档位变量后，情况更混沌。如果OpenAI的60%降幅是基于effort=超高的评测，而你的生产环境用effort=低，这个承诺对你毫无意义。

评测标准正在碎片化。每个团队都需要建立自己的"档位-场景-准确率"映射表，而不是信任厂商的统一数字。

架构层面的长期赌注

Spud/GPT-5.5的发布，可以读作OpenAI对"模型即产品"路线的修正。

过去两年，行业习惯用版本号叙事：GPT-3→GPT-4→GPT-5，每次升级都是全面碾压。但推理成本的现实让这条路走到尽头——没人愿意为简单查询付推理器的钱。

新路线是：一个品牌名，内部是动态资源池。用户感知不到"换了模型"，只感觉到"有时快有时慢，但总体够用"。

这接近云计算的演进逻辑。早期你租物理服务器，后来租虚拟机，后来租容器，后来直接租函数——抽象层级持续上移，底层复杂度被封装。

LLM API正在经历类似跃迁：从"选模型"到"调档位"，再到未来可能的"描述需求，系统自动优化资源分配"。

区别在于，云计算的抽象有SLA保障，LLM的抽象还充满不确定性。同一个档位，今天和明天的路由策略可能不同，而你不会收到通知。

给开发者的清单

如果你正在评估或迁移到GPT-5.5，这几个问题需要优先级排序：

第一，你的查询分布是什么？简单查询占比越高，低档位的成本节省越显著。但需要抽样验证：多少"看起来简单"的问题实际上需要深度推理？

第二，错误成本的非对称性。如果低档位的错误会造成严重后果（医疗、金融、法律），你需要在应用层加二次验证，而不是信任路由层。

第三，延迟预算的硬约束。用户能接受的响应时间是多少？高档位的延迟是否超出阈值？这决定了你能实际使用的档位上限。

第四，评测覆盖。你的测试集是否按档位分层？effort=低的表现需要单独追踪，不能假设和高档位成正比。

第五，供应商锁定。档位参数是OpenAI特有的，还是正在成为行业标准？如果迁移到其他提供商，这套调用逻辑需要多大改动？

命名游戏的政治

最后值得玩味的是版本号。从GPT-6降级到GPT-5.5，是技术判断还是市场策略？

官方没有解释。但几个因素可以推测：预训练完成后的强化学习阶段可能延长了；能力跃升没达到"换代"阈值；或者，OpenAI想管理预期——GPT-6的招牌要留给更重磅的发布。

无论原因，"5.5"的命名本身传递了信号：这不是革命，是演进。连续的小数点版本，暗示着未来可能有5.6、5.7，直到累积到6.0。

这和软件行业的语义化版本（semver）接轨，但和AI领域惯用的"大版本=大突破"叙事冲突。用户需要重新校准预期：小数点后一位的升级，可能意味着架构层面的重构，而不只是bug修复。

冷幽默

OpenAI终于承认了一件事：你的问题，大部分不值得动用4000亿参数。但他们没说的是——判断"值不值得"这件事本身，现在也由模型代劳了。你省了钱，也省了知情权。这很公平，毕竟你也没付知情权的费用。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴