三天。我们只拥有Fable三天。

在那三天里,自主编码、长程推理和研究综合这几个环节,体验确实不一样了。不是那种“比上个季度稍微强点”的不同,而是完全另一个层级的东西。

打开网易新闻 查看精彩图片

然后美国商务部发了一封信,这个模型就在全球范围内对所有用户下线了,美国用户也不例外。因为没有其他合法的选项。从在线到消失,没有任何过渡窗口,也没有提供迁移路径。

我们甚至不知道自己还能不能再遇到一个达到这个水平的模型。

真正让人后背发凉的,并不是禁令本身,而是它暴露出来的事实:我们的整个生产流程,跑在一种一封政府信函就能在12小时内关停的基础设施上。

这在生产环境里是完全不可接受的。

所以我没有去刷榜单找下一个最强的模型,也没有苦等一个可能来也可能不来的恢复。真正该问的问题不是“用什么替代Fable”,而是:如果我们之前把关键任务都交给单个前沿模型这个“先知”,我们到底在买什么?有没有一种结构上更优的东西?

一句话先说结论:用一个模型组合,搭配一个前沿模型当裁判,在深度研究基准测试上的表现,比单独用Fable 5更好,而且预算配置下运行成本大约是它的一半。

问题不在于Fable没了。问题在于,它还在的时候,我们就发现了比它更好的方案。

Fable下线那晚,大部分人的本能反应就三个:去榜单上找次好的模型、等Fable回来、在X上抱怨。

这三种反应,框架都错了。

Fable禁令是一个数据点,不是一个孤立事件。这是美国政府指令第一次在不到12小时内,把一个已经商业部署的前沿模型从全球范围内撤下。它绝不会是我们依赖的模型最后一次消失,不管原因是什么,也不管有没有优雅的交接。

如果你的生产管线存在单模型依赖,Fable禁令只是让这个架构问题变得肉眼可见了。

把提示词发给一个模型,就是在索取一种视角:一种架构、一种训练数据配比、一套特定的失败模式。直说吧,这就是一个“先知”。把所有艰难决策都交给单个前沿模型,相当于LLM版的“全输出玻璃大炮”:状态好的时候输出拉满,一旦出现意外变动,整个构建过程直接下线。

根据TokenMix对OpenRouter发布的DRACO基准测试结果的拆解,Fable 5单独跑一个覆盖法律、医学、金融和产品分析的100项深度研究评测,得分是65.3%。而一个由Fable 5和GPT-5.5组成的组合,用Opus 4.8当裁判,得分是69.0%。

更值得玩味的数据来自预算配置的组合:Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro。这个组合拿下了64.7%的得分,只比Fable 5的单项成绩差不到一个基准点,成本却只有它的约四成。

在你急着截图之前,有个前提要说明:DRACO不包含编码领域的评测。上面这些数字涵盖了研究和分析任务、法律综合、医学推理、比较评估。纯编码场景不在其中。

但这恰恰是这件事最反常识的地方。没人会因为一个模型下线,就突然意识到“让多个模型互相校验”这条路可行。这种思路一直存在,只不过当那个让你安心的单一选项被强行抽走之后,你才被逼着正视它的合理性。

一个单点故障,推倒了一整套关于“最优”的旧有假设。