最强的那个模型被禁了，结果我们发现了更好的

闪存猎手

2026-06-21 00:37 ·北京

三天。我们只拥有Fable三天。

在那三天里，自主编码、长程推理和研究综合这几个环节，体验确实不一样了。不是那种“比上个季度稍微强点”的不同，而是完全另一个层级的东西。

然后美国商务部发了一封信，这个模型就在全球范围内对所有用户下线了，美国用户也不例外。因为没有其他合法的选项。从在线到消失，没有任何过渡窗口，也没有提供迁移路径。

我们甚至不知道自己还能不能再遇到一个达到这个水平的模型。

真正让人后背发凉的，并不是禁令本身，而是它暴露出来的事实：我们的整个生产流程，跑在一种一封政府信函就能在12小时内关停的基础设施上。

这在生产环境里是完全不可接受的。

所以我没有去刷榜单找下一个最强的模型，也没有苦等一个可能来也可能不来的恢复。真正该问的问题不是“用什么替代Fable”，而是：如果我们之前把关键任务都交给单个前沿模型这个“先知”，我们到底在买什么？有没有一种结构上更优的东西？

一句话先说结论：用一个模型组合，搭配一个前沿模型当裁判，在深度研究基准测试上的表现，比单独用Fable 5更好，而且预算配置下运行成本大约是它的一半。

问题不在于Fable没了。问题在于，它还在的时候，我们就发现了比它更好的方案。

Fable下线那晚，大部分人的本能反应就三个：去榜单上找次好的模型、等Fable回来、在X上抱怨。

这三种反应，框架都错了。

Fable禁令是一个数据点，不是一个孤立事件。这是美国政府指令第一次在不到12小时内，把一个已经商业部署的前沿模型从全球范围内撤下。它绝不会是我们依赖的模型最后一次消失，不管原因是什么，也不管有没有优雅的交接。

如果你的生产管线存在单模型依赖，Fable禁令只是让这个架构问题变得肉眼可见了。

把提示词发给一个模型，就是在索取一种视角：一种架构、一种训练数据配比、一套特定的失败模式。直说吧，这就是一个“先知”。把所有艰难决策都交给单个前沿模型，相当于LLM版的“全输出玻璃大炮”：状态好的时候输出拉满，一旦出现意外变动，整个构建过程直接下线。

根据TokenMix对OpenRouter发布的DRACO基准测试结果的拆解，Fable 5单独跑一个覆盖法律、医学、金融和产品分析的100项深度研究评测，得分是65.3%。而一个由Fable 5和GPT-5.5组成的组合，用Opus 4.8当裁判，得分是69.0%。

更值得玩味的数据来自预算配置的组合：Gemini 3 Flash、Kimi K2.6、DeepSeek V4 Pro。这个组合拿下了64.7%的得分，只比Fable 5的单项成绩差不到一个基准点，成本却只有它的约四成。

在你急着截图之前，有个前提要说明：DRACO不包含编码领域的评测。上面这些数字涵盖了研究和分析任务、法律综合、医学推理、比较评估。纯编码场景不在其中。

但这恰恰是这件事最反常识的地方。没人会因为一个模型下线，就突然意识到“让多个模型互相校验”这条路可行。这种思路一直存在，只不过当那个让你安心的单一选项被强行抽走之后，你才被逼着正视它的合理性。

一个单点故障，推倒了一整套关于“最优”的旧有假设。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴