一个21GB的量化模型,在笔记本电脑上画出的鹈鹕骑自行车,居然打败了Anthropic最新旗舰。Simon Willison的"鹈鹕基准测试"今天出了怪结果——Qwen3.6-35B-A3B的SVG代码不仅更干净,连自行车车架都没画歪。
这个玩笑测试,为什么突然值得认真看
Willison从去年10月开始用"鹈鹕骑自行车"当模型测试。初衷是讽刺:当所有人都在比数学推理、代码能力、多模态理解时,找个荒谬任务反而能暴露模型的真实性格。
诡异的是,这个玩笑居然成立了。2024年10月的第一批鹈鹕"完全是垃圾"。之后每次主流模型更新,鹈鹕质量确实在提升——Gemini 3.1 Pro已经能画出"真的能用"的插图。
直到今天,这条规律被打破了。
Qwen3.6-35B-A3B是阿里巴巴开源的混合专家模型(Mixture-of-Experts,MoE),总参数量235B,但每次前向传播只激活35B。Willison跑的是Unsloth团队量化的4bit版本,文件体积压到20.9GB,用LM Studio在MacBook Pro M5本地部署。
Claude Opus 4.7则是Anthropic当天发布的闭源旗舰,API定价远高于Qwen的开源权重。
结果:Opus 4.7的自行车车架结构错误,第二轮用thinking_level: max参数重试,"也没好多少"。Qwen的火烈鸟独轮车测试还额外贡献了「」的注释彩蛋。
正方:开源量化模型的工程胜利
这件事首先说明量化技术(Quantization,将模型权重从高精度压缩到低精度)已经成熟到不损核心能力的地步。
Unsloth的GGUF格式把235B参数的MoE模型压进21GB,消费级笔记本能流畅运行。一年前这是不可想象的——当时70B模型量化后还会严重失真。
MoE架构的本地部署效率也被验证。35B激活参数意味着推理成本可控,而总参数量保证了知识容量。Willison的测试场景恰好击中MoE的甜点:创意生成任务对绝对精度要求不高,但需要足够的知识广度来组合"鹈鹕"+"自行车"这种罕见概念。
更深层看,这是开源生态的系统性优势。Qwen权重开放后,Unsloth可以立即优化量化方案,LM Studio可以快速集成,社区能自发形成"笔记本本地跑SOTA模型"的完整工具链。闭源模型的迭代再快,也绕不过API延迟和成本结构。
反方:一个插图测试说明不了什么
Willison自己承认,"非常怀疑21GB量化版本比Anthropic最新闭源版本更强大或更有用"。
鹈鹕测试的样本量极小,且SVG生成是特定技能。Opus 4.7可能在长文本推理、复杂工具调用、多轮对话一致性等维度全面领先——这些才是企业付费的核心场景。
Anthropic的thinking_level参数设计也耐人寻味。max模式意味着模型会投入更多计算资源做内部推理,但Willison的测试显示"没好多少"。这可能暴露Opus 4.7在视觉-空间理解上的真实短板,也可能只是该参数对插图任务不适用。
更关键的质疑:如果实验室真的针对流行基准做训练,为什么偏偏漏掉Willison的鹈鹕?他的"秘密备份测试"火烈鸟独轮车,Qwen依然胜出——但这只有两个数据点。
我的判断:能力评估的范式正在崩溃
这件事的真正价值,不在于证明Qwen>Opus,而在于暴露了我们根本没有可靠的模型评估体系。
当21GB本地模型能在特定任务击败API旗舰,"参数规模=能力"的叙事就破产了。MoE架构让总参数和激活参数脱钩,量化技术让部署规模和原始性能脱钩,开源生态让迭代速度和发布日期脱钩。
Willison的鹈鹕玩笑之所以有效,恰恰因为它测试的是"未经优化的原始能力"——没有公开训练数据、没有针对性微调、没有提示工程陷阱。这种"野生测试"反而可能比MMLU、HumanEval等标准基准更真实,因为后者已被过度拟合。
对从业者的直接启示:评估模型必须回归具体场景。如果你需要批量生成SVG插图,本地部署的量化Qwen可能是成本最优解;如果你需要处理200页法律文档的跨页引用,Opus的上下文窗口和推理深度可能不可替代。
没有 universal 的更好,只有 contextual 的更适合。
阿里巴巴Qwen团队的开源策略正在收获复利。从Qwen2到Qwen3.6,他们持续释放可商用的权重,允许社区进行二次开发。这种"基础设施化"的定位,与Anthropic的"高端服务"定位形成差异化竞争。
最终,鹈鹕骑自行车的荒谬画面,成了AI行业最诚实的镜子:当技术迭代速度超过评估体系进化速度,所有排名都是临时的,所有结论都是局部的,所有"胜利"都需要加一串限定词才能成立。
热门跟贴