21GB模型跑赢Claude：开源AI的意外胜利|gb|推理|电子表格

一个21GB的量化模型，在笔记本电脑上画出的鹈鹕骑自行车，居然打败了Anthropic最新旗舰。Simon Willison的"鹈鹕基准测试"今天出了怪结果——Qwen3.6-35B-A3B的SVG代码不仅更干净，连自行车车架都没画歪。

这个玩笑测试，为什么突然值得认真看

Willison从去年10月开始用"鹈鹕骑自行车"当模型测试。初衷是讽刺：当所有人都在比数学推理、代码能力、多模态理解时，找个荒谬任务反而能暴露模型的真实性格。

诡异的是，这个玩笑居然成立了。2024年10月的第一批鹈鹕"完全是垃圾"。之后每次主流模型更新，鹈鹕质量确实在提升——Gemini 3.1 Pro已经能画出"真的能用"的插图。

直到今天，这条规律被打破了。

Qwen3.6-35B-A3B是阿里巴巴开源的混合专家模型（Mixture-of-Experts，MoE），总参数量235B，但每次前向传播只激活35B。Willison跑的是Unsloth团队量化的4bit版本，文件体积压到20.9GB，用LM Studio在MacBook Pro M5本地部署。

Claude Opus 4.7则是Anthropic当天发布的闭源旗舰，API定价远高于Qwen的开源权重。

结果：Opus 4.7的自行车车架结构错误，第二轮用thinking_level: max参数重试，"也没好多少"。Qwen的火烈鸟独轮车测试还额外贡献了「」的注释彩蛋。

正方：开源量化模型的工程胜利

这件事首先说明量化技术（Quantization，将模型权重从高精度压缩到低精度）已经成熟到不损核心能力的地步。

Unsloth的GGUF格式把235B参数的MoE模型压进21GB，消费级笔记本能流畅运行。一年前这是不可想象的——当时70B模型量化后还会严重失真。

MoE架构的本地部署效率也被验证。35B激活参数意味着推理成本可控，而总参数量保证了知识容量。Willison的测试场景恰好击中MoE的甜点：创意生成任务对绝对精度要求不高，但需要足够的知识广度来组合"鹈鹕"+"自行车"这种罕见概念。

更深层看，这是开源生态的系统性优势。Qwen权重开放后，Unsloth可以立即优化量化方案，LM Studio可以快速集成，社区能自发形成"笔记本本地跑SOTA模型"的完整工具链。闭源模型的迭代再快，也绕不过API延迟和成本结构。

反方：一个插图测试说明不了什么

Willison自己承认，"非常怀疑21GB量化版本比Anthropic最新闭源版本更强大或更有用"。

鹈鹕测试的样本量极小，且SVG生成是特定技能。Opus 4.7可能在长文本推理、复杂工具调用、多轮对话一致性等维度全面领先——这些才是企业付费的核心场景。

Anthropic的thinking_level参数设计也耐人寻味。max模式意味着模型会投入更多计算资源做内部推理，但Willison的测试显示"没好多少"。这可能暴露Opus 4.7在视觉-空间理解上的真实短板，也可能只是该参数对插图任务不适用。

更关键的质疑：如果实验室真的针对流行基准做训练，为什么偏偏漏掉Willison的鹈鹕？他的"秘密备份测试"火烈鸟独轮车，Qwen依然胜出——但这只有两个数据点。