21GB模型跑在笔记本上，画图打败了Claude Opus 4.7

算力游侠

2026-04-17 01:50 ·北京

一个21GB的量化模型，在MacBook Pro M5上本地运行，画出的鹈鹕骑自行车比Anthropic最新的旗舰模型还好。这听起来像玩笑，但测试者Simon Willison的对比图就摆在那儿。

「鹈鹕测试」到底测的是什么

Willison从去年10月开始用这个基准：让AI画「鹈鹕骑自行车」的矢量图（SVG格式）。初衷是嘲讽——模型评测这件事本身就够荒谬的。

但诡异的是，这个玩笑基准居然管用。早期模型画的鹈鹕是垃圾，后来Gemini 3.1 Pro已经能产出能用的插图。质量曲线和模型实际能力大体正相关。

直到今天被打破了。

Qwen3.6-35B-A3B的量化版（由Unsloth发布的Q4_K_S版本，体积压到20.9GB）在本地跑LM Studio，画出的鹈鹕车架完整、结构合理。Claude Opus 4.7——Anthropic刚发布的闭源旗舰——反而把自行车车架画错了。

Willison不死心，给Opus加了thinking_level: max参数，再测一次。结果「没好多少」。

换题再测：「火烈鸟骑独轮车」。Qwen胜出，加分项是SVG代码里自动加了注释：。

正方：小模型本地跑，特定任务能赢巨头

这件事的冲击力在于场景错位。Anthropic的Opus系列定位是顶级推理能力，API定价也是第一梯队。Qwen3.6-35B-A3B是开源权重、可本地部署的模型，量化后能在消费级硬件运行。

Willison的测试环境很具体：MacBook Pro M5，通过LM Studio加载gguf格式模型，用llm-lmstudio插件调用。总成本是电费和下载时间。

对需要生成SVG插图的用户，这个组合此刻是更优解。不是理论上，是实测结果。

更深一层：Qwen团队在视觉-语言对齐上的投入开始显现。35B激活参数（A3B指激活3B参数的专家混合架构）能在图形结构理解上压过更大的稠密模型，说明架构设计和训练数据配比有针对性优化。

开源生态的工具链也在成熟。Unsloth的量化方案、LM Studio的推理框架、gguf格式的高效加载——这些基础设施让「本地跑大模型」从极客玩具变成生产力选项。

反方：单一基准不能说明能力排序

Willison自己先说了：「我非常尊重Qwen，但很难相信21GB量化版比Anthropic最新闭源模型更强大或更有用。」

鹈鹕测试的样本量极小。两个提示词，各跑1-2次，没有统计意义。Opus 4.7可能在其他视觉任务、长文本推理、代码生成等维度全面领先，只是恰好在这个奇怪的边缘case上翻车。

SVG生成是特殊能力。它要求模型理解图形结构、空间关系、矢量指令，同时遵循自然语言描述。这和通用视觉理解（如识别照片内容）是不同赛道。Qwen可能在这个细分任务上过度优化，而Opus的训练目标更宽泛。

量化损失也要考虑。20.9GB的Q4_K_S版本是4-bit量化，虽然Unsloth的方案口碑不错，但信息损失客观存在。原版Qwen3.6-35B-A3B的完整能力未必能代表，Willison测试的是「压缩后还能用的版本」。

最核心的一点：用户真正需要的是什么？如果任务是写2000行Python处理复杂数据流，Opus 4.7的可靠性可能仍是首选。SVG插图生成是低频、边缘需求，在这个点上胜出不等于产品层面的胜利。

我的判断：能力评估正在碎片化

这件事的重要性不在于Qwen vs Anthropic谁更强，而在于它揭示了模型能力评估的系统性困境。

过去两年，行业依赖几个头部基准（MMLU、HumanEval、GPQA）来排序模型。这些基准有标准化优势，但也在被针对性训练污染。Willison的「荒谬基准」反而成了压力测试——它测的是模型在未经优化的边缘任务上的真实表现。

现在连这种松散的相关性都在瓦解。一个中端本地模型能在特定视觉任务上击败顶级API模型，说明能力分布正在「碎片化」：

不同架构（稠密vs专家混合）、不同部署形态（云端API vs本地量化）、不同优化目标（通用能力 vs特定任务）的模型，正在形成交错的能力矩阵。没有单一的「最强模型」，只有「在X场景下最适合的模型」。

对科技从业者，这改变了选型逻辑。过去是「预算够就上Opus/GPT-4，预算紧用开源替代」。未来可能是：为每个任务匹配最优的模型-部署组合，甚至本地跑多个专用小模型，比调用一个通用大模型更划算。

对模型开发者，这是细分市场的机会。如果能在SVG生成、图表理解、特定领域代码等垂直能力上做到SOTA，即使通用基准落后，也能找到产品空间。

Willison说有人怀疑实验室专门训练他的鹈鹕测试。他半开玩笑地烧了备用测试（火烈鸟骑独轮车），结果Qwen又赢了。这个怀疑本身说明：当评测基准变得知名，它就死了。

真正的信号藏在没人专门优化的奇怪任务里。而找到这些任务，正在成为产品经理的新技能。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴