一个21GB的量化模型,在MacBook Pro M5上本地运行,画出的鹈鹕骑自行车比Anthropic最新的旗舰模型还好。这听起来像玩笑,但测试者Simon Willison的对比图就摆在那儿。

「鹈鹕测试」到底测的是什么

打开网易新闻 查看精彩图片

Willison从去年10月开始用这个基准:让AI画「鹈鹕骑自行车」的矢量图(SVG格式)。初衷是嘲讽——模型评测这件事本身就够荒谬的。

但诡异的是,这个玩笑基准居然管用。早期模型画的鹈鹕是垃圾,后来Gemini 3.1 Pro已经能产出能用的插图。质量曲线和模型实际能力大体正相关。

直到今天被打破了。

Qwen3.6-35B-A3B的量化版(由Unsloth发布的Q4_K_S版本,体积压到20.9GB)在本地跑LM Studio,画出的鹈鹕车架完整、结构合理。Claude Opus 4.7——Anthropic刚发布的闭源旗舰——反而把自行车车架画错了。

Willison不死心,给Opus加了thinking_level: max参数,再测一次。结果「没好多少」。

换题再测:「火烈鸟骑独轮车」。Qwen胜出,加分项是SVG代码里自动加了注释:。

正方:小模型本地跑,特定任务能赢巨头

这件事的冲击力在于场景错位。Anthropic的Opus系列定位是顶级推理能力,API定价也是第一梯队。Qwen3.6-35B-A3B是开源权重、可本地部署的模型,量化后能在消费级硬件运行。

Willison的测试环境很具体:MacBook Pro M5,通过LM Studio加载gguf格式模型,用llm-lmstudio插件调用。总成本是电费和下载时间。

对需要生成SVG插图的用户,这个组合此刻是更优解。不是理论上,是实测结果。

更深一层:Qwen团队在视觉-语言对齐上的投入开始显现。35B激活参数(A3B指激活3B参数的专家混合架构)能在图形结构理解上压过更大的稠密模型,说明架构设计和训练数据配比有针对性优化。

开源生态的工具链也在成熟。Unsloth的量化方案、LM Studio的推理框架、gguf格式的高效加载——这些基础设施让「本地跑大模型」从极客玩具变成生产力选项。

反方:单一基准不能说明能力排序

Willison自己先说了:「我非常尊重Qwen,但很难相信21GB量化版比Anthropic最新闭源模型更强大或更有用。」

鹈鹕测试的样本量极小。两个提示词,各跑1-2次,没有统计意义。Opus 4.7可能在其他视觉任务、长文本推理、代码生成等维度全面领先,只是恰好在这个奇怪的边缘case上翻车。

SVG生成是特殊能力。它要求模型理解图形结构、空间关系、矢量指令,同时遵循自然语言描述。这和通用视觉理解(如识别照片内容)是不同赛道。Qwen可能在这个细分任务上过度优化,而Opus的训练目标更宽泛。

量化损失也要考虑。20.9GB的Q4_K_S版本是4-bit量化,虽然Unsloth的方案口碑不错,但信息损失客观存在。原版Qwen3.6-35B-A3B的完整能力未必能代表,Willison测试的是「压缩后还能用的版本」。

最核心的一点:用户真正需要的是什么?如果任务是写2000行Python处理复杂数据流,Opus 4.7的可靠性可能仍是首选。SVG插图生成是低频、边缘需求,在这个点上胜出不等于产品层面的胜利。

我的判断:能力评估正在碎片化

这件事的重要性不在于Qwen vs Anthropic谁更强,而在于它揭示了模型能力评估的系统性困境。

过去两年,行业依赖几个头部基准(MMLU、HumanEval、GPQA)来排序模型。这些基准有标准化优势,但也在被针对性训练污染。Willison的「荒谬基准」反而成了压力测试——它测的是模型在未经优化的边缘任务上的真实表现。

现在连这种松散的相关性都在瓦解。一个中端本地模型能在特定视觉任务上击败顶级API模型,说明能力分布正在「碎片化」:

不同架构(稠密vs专家混合)、不同部署形态(云端API vs本地量化)、不同优化目标(通用能力 vs特定任务)的模型,正在形成交错的能力矩阵。没有单一的「最强模型」,只有「在X场景下最适合的模型」。

对科技从业者,这改变了选型逻辑。过去是「预算够就上Opus/GPT-4,预算紧用开源替代」。未来可能是:为每个任务匹配最优的模型-部署组合,甚至本地跑多个专用小模型,比调用一个通用大模型更划算。

对模型开发者,这是细分市场的机会。如果能在SVG生成、图表理解、特定领域代码等垂直能力上做到SOTA,即使通用基准落后,也能找到产品空间。

Willison说有人怀疑实验室专门训练他的鹈鹕测试。他半开玩笑地烧了备用测试(火烈鸟骑独轮车),结果Qwen又赢了。这个怀疑本身说明:当评测基准变得知名,它就死了。

真正的信号藏在没人专门优化的奇怪任务里。而找到这些任务,正在成为产品经理的新技能。