过去一年发布的小型推理模型大多换汤不换药。熟悉的Transformer骨架,混合专家系统(MoE)封装,分组查询注意力(GQA)或者类似Qwen的Gated DeltaNet来缩小KV缓存,最后再加一轮重度强化学习。性能逐年提升,但底层架构和DeepSeek R1发布时没什么两样。

Zaya1-8B是近期第一个打破这种套路的模型。Zyphra推出的这款84亿参数混合专家模型,每token仅激活约7.6亿参数。它的核心是一套注意力机制变体——将查询、键、值压缩进共享隐空间;一种与权重协同训练而非事后叠加的推理时方法;以及一个用多层感知机配合比例-积分-微分控制器式偏置平衡器的路由器,替代常规的线性门控。每一项都是扎实的技术贡献,而组合起来,解释了为何激活参数不到10亿的模型能在高难度数学和编程基准上逼近规模大得多的对手。

打开网易新闻 查看精彩图片

但限制也很明显。 headline基准数据均由Zyphra自行报告,且后训练配方足够特殊,导致它在数学和代码上远超通用场景表现。不过,这里的技术内容可能是该领域许久以来最有趣的进展,全部源于Zyphra构建的非同寻常的架构与训练栈。

压缩卷积注意力彻底改写了注意力机制

KV缓存是本地模型的隐形杀手。激活参数和权重容易理解,但一旦上下文窗口打开,显存就会被键值对完全吞掉——体积可能是实际运行模型的数倍。多头注意力是最大元凶。分组查询注意力让头组共享键值来削减缓存,多隐注意力(MLA)将缓存推入学习得到的隐空间,两者都有帮助,但都有天花板。

Zyphra的压缩卷积注意力(CCA)走了另一条路。查询、键、值全部被下投影到单一共享隐空间,整个注意力计算在这个压缩空间内完成。在此基础上,对压缩后的查询和键应用卷积序列与通道混合。卷积是防止激进压缩导致质量崩塌的关键——它让相邻位置在注意力分数计算前于隐空间内交换信息。

已发布的CCA白皮书中的数据相当惊人。团队测得相比标准多头注意力,KV缓存压缩达到8倍