8B小模型新架构：KV缓存压缩8倍，推理能力追平大模型

报错免疫体

2026-05-23 05:01 ·北京

过去一年发布的小型推理模型大多换汤不换药。熟悉的Transformer骨架，混合专家系统（MoE）封装，分组查询注意力（GQA）或者类似Qwen的Gated DeltaNet来缩小KV缓存，最后再加一轮重度强化学习。性能逐年提升，但底层架构和DeepSeek R1发布时没什么两样。

Zaya1-8B是近期第一个打破这种套路的模型。Zyphra推出的这款84亿参数混合专家模型，每token仅激活约7.6亿参数。它的核心是一套注意力机制变体——将查询、键、值压缩进共享隐空间；一种与权重协同训练而非事后叠加的推理时方法；以及一个用多层感知机配合比例-积分-微分控制器式偏置平衡器的路由器，替代常规的线性门控。每一项都是扎实的技术贡献，而组合起来，解释了为何激活参数不到10亿的模型能在高难度数学和编程基准上逼近规模大得多的对手。

但限制也很明显。 headline基准数据均由Zyphra自行报告，且后训练配方足够特殊，导致它在数学和代码上远超通用场景表现。不过，这里的技术内容可能是该领域许久以来最有趣的进展，全部源于Zyphra构建的非同寻常的架构与训练栈。

压缩卷积注意力彻底改写了注意力机制

KV缓存是本地模型的隐形杀手。激活参数和权重容易理解，但一旦上下文窗口打开，显存就会被键值对完全吞掉——体积可能是实际运行模型的数倍。多头注意力是最大元凶。分组查询注意力让头组共享键值来削减缓存，多隐注意力（MLA）将缓存推入学习得到的隐空间，两者都有帮助，但都有天花板。

Zyphra的压缩卷积注意力（CCA）走了另一条路。查询、键、值全部被下投影到单一共享隐空间，整个注意力计算在这个压缩空间内完成。在此基础上，对压缩后的查询和键应用卷积序列与通道混合。卷积是防止激进压缩导致质量崩塌的关键——它让相邻位置在注意力分数计算前于隐空间内交换信息。

已发布的CCA白皮书中的数据相当惊人。团队测得相比标准多头注意力，KV缓存压缩达到8倍。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴