在过去两年,大语言模型的极限,已经不再是参数量的堆叠,而是推理速度与算力效率的极限。所有模型都在变聪明,但也都变得“太重”——尤其是在长上下文和强化学习场景下,标准的 Softmax 全注意力机制让模型一次推理就要吃掉海量显存和时间。
Moonshot 的团队在这篇论文中,提出了一个让人眼前一亮的架构:Kimi Linear。它的目标很直接——在不牺牲性能的前提下,让注意力计算变成“线性”的。
结果是:在公平训练下,Kimi Linear 不仅在 MMLU、RULER 等主流基准上超过了传统全注意力模型,还实现了长达 6 倍的解码加速。
为什么所有人都卡在“注意力”的墙上
Transformer 诞生以来,AI 的爆发式增长正是靠这堵墙撑起来的:它让模型能“全局看见”,能把一句话、一段代码、甚至整本书的上下文串联成连续的理解。但问题也在这里——它太贵、太慢、太重。
所谓“全注意力”,就是每个 token 都要和其他所有 token 计算相似度。数学上这意味着 O(n^2)的复杂度:上下文长度翻十倍,算力需求翻一百倍。模型越聪明,推理成本越像雪球一样滚大。短短几千字的对话还好,一旦拉长到几十万、上百万字节,显卡的显存就像泄洪的水库,怎么加都不够。
更棘手的是记忆开销。每次生成新 token,模型都要把之前所有的 key 和 value 缓存在显存里——这就是所谓的 KV cache。它像一列不断加长的火车,拉得越远越吃力。到最后,你的显卡不是在计算,而是在搬数据。于是长上下文、长轨迹、强化学习这些更高层的任务,几乎都被这堵墙挡住了。
理论上工程手段能挪动一点空间,比如 FlashAttention、张量并行、KV 量化,但这些都是“抠常数”的优化。你再怎么抠,也改变不了平方级复杂度的宿命。这就像在高速公路上修更平的柏油,但车流量已经多到要换立交桥——结构不变,问题不会根本解决。
于是人们把希望寄托在线性注意力(Linear Attention)上。它把复杂度从平方降到线性,用更像 RNN 的记忆方式去近似全注意力。但新的问题又出现了:线性注意力“便宜是便宜”,可记忆力不行。它压缩信息太狠,短序列还能用,长序列就开始遗忘。尤其是语言、代码、数学推理这些任务里,模型要能精准地回忆上下文,而线性结构往往记不住关键点。
更微妙的一点是位置编码的错配。全注意力里,RoPE(旋转位置编码)早已成了标准配置,它帮模型理解“前后顺序”。可一旦改用线性结构,RoPE 的作用就不再稳定。很多混合模型出现“短期灵敏、长期失真”的问题——短文表现很好,一旦拉长,上下文就断了。
Kimi 的论文指出了另一个关键事实:当 AI 模型进入“长轨迹推理时代”,这些结构性缺陷会被成倍放大。大模型不再只是在写句子、翻译,而是在做推理、规划、甚至多步决策(RL、Agent 场景)。模型的思考路径被无限拉长,每一步都要记住之前所有动作的状态。这时,全注意力的平方爆炸、KV 缓存的线性堆积、位置机制的错配、以及线性注意力表达力的不足,全都交织成一堵墙。
你可以理解为:AI 正在试图跨越一个“时空瓶颈”。模型既想看得远、记得久,又要算得快、用得省;但在旧结构下,这四个目标是互相拉扯的。工程手段治标不治本,只有重新发明结构,才能同时满足“长”“快”“稳”“省”。
这正是 Kimi Linear 诞生的背景。它不是简单把注意力改成线性,而是重新分工:谁来负责记忆,谁来负责全局,谁来负责位置感知。它用细粒度门控替代粗放遗忘,用高效 DPLR 结构压缩算子,用 3:1 的混合布局维持全局一致性。结果是在不丢质量的前提下,推理速度提升六倍,KV 占用减掉四分之三。
Kimi Delta Attention:一次“记忆革命”
Kimi Linear 的核心模块叫Kimi Delta Attention(KDA)。
它的灵感来自 Gated DeltaNet,但在此基础上引入了一个关键变化:把原本粗粒度的“遗忘门”(forget gate)改成了逐通道可学习的细粒度门控(channel-wise gating)。
以往模型的记忆衰减是“一刀切”的,而 KDA 能让不同维度的信息以不同速度“遗忘”或“保留”。结果是,模型能在有限状态下实现更精准的上下文控制——既不会遗忘关键信息,也能更快舍弃无关噪声。
更重要的是,KDA 在底层数学上采用了一种高效的Diagonal-Plus-Low-Rank(DPLR)近似结构,但进行了硬件优化:它移除了冗余矩阵乘法与分块运算,使内核效率比传统 DPLR 提升近一倍。
在算子层面,这意味着:Kimi Linear 的核心 attention kernel,能在相同硬件上跑出约 2× 的速度。
混合架构:3:1 的黄金比例
Kimi Linear 不是完全抛弃全注意力,而是采用了混合式结构(Hybrid Architecture)。论文中的设计是一个经验黄金比:每 3 层 KDA 线性注意力,就插入 1 层全注意力层。
轻量的线性注意力层(Kimi Delta Attention,简称 KDA),它速度快、占显存少,但全局理解力有限;
传统的全注意力层(Multi-Head Latent Attention,简称 MLA),它能建立全局依赖、维持语义一致性,却在长序列时耗费巨大。
它背后不是简单的层数搭配,而是一种对“效率”与“理解力”的系统性权衡。Moonshot 团队花了大量时间在这里做实验,结果发现——只有在这个比例下,AI 才能既快又稳、既记得住又理解得准。
过去很多研究者尝试过“混合”这两种层,结果要么太省导致模型变“短视”,要么太重又回到了原点。Kimi 团队的做法是:在三层 KDA 后面插入一层全注意力层,形成固定的 3:1 周期。换句话说,每四层中,有三层是“高效工作层”,一层是“全局校准层”。
为什么要这么配比?论文在消融实验中测了多个比例:1:1、3:1、7:1、纯全注意力(0:1),最终发现:
7:1 虽然省了算力,但模型的“记忆力”明显下滑。训练时损失下降还不错,但验证集性能劣化严重,说明模型学到的模式泛化不了。
1:1 虽然稳定,但速度损失太大。解码时延、显存占用都几乎等于传统 Transformer,没解决效率问题。
纯全注意力(0:1)更不用说,性能和速度都掉队。
唯独 3:1 形成了一个“甜点区”:它的训练损失低、验证集表现稳、推理速度提升最明显。在论文的数据里,这个比例让模型在 1M 上下文长度下达到6× 的解码加速,同时将KV cache 占用削减 75%。
更关键的是,性能指标上,它还超过了全注意力模型——也就是说,这不再是“效率换精度”,而是真正的“双赢”。
从工程角度讲,这个比例还有另一个隐藏好处:系统更容易被优化。
很多混合架构因为线性层和全注意力层混杂在同一层内部(intra-layer hybrid),导致计算路径复杂,无法很好地分布式并行。Kimi 采用的是inter-layer hybrid——层与层之间分工明确,三层 KDA 用统一算子,一层 MLA 独立执行,全模型在流水线上运行更顺畅。
这让它能直接兼容现有的推理框架,比如 vLLM,不需要修改缓存机制或调度接口。
同时,Kimi 团队还发现,3:1 结构与另一项创新——NoPE(无位置编码)——配合得尤其好。
过去全注意力层用 RoPE(旋转位置编码)来维持位置感,但在混合架构中,这种强相对位置信号容易“过度主导”,导致短文本表现好、长文本失真。
而在 3:1 的节奏里,KDA 自身带有轻量的记忆衰减和位置信号,全注意力层反而可以去掉 RoPE,使用更轻的 NoPE,让模型的位置偏置在层间自然分布——短程靠线性层感知,长程靠全局层校正。这种分布式的“位置信息调度”,让 Kimi Linear 在超长上下文任务(如 RULER、RepoQA)中展现了强劲的外推能力。
所以,当论文说这是“黄金比例”,并不是指某个巧合的数字,而是一个深度融合性能、速度、稳定性和工程可落地性的系统平衡点。
它让 Kimi Linear 同时具备三种优势:
线性层的高吞吐与低显存,解决效率问题;
全注意力层的全局对齐与稳健理解,保证语义质量;
统一节奏与模块化设计,降低工程复杂度、增强扩展性。
在 1.4 万亿 token 的等规模训练中,Kimi Linear 与传统全注意力 MLA(Multi-Head Latent Attention)进行了正面对比。结果如下:
也就是说:Kimi Linear 是第一个在公平条件下全面超过 Full Attention 的线性架构。
Kimi Linear 最令人惊叹的地方,是它的解码速度。在 1M token 的上下文下,传统全注意力模型的每个输出 token 要花11.48 毫秒,而 Kimi Linear 只需1.84 毫秒。
这不仅是一个“快六倍”的优化,更意味着复杂度从O(n²)降到了接近O(n)的增长律。
在超长推理任务中,比如 Agent 规划、链式思维、多回合对话、代码生成等场景,吞吐量的提升几乎是线性的。更重要的是,这种提速不是“牺牲质量”换来的,而是结构上自然带来的收益。
行业意义:结构效率成为新战场
从更高的视角看,这篇论文的重要性,不仅在于一次算法提速,而是注意力结构设计的范式转向。
过去 5 年,AI 模型的性能主要依赖算力叠加——堆参数、扩算力。而 Kimi Linear 的出现,意味着“结构效率”开始重新被定义。
Moonshot 的团队让我们看到:算力的边际收益在递减,结构的边际收益正在回归。
参考文献:
[1] https://github.com/MoonshotAI/Kimi-Linear/blob/master/tech_report.pdf
欢迎扫码加群参与讨论
我们相信认知能够跨越阶层,
致力于为年轻人提供高质量的科技和财经内容。
稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。
我们正在招募新一期的实习生
热门跟贴