将注意力旋转 90 度！今天，Kimi 的「注意力残差」火了|kimi|梯度|残差

编辑｜冷猫

自从 2015 年 ResNet 诞生以来，这种「将输入直接加到输出上」的简单逻辑，统治了几乎所有神经网络架构。

但就在刚刚，沿用了十年的残差机制「升级」了。随橙想呢，替代方法竟然是「注意力机制」

就连 OpenAI 「推理模型之父」，主导了 o1/o3 系列、Codex 编程模型及 GPT-4 的 STEM 能力开发的 Jerry Tworek 都深受这一论文启发，认为应当重新思考之前的一切，「深度学习 2.0」的时代即将到来

这篇颠覆传统残差连接机制的工作来自Kimi 团队，发布了一项重磅技术报告：Attention Residuals ，该方法旨在通过对前序层进行学习到的、依赖输入的注意力机制，来取代标准的深度递归。

论文标题：Attention Residuals
论文链接：https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf
项目链接：https://github.com/MoonshotAI/Attention-Residuals

时间与深度的对偶

要理解Attention Residuals 是在做什么，我们得先看传统的残差连接 y = x + f (x) 出了什么问题。

在大模型向更深、更强演进的过程中，这种残差的加法机制带来了两个副作用：

1.信息稀释：残差连接采用固定单位权重的均匀聚合，导致浅层特征在向深层传递时，其相对贡献度随深度线性衰减。这种「信息稀释」现象限制了深层网络对底层原始表示的直接利用能力。随着层数增加，第一层的信息传到第一百层时，已经被后面九十九层的信息层层冲淡。

2.隐藏状态爆炸：为了在不断累加的残差流中维持信号强度，深层模块往往需要输出模长更大的激活值。这种隐状态的无序扩张不仅破坏了数值稳定性，还导致梯度分布不均，增加了超大规模模型训练收敛的难度，直接导致了训练的不稳定性。

本文的天才之处在于，发现模型的「深度」其实就是另一种形式的「时间」

论文作者之一的 Yulun Du 老师道出了该论文的核心思想：将注意力旋转 90°

Attention Residuals (AttnRes)由此诞生：为每一层配备了一个「智能筛选器」。每一层都会发出一个 Query，去之前的所有层里寻找最相关的特征，并按需分配权重进行聚合。

注意力残差

理论重构：完整的注意力残差

传统的残差连接（ResNet）本质上是深度递归：它像 RNN 一样，把过去所有层的信息死板地「压缩」进一个求和状态中。

核心创新：既然 Transformer 用注意力机制取代了 RNN，解决了长序列的遗忘问题；那么 AttnRes 就在深度上取代了残差累加。
数学实现：每一层不再是简单地加上前一层，而是发出一个可学习的 Query，去和之前所有层产生的 Key 做匹配。
Softmax 权重：通过 Softmax 归一化，模型可以「挑选」出对自己最有用的某几层。比如第 50 层可以直接提取第 2 层的特征，权重占比可以高达 0.8，而不用担心被中间的 48 层稀释。

工程落地：Block AttnRes 的分块策略

效率奇迹：实验发现，即便模型有上百层，只要划分成 N≈8 个块，就能获得绝大部分性能增益。
复杂度骤降：内存开销从随层数 L 增长，降到了随块数增长。这意味着你可以用极小的代价（推理延迟增加 < 2%），获得一个「更聪明」的深层网络。

图 1：Attention Residuals 概览：(a) 标准残差（Standard Residuals）：采用均匀加法累加的传统残差连接方式。(b) 全量注意力残差（Full AttnRes）：每一层都通过学习到的注意力权重，有选择地聚合之前所有层的输出。(c) 块注意力残差（Block AttnRes）：将各层划分为若干个「块」，将内存开销从 O (Ld) 降低至 O (Nd)。

战果：1.25 倍的「计算杠杆」

根据论文信息，实验架构与 Kimi Linear 完全一致，这是一种遵循 Moonlight / DeepSeek-V3 设计的混合专家模型（MoE）Transformer。唯一的修改是在残差连接中加入了 AttnRes；模型深度、隐藏维度、专家路由和 MLP 结构等其他组件均保持不变。

研究团队测试了五种模型规模，并为每种规模训练了三个变体：PreNorm 基准模型、全量 AttnRes 以及约 8 个块的 Block AttnRes。

下图展示了拟合后的规模化曲线。

三个变体的斜率相似，但 AttnRes 在整个计算范围内一致实现了更低的损耗（Loss）。基于拟合曲线，在 5.6 PFLOP/s-days 的计算量下，Block AttnRes 的损耗为 1.692，而基准模型为 1.714，这相当于1.25 倍的计算优势（Compute Advantage）。随着模型规模增大，Full 与 Block 变体之间的差距在缩小。

研究团队的最大模型基于 Kimi Linear 48B 配置：27 个 Transformer 块（共 54 层），在 256 个路由专家中激活 8 个，外加 1 个共享专家，总参数 48B，激活参数 3B。该模型采用 Block AttnRes，每块 6 层，共产生 9 个块外加 1 个 Token 嵌入，形成 10 个深度方向的来源。

上图展示了模型在 1T token 训练过程中的动态变化：

验证损耗： AttnRes 在整个训练过程中始终保持较低的验证损耗，尤其在衰减（Decay）阶段差距进一步拉大。
输出量级：基准模型遭受PreNorm 稀释问题：随着隐状态量级随深度单调增长，深层网络被迫从固定缩放的归一化输入中学习越来越大的输出，以维持影响力。而 Block AttnRes 将这种增长限制在每个块内，通过块边界的选择性聚合重置了累加过程，呈现出有界的周期性模式。
梯度量级：在所有残差权重固定为 1 的基准模型中，梯度流在深度上的分布极不均匀，导致早期层梯度过大。Block AttnRes 的可学习 Softmax 权重引入了来源之间的竞争，从而实现了显著更均匀的梯度分布