深度｜马斯克点赞、Karpathy锐评、推理之父惊呼，Kimi 新架构直接炸出半个硅谷AI 圈|jerry|kimi|埃隆_马斯克|新论文|残差|神经网络

图片来源：AI生成

很少有一篇纯底层的技术报告，能在发布瞬间直接“炸出”硅谷半个 AI 圈。

昨晚，Kimi 团队发布了重磅技术报告《Attention Residuals》。这项研究试图用一种动态的、依赖输入的注意力机制，彻底取代大模型中沿用了十年的标准残差递归。

简单来说，它让模型不再只是机械地堆叠层数，而是学会了在深度维度上进行“内容感知”的选择。这一大胆的挑战让一众硅谷顶流大佬纷纷开启点赞模式。

OpenAI 联合创始人 Andrej Karpathy 这么评价：“看来我们还没把‘Attention is All You Need’这句话按字面意思理解透。”

一向不会轻易对具体技术论文做这种公开表态的马斯克，也在评论区留下一句：“Impressive work from Kimi.”

甚至有AI从业者公开评价，上一次中国实验室发布这样的成果，是DeepSeek让英伟达一天蒸发6000亿美金。

论文链接：https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf

这项研究集结了月之暗面数十名研究员的智慧。对项目贡献最突出的三位研究员分别是陈光宇、Yu Zhang（Kimi-Linear 一作）以及 Jianlin Su。

更有意思的是，论文的一作陈光宇是一名年仅 18 岁、加入团队仅 5 个月的准高三学生。

深度的陷阱

在深度学习的世界里，残差连接自 2015 年诞生以来，一直被视为神经网络迈向深层的默认配置。它像一条梯度高速公路，让梯度能够绕过复杂的变换直接传导，从而解决了深层网络难以训练的难题。

但在大语言模型步入数百层的今天，这种被奉为圭臬的标准结构正悄然陷入一种“深度的陷阱” 。

目前的残差结构本质上是固定权重的线性累加，这意味着每一层输出都以完全相同的分量强行挤进主干路径。这种“一视同仁”的堆叠方式，缺乏一种灵活的选择机制。它无法根据当前的输入内容决定哪些层的信息更关键，就像在读一本厚书时每一页的权重都完全一样，读到最后你可能已经忘了开头最重要的伏笔。

Kimi 团队指出，这种信息流动的僵化不仅限制了模型的有效深度，还导致了一个严重的问题：信息稀释。

在现代 LLM 普遍采用的 PreNorm 范式下，残差连接导致隐藏状态的范数会随着深度呈线性增长。想象一下，当你把上百层网络的输出简单地叠加在一起，主干路径会变得越来越“臃肿”，每一层对最终结果的影响力被逐层摊薄。早期层辛苦提取的基础特征被掩没在后续层的海量输出中，甚至导致深度增加后的收益递减。

这种不受控的增长还强迫深层网络必须学习产生越来越大的输出，才能在已经巨大的残差流中获得一点点“发言权”，这不仅增加了训练的不稳定性，也造成了参数的极大浪费。实证研究发现，在这种结构下，模型中相当比例的层甚至可以被直接修剪掉而不影响性能，这说明目前的残差机制并没有让每一层都发挥出应有的潜力。

图 b 中，蓝色曲线代表的基准模型显示，随着 Transformer 块索引的增加，输出范数几乎呈现指数级的飞跃增长。这意味着越往后的层，由于之前的累加量已经巨大，为了能够产生影响，它被迫输出极其巨大的数值。图 c 揭示了固定权重累加带来的另一个弊端 - 梯度分布极度不均。在基准模型中，梯度主要集中在最开始的几层，深层的梯度非常微弱且分布不稳。这种失衡意味着靠近输入的层在被过度训练，而深层则在“划水” 。

由于残差连接将所有先前的层信息压缩进一个单一的状态，模型无法实现对早期信息的选择性检索。这种不可逆的信息流失，使得模型在处理需要长程依赖或多步推理的复杂任务时，往往力不从心。

Kimi 团队的这一洞察，不仅是对现状的批判，更是为后续 AttnRes 的登场铺平了道路。我们需要的不是更厚的堆叠，而是更聪明的选择。

AttnRes 的降维打击

为了打破这种僵局，Kimi 团队提出了 Attention Residuals（简称 AttnRes）。

这场变革的灵感源于序列建模与网络深度之间的形式对偶性。既然 Transformer 能够通过注意力机制取代循环神经网络（RNN）在序列维度上的僵化递归，那么在深度维度上，我们也理应可以用注意力来取代固定的残差累加。

AttnRes 的核心逻辑在于将每一层原本被动的线性接收转变为主动的内容感知检索，通过将深度轴转化为一个可供检索的特征空间，让模型能够像查阅字典一样，根据当前的输入内容精确调取之前的关键表征。

在具体实现上，Kimi 团队引入了一个极其轻量的“导航大脑”——层专属伪查询向量。每一层不再是盲目接收前序总和，而是带着这个学习到的向量去扫描之前所有层的输出。通过计算相似度，模型会生成一套 Softmax 注意力权重。为了防止某些幅度异常的层主导整个注意力分布，架构中还加入了 RMSNorm 归一化。

为了将概念推向工业级应用，团队研发了分块注意力残差（Block AttnRes）。全量注意力虽好，但其平方级的开销在大规模训练中极其昂贵。通过将数百层网络划分为若干个块，模型在块内维持低成本的基础累加，仅在块间进行精细的注意力聚合。这一改进直接将显存复杂度降至块数量级别。实测发现，仅需约 8 个块就能找回全量版绝大部分的性能增益，实现了性能与效率的完美平衡。

在工程落地层面，这套架构配合了精妙的两阶段计算策略。由于查询向量是层特定的且独立于实时输入，模型可以在进入每个块时，批量计算出该块内所有层对历史块的关注权重。这种设计将零散的读取整合为高效的批处理，极大地摊薄了内存访问成本。最终，这种从底层互联方式上的彻底重构，让端到端的推理延迟开销控制在2% 以内，几乎做到了“性能暴增，成本微增” 。

图中的 block_attn_res 函数展示了如何利用一个学习到的权重矩阵并行地处理历史表征，而 forward 部分则展示了模型如何维护一个“块历史记录”，在保证逻辑严密的同时，将显存占用维持在极低水平。

Kimi 的实战成果

任何理论的优雅最终都要在算力的火海中接受毒打。Kimi 团队在包含 480 亿参数（30 亿激活参数）的 Kimi Linear 架构上，利用 1.4 万亿 Token 的实测结果证明，AttnRes 绝非实验室里的花拳绣腿。

最令技术圈振奋的是它对Scaling Law的重塑。实验数据显示，在同等损失水平下，AttnRes 展示出了极高的“算力杠杆”：它仅需基准模型约 80% 的算力即可达到同样的效果，意味着它自带 1.25 倍的算力优势。这一提升在不同的模型规模下均保持一致，打破了传统架构在极深尺度下的效率天花板。

这种“深度进化”最终转化为了一份惊艳的下游任务成绩单。在衡量知识深度的GPQA-Diamond任务上，新架构直接拉升了7.5 分；而在数学竞赛级的Minerva Math和代码生成的HumanEval任务中，也分别实现了3.6 分和3.1 分的显著飞跃。即便是通用理解领域的 MMLU (+1.1) 或中文能力测试 C-Eval (+2.9)，也展现出全面打平或超越基准模型的统治力。