马斯克点赞！17 岁高中生参与研究！Kimi 让 AI 学会“翻旧账”|kimi|埃隆_马斯克|实验|推理|新论文|高中生

2026 年 3 月 16 日，Kimi 团队最新公开的论文《Attention Residuals》提出了一种针对大模型底层结构的改法。

同时 MoonshotAI 也在 GitHub 开源了相关技术报告与实现。

该论文获马斯克夸赞： “Kimi 的工作令人印象深刻。”

论文瞄准的不是训练数据、参数规模或推理技巧，而是 Transformer 里一个用了很多年的基础设计「残差连接」。

用通俗的话说，现在的大模型内部像一条很长的流水线。每一层都会把自己的结果直接加到后面，优点是训练稳定、网络能堆得很深，但问题是层数一多，前面真正重要的信息容易被后面的新信息不断冲淡。论文把这个问题概括为 PreNorm 下的“稀释”现象，也就是隐藏状态会随着深度持续变大，早期层的贡献越来越不显眼。上传的论文正文对这一点有直接说明。

这篇论文的核心思路，是把过去这种“所有层结果默认一股脑往后加”的方式，改成“后面的层按需去前面挑信息”。

作者把这套方法叫做 Attention Residuals，简称 AttnRes。

简单理解，它相当于给模型加了一个会翻旧账的机制，后面的层不再机械接收前面所有层的累计结果，而是像注意力机制那样，根据当前需要，从更早的层里找出更有用的信息再融合进来。过去注意力机制改变了 token 与 token 之间的信息传递，现在 AttnRes 想进一步改变层与层之间的信息传递。

这件事之所以被业内关注，不只是因为想法新，还因为它动的是大模型最底层、最通用的一块积木。

Transformer 这些年有很多改进，大家经常改的是 attention、MoE、长上下文、KV cache 或训练配方，但很少直接去碰 residual connection 这类默认配置。

AttnRes 的价值就在于，它试图回答一个更底层的问题，模型变深以后，信息到底该怎么在不同层之间流动，才不会越传越乱。

当然，理想很丰满，工程通常很残酷。因为如果每一层都去“看”所有更早的层，内存和通信成本会迅速上升。为了解决这个问题，论文又提出了 Block AttnRes，也就是“块注意力残差”。它的做法不是逐层精细回看，而是先把很多层压成若干个块，只在块之间做这种选择性检索。可以把它理解成，不是翻整本书的每一页，而是先把内容整理成几个章节目录，再按章节去查。这样一来，内存和通信开销从 O(Ld) 降到 O(Nd)，更适合真正的大模型训练和推理场景。

论文还配套设计了跨 stage 缓存和两阶段计算策略，报告称典型推理负载下额外延迟低于 2%，启用 pipeline parallelism 时训练端到端额外开销低于 4%。

从实验结果看，这不是那种“只在某个小模型上偶然有效”的工作。

论文做了 scaling law 实验，比较了 baseline、Full AttnRes 和 Block AttnRes 三种方案。

结果显示，AttnRes 在不同计算预算下都持续优于基线，而 Block AttnRes 在最大规模上已经能够追回大部分 Full AttnRes 的收益。

按论文给出的拟合结果，在 5.6 PFLOP/s-days 这一点上，Block AttnRes 达到的损失水平，相当于基线多用 1.25 倍计算量才能达到。

GitHub 仓库首页也把这一点作为核心结果之一展示出来。

论文还把这套方法接入了 Kimi Linear 架构中，使用的是一个 48B 总参数、3B 激活参数的模型，并在 1.4 T tokens 上进行了预训练。

按照上传论文中的结果，采用 Block AttnRes 后，模型在通用、数学、代码和中文评测上都没有输给 baseline，很多项目还有明显提升。

比如 MMLU 从 73.5 提升到 74.6，GPQA-Diamond 从 36.9 提升到 44.4，Math 从 53.5 提升到 57.1，HumanEval 从 59.1 提升到 62.2，C-Eval 从 79.6 提升到 82.5。尤其是多步推理、数学和代码这类更依赖组合能力的任务，提升更明显。

如果把这篇论文再说得更白一点，它不是在教大模型“多背一点知识”，而是在帮大模型“更准确地调出自己已经学到的东西”。

传统残差更像是把所有旧资料不断堆进一个大箱子，箱子越堆越满，找重点越来越难；AttnRes 更像是给这个箱子加了索引系统，后面的层可以按需要去翻前面真正有用的资料。

这也是为什么这项工作虽然看起来不像新模型发布那样热闹，却可能对下一代大模型底层结构设计产生实际影响。

它最大的意义，在于证明“层与层之间的信息传递”也可以像 token 之间那样被重新设计，而且这种重写在大模型规模上仍然能跑得动、能带来稳定收益。至于它会不会像标准残差连接那样成为行业新默认配置，还要看后续更多模型、更多团队和更长时间的复现与验证。

该论文更引人注意的是其中作者之一：