2026 年 3 月 16 日,Kimi 团队最新公开的论文《Attention Residuals》提出了一种针对大模型底层结构的改法。
同时 MoonshotAI 也在 GitHub 开源了相关技术报告与实现。
该论文获马斯克夸赞: “Kimi 的工作令人印象深刻。”
论文瞄准的不是训练数据、参数规模或推理技巧,而是 Transformer 里一个用了很多年的基础设计「残差连接」。 
用通俗的话说,现在的大模型内部像一条很长的流水线。每一层都会把自己的结果直接加到后面,优点是训练稳定、网络能堆得很深,但问题是层数一多,前面真正重要的信息容易被后面的新信息不断冲淡。论文把这个问题概括为 PreNorm 下的“稀释”现象,也就是隐藏状态会随着深度持续变大,早期层的贡献越来越不显眼。上传的论文正文对这一点有直接说明。
这篇论文的核心思路,是把过去这种“所有层结果默认一股脑往后加”的方式,改成“后面的层按需去前面挑信息”。
作者把这套方法叫做 Attention Residuals,简称 AttnRes。
简单理解,它相当于给模型加了一个会翻旧账的机制,后面的层不再机械接收前面所有层的累计结果,而是像注意力机制那样,根据当前需要,从更早的层里找出更有用的信息再融合进来。过去注意力机制改变了 token 与 token 之间的信息传递,现在 AttnRes 想进一步改变层与层之间的信息传递。
这件事之所以被业内关注,不只是因为想法新,还因为它动的是大模型最底层、最通用的一块积木。
Transformer 这些年有很多改进,大家经常改的是 attention、MoE、长上下文、KV cache 或训练配方,但很少直接去碰 residual connection 这类默认配置。
AttnRes 的价值就在于,它试图回答一个更底层的问题,模型变深以后,信息到底该怎么在不同层之间流动,才不会越传越乱。  
当然,理想很丰满,工程通常很残酷。因为如果每一层都去“看”所有更早的层,内存和通信成本会迅速上升。为了解决这个问题,论文又提出了 Block AttnRes,也就是“块注意力残差”。它的做法不是逐层精细回看,而是先把很多层压成若干个块,只在块之间做这种选择性检索。可以把它理解成,不是翻整本书的每一页,而是先把内容整理成几个章节目录,再按章节去查。这样一来,内存和通信开销从 O(Ld) 降到 O(Nd),更适合真正的大模型训练和推理场景。
论文还配套设计了跨 stage 缓存和两阶段计算策略,报告称典型推理负载下额外延迟低于 2%,启用 pipeline parallelism 时训练端到端额外开销低于 4%。
从实验结果看,这不是那种“只在某个小模型上偶然有效”的工作。
论文做了 scaling law 实验,比较了 baseline、Full AttnRes 和 Block AttnRes 三种方案。
结果显示,AttnRes 在不同计算预算下都持续优于基线,而 Block AttnRes 在最大规模上已经能够追回大部分 Full AttnRes 的收益。
按论文给出的拟合结果,在 5.6 PFLOP/s-days 这一点上,Block AttnRes 达到的损失水平,相当于基线多用 1.25 倍计算量才能达到。
GitHub 仓库首页也把这一点作为核心结果之一展示出来。
论文还把这套方法接入了 Kimi Linear 架构中,使用的是一个 48B 总参数、3B 激活参数的模型,并在 1.4 T tokens 上进行了预训练。
按照上传论文中的结果,采用 Block AttnRes 后,模型在通用、数学、代码和中文评测上都没有输给 baseline,很多项目还有明显提升。
比如 MMLU 从 73.5 提升到 74.6,GPQA-Diamond 从 36.9 提升到 44.4,Math 从 53.5 提升到 57.1,HumanEval 从 59.1 提升到 62.2,C-Eval 从 79.6 提升到 82.5。尤其是多步推理、数学和代码这类更依赖组合能力的任务,提升更明显。  
如果把这篇论文再说得更白一点,它不是在教大模型“多背一点知识”,而是在帮大模型“更准确地调出自己已经学到的东西”。
传统残差更像是把所有旧资料不断堆进一个大箱子,箱子越堆越满,找重点越来越难;AttnRes 更像是给这个箱子加了索引系统,后面的层可以按需要去翻前面真正有用的资料。
这也是为什么这项工作虽然看起来不像新模型发布那样热闹,却可能对下一代大模型底层结构设计产生实际影响。
它最大的意义,在于证明“层与层之间的信息传递”也可以像 token 之间那样被重新设计,而且这种重写在大模型规模上仍然能跑得动、能带来稳定收益。至于它会不会像标准残差连接那样成为行业新默认配置,还要看后续更多模型、更多团队和更长时间的复现与验证。
该论文更引人注意的是其中作者之一:
陈广宇是一位 17 岁的高中生,参与了技术研究。
云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。
热门跟贴