打开网易新闻 查看精彩图片

2026 年 3 月 16 日,Kimi 团队最新公开的论文《Attention Residuals》提出了一种针对大模型底层结构的改法。

打开网易新闻 查看精彩图片

同时 MoonshotAI 也在 GitHub 开源了相关技术报告与实现。

该论文获马斯克夸赞: “Kimi 的工作令人印象深刻。”

打开网易新闻 查看精彩图片

论文瞄准的不是训练数据、参数规模或推理技巧,而是 Transformer 里一个用了很多年的基础设计「残差连接」。 

用通俗的话说,现在的大模型内部像一条很长的流水线。每一层都会把自己的结果直接加到后面,优点是训练稳定、网络能堆得很深,但问题是层数一多,前面真正重要的信息容易被后面的新信息不断冲淡。论文把这个问题概括为 PreNorm 下的“稀释”现象,也就是隐藏状态会随着深度持续变大,早期层的贡献越来越不显眼。上传的论文正文对这一点有直接说明。

这篇论文的核心思路,是把过去这种“所有层结果默认一股脑往后加”的方式,改成“后面的层按需去前面挑信息”。

作者把这套方法叫做 Attention Residuals,简称 AttnRes。

简单理解,它相当于给模型加了一个会翻旧账的机制,后面的层不再机械接收前面所有层的累计结果,而是像注意力机制那样,根据当前需要,从更早的层里找出更有用的信息再融合进来。过去注意力机制改变了 token 与 token 之间的信息传递,现在 AttnRes 想进一步改变层与层之间的信息传递。

这件事之所以被业内关注,不只是因为想法新,还因为它动的是大模型最底层、最通用的一块积木。

Transformer 这些年有很多改进,大家经常改的是 attention、MoE、长上下文、KV cache 或训练配方,但很少直接去碰 residual connection 这类默认配置。

AttnRes 的价值就在于,它试图回答一个更底层的问题,模型变深以后,信息到底该怎么在不同层之间流动,才不会越传越乱。  

当然,理想很丰满,工程通常很残酷。因为如果每一层都去“看”所有更早的层,内存和通信成本会迅速上升。为了解决这个问题,论文又提出了 Block AttnRes,也就是“块注意力残差”。它的做法不是逐层精细回看,而是先把很多层压成若干个块,只在块之间做这种选择性检索。可以把它理解成,不是翻整本书的每一页,而是先把内容整理成几个章节目录,再按章节去查。这样一来,内存和通信开销从 O(Ld) 降到 O(Nd),更适合真正的大模型训练和推理场景。

论文还配套设计了跨 stage 缓存和两阶段计算策略,报告称典型推理负载下额外延迟低于 2%,启用 pipeline parallelism 时训练端到端额外开销低于 4%。

从实验结果看,这不是那种“只在某个小模型上偶然有效”的工作。

论文做了 scaling law 实验,比较了 baseline、Full AttnRes 和 Block AttnRes 三种方案。

结果显示,AttnRes 在不同计算预算下都持续优于基线,而 Block AttnRes 在最大规模上已经能够追回大部分 Full AttnRes 的收益。

按论文给出的拟合结果,在 5.6 PFLOP/s-days 这一点上,Block AttnRes 达到的损失水平,相当于基线多用 1.25 倍计算量才能达到。

GitHub 仓库首页也把这一点作为核心结果之一展示出来。

论文还把这套方法接入了 Kimi Linear 架构中,使用的是一个 48B 总参数、3B 激活参数的模型,并在 1.4 T tokens 上进行了预训练。

按照上传论文中的结果,采用 Block AttnRes 后,模型在通用、数学、代码和中文评测上都没有输给 baseline,很多项目还有明显提升。

比如 MMLU 从 73.5 提升到 74.6,GPQA-Diamond 从 36.9 提升到 44.4,Math 从 53.5 提升到 57.1,HumanEval 从 59.1 提升到 62.2,C-Eval 从 79.6 提升到 82.5。尤其是多步推理、数学和代码这类更依赖组合能力的任务,提升更明显。  

如果把这篇论文再说得更白一点,它不是在教大模型“多背一点知识”,而是在帮大模型“更准确地调出自己已经学到的东西”。

传统残差更像是把所有旧资料不断堆进一个大箱子,箱子越堆越满,找重点越来越难;AttnRes 更像是给这个箱子加了索引系统,后面的层可以按需要去翻前面真正有用的资料。

这也是为什么这项工作虽然看起来不像新模型发布那样热闹,却可能对下一代大模型底层结构设计产生实际影响。

它最大的意义,在于证明“层与层之间的信息传递”也可以像 token 之间那样被重新设计,而且这种重写在大模型规模上仍然能跑得动、能带来稳定收益。至于它会不会像标准残差连接那样成为行业新默认配置,还要看后续更多模型、更多团队和更长时间的复现与验证。

该论文更引人注意的是其中作者之一:

打开网易新闻 查看精彩图片

陈广宇是一位 17 岁的高中生,参与了技术研究。

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片