打开网易新闻 查看精彩图片

大数据文摘受权转载自夕小瑶科技说

黄仁勋召开了英伟达 GTC 大会。

我在看直播的时候注意到一个关键细节——杨植麟是这次大会上唯一受邀演讲的中国大模型公司创始人。

在演讲中他罕见地直接表达:很多普遍使用的技术标准,正成为大模型 Scaling 的瓶颈。并且连着表达了三次“we scale and open-sourced”。

“我们规模化验证了,并且开源了”。

后面跟着三个关键词——MuonClip、Kimi Linear、Attention Residuals。

打开网易新闻 查看精彩图片

这三样东西刚好覆盖了深度学习训练最底层的三个基础结构——优化器、注意力机制、残差连接。

Kimi 三个全动了,而且规模化验证后开源。

它们解决的问题各不相同,但是姿态是一样的,都是对用了将近十年没人动的基础组件动刀。这第三项,正是两天前 Karpathy 和马斯克在 X 上点赞的那篇论文。

打开网易新闻 查看精彩图片

Karpathy 言外之意在说:attention 如果真的 is all you need,为什么不在深度这个维度上也用?Kimi 这篇论文干的正是这件事。

马斯克也给 Kimi 的工作点了赞。

打开网易新闻 查看精彩图片

非常巧的是,去年的最后几天,DeepSeek 也在 mHC(Manifold-Constrained Hyper-Connections)的论文里,对「残差连接」动了刀。

要理解这件事为什么这么重要,可能还得先理解残差连接是啥,解决了啥。

残差连接用了 10 年,问题在哪?

让我们回到 2015 年。

2015 年,深度神经网络有个致命的毛病:越深越烂。

理论上层数越多,模型表达能力越强;但实际上,训练信号(梯度)从输出层往回传的时候,每经过一层就会衰减一点,等传到前面的层,信号已经弱到接近于零,模型已经接变笨了。原因很简单,太深了,学不动了。这就是「梯度消失」。

而 ResNet 就解决了这个大麻烦,它的做法很巧妙,既然每一层传递的时候都会“忘记”一些东西,导致最后直接什么都没有,那我就强制要求每一层在往后传递的时候,除了要传递该层的变换,还要保留原始输入。它的公式很简单:

打开网易新闻 查看精彩图片

第 l 层的输出,等于上一层的输出,加上本层的变换结果。

这个设计最重要的意义,是保住了一条 identity path。

用大白话说,就是给信息留了一条“原样直通”的通道,后面的变换怎么折腾都行,但至少有一部分输入不会被改写,能直接往后传。

这是 ResNet 的天才之处,也是 Transformer 能一路堆到今天这个深度的地基。

但地基里,埋着一个隐患。

Transformer 用的是「PreNorm」,也就是先把输入做归一化,再过注意力或 FFN,最后加残差。

这个设计配合残差连接,相当于强制要求在信息传递时保“原文件”。每一层都平等地继承所有历史层的输出,没有谁更重要。

把残差连接的递归展开,会得到一个直观的视角:

打开网易新闻 查看精彩图片

发现问题了吗?

每一层的贡献权重都是 1。无论第 3 层提取的是什么特征,无论第 97 层处理的是什么输入,它们对最终状态的贡献量,完全相同。

PreNorm 把输入先做标准化,意味着所有层的输出都被拉到同一尺度;残差连接又强制等权累加。结果就是,深层的语义个性被稀释了。

随着网络加深,这个累加的总量越来越大——数学上,它大致按层数 L 线性增长。越往后的层,你新产生的输出,在这团不断累积的历史信息里,占比越来越小。越深的层,越难留下痕迹。要想保持影响力,它只能输出更大幅度的更新。

论文把这个现象叫「PreNorm dilution」——PreNorm 导致的信息稀释。

就像一本永不删改的会议记录本,每次开会,新的纪要都往后叠,旧的内容一字不删,谁都保留。看上去很稳,很安全,很尊重历史。可会议一旦开多了,问题就来了:后来的发言者想留下真正有效的意见,就得喊得越来越响。不是因为前面的人更有道理,只是因为纸已经太厚了。

这就是为什么残差连接的问题,不在于它无效,而在于它太死板。它保住了信息,却把所有信息一视同仁地保住了。它给了网络一条历史通道,却没给网络“该从历史里拿什么”的能力。

这个问题存在了 10 年。没人动,不是因为没人知道,而是因为它够用了,简单、稳定、零额外成本。

另一个原因是过去十年大家主要在改的是别的地方。

注意力、激活函数、归一化、MoE 路由、多模态融合,这些都被反复翻新;唯独层与层之间的信息流动方式,长期被当成基础设施默认不动。

论文的 related work 里,Highway、Hyper-Connections、mHC、DDL 这些路线都被系统梳理了一遍。可这些方法大多还停留在“如何修补这条加法路径”的层面:调一调比例,开几条并行流,或者想办法让状态别压得那么狠。

真正几乎没人认真追问的是:既然横向的时间序列上用 Attention 能获得更智能的全局理解,为什么纵向的深度维度就不行呢?

这正是 Attention Residuals 的出发点。

论文给了一个很妙的类比。像 RNN 这样的序列模型,本质上也是把过去的信息不断压进一个滚动状态里,沿时间一步一步往后传。后来 Transformer 用 attention 改了这件事:每个位置不必再死守一个压缩后的总状态,而是可以直接看所有历史位置,动态决定该看谁、看多少。

作者说,深度维度其实也有同样的问题。标准残差连接让每一层只接住一个已经被混好的总状态,跟当年的序列递归有一种很强的形式对偶。既然序列这边已经从 RNN 走到了 attention,深度这边为什么不行?

于是,Attention Residuals 做的事情就清楚了:它把标准残差里那个固定为 1 的权重,换成了一个可学习、而且依赖输入的 attention 权重。

每一层用一个可学习的查询向量 w_l,去和所有历史层的输出做匹配,经 softmax 归一化后得到权重,再加权求和:

打开网易新闻 查看精彩图片

每层只额外引入一个 d 维的可学习向量,参数量极少。同样是第 50 层,面对不同输入,它聚合历史信息的方式可以完全不同。

打开网易新闻 查看精彩图片

左边是过去 10 年我们最熟悉的标准残差:所有层输出一路等权相加。

  • 中间是理论上最完整的 Full AttnRes:每一层都可以回看并选择所有历史层。

  • 右边则是能落地实现方式 Block AttnRes:把层分块,在保住大部分效果的同时,把系统开销压下来。

  • 再讲讲 DeepSeek 前段时间也发布了一个对残差连接动刀的工作,叫做「mHC(Manifold-Constrained Hyper-Connections) 」。它延续的是 Hyper-Connections 这条路线:把原本单条的 residual stream 扩展成多条并行流,让层与层之间的信息交换不再只走一条固定通道。

    mHC 把残差流从单条扩展成多条(n 流),用可学习的矩阵来调节层间的信息流,再用数学约束(双随机矩阵)来保持稳定。本质上,这是对 residual stream 的横向扩展。重点是先把路拓宽,让信息有多条并行路径可以走。

    Kimi 这次走的是另一条路,在原有这条深度通路上,重写了信息聚合的规则。

    过去,前面各层的输出是固定等权地一路相加;现在,它用 depth-wise softmax attention 来做跨层选择,让每一层都能动态决定该从哪些早期表示里多取一点、少取一点。这样一来,重要信息会被突出,次要信息会被压低,早期层里那些原本容易在层层累加中被冲淡的语义,也更有机会被后续层重新调出来。

    其实这两条路并不互相否定,论文里甚至直接说了,AttnRes 和 mHC 在某种意义上是正交的。可从叙事上看,这两家公司几乎同时,从不同角度,对一个用了 11 年的基础结构提出了质疑。这说明,层与层之间的信息流动方式,正在重新成为大模型研究里的关键问题。

    Kimi 这篇论文更进一步的地方在于,在于它把 Attention 从序列维度,进一步推进到了深度维度。

    这也是为什么 Karpathy 会对它产生兴趣。一个清晰的信号是:Attention 这套机制,也许还能提供更多的智能潜力

    再补一个更进阶的信息。

    Full Attention Residuals 虽然概念最干净,工程上却不能不算账。因为它意味着每一层都要访问所有历史层的输出,理论复杂度会到 O(L^2d)。

    在普通训练设定下,Full AttnRes 几乎不额外占内存,因为反向传播本来就要保留这些层输出;可一旦上到大规模训练,尤其是 activation recomputation 和 pipeline parallelism 普遍存在的时候,问题就来了。这些激活需要被显式保活,还要跨 stage 通信,成本会迅速抬头。

    所以能工程落地的是Block AttnRes

    它的思路也很 Kimi:四两拨千斤,换个结构让它可用。论文把很多层切成 N 个 block。

    块内仍然用传统 residual 先累加,块与块之间再做 attention。这样一来,需要保留和通信的对象,就从“每一层的输出”变成“每个 block 的摘要表示”。论文给出的结果是,memory(内存开销)和 communication (跨设备通信开销)都可以降到 O(Nd)。而且实验里大约 8 个 block,就已经能吃到 Full AttnRes 的大部分收益。

    打开网易新闻 查看精彩图片

    它不是只在纸面上成立,论文专门补了两套工程优化:

    • cross-stage caching:减少 pipeline 并行时的重复通信

    • two-phase computation:把块间 attention 先并行算掉,再和块内顺序计算合并

    最终结果是:推理延迟额外开销不到 2%,可以直接替换现有模型的标准残差。

    Scaling law 的结果是:Block AttnRes 达到的 loss,大致相当于基线模型多花 1.25 倍算力才能追上。

    打开网易新闻 查看精彩图片

    三条曲线里,Baseline 始终在上面,Full AttnRes 和 Block AttnRes 整体更低。Block 版本几乎贴着 Full 走,说明它在更低系统成本下,追回了大部分收益。

    这个提升不只停留在预训练 loss 上。

    在作者最终的同配方预训练对比里,AttnRes 几乎在所有 benchmark 上都追平或超过 baseline。

    打开网易新闻 查看精彩图片

    如果非要比较 DeepSeek 的 mHC 方案和 Block AttnRes,Block AttnRes 的内存访问开销只有 mHC 的约六分之一,是更好的理论框架,更低的系统成本。

    就在 GTC 演讲的同时,Kimi 正以 180 亿美元的估值,进行新一轮 10 亿美元融资。

    三个月前,这个数字还是 43 亿。

    近三个月,Kimi 完成了三轮融资,估值从 43 亿美元涨到 180 亿美元,翻了四倍,成为中国历史上从成立到估值破百亿美元最快的公司。拼多多当年用了三年多,字节跳动用了四年多,Kimi 只用了两年多。

    这个速度本身就已经说明了一件事:最敏感的钱,已经先下注了。

    第一层原因,是商业化已经被快速验证。

    K2.5 发布后的 20 天内,Kimi 的收入就超过了 2025 年全年总和。根据全球支付平台 Stripe 的数据,Kimi 的付费订单数在 1 月环比激增 8280%,2 月再涨 123.8%,全球排名也从此前从未进入前 100,一路冲到第 9 位,前面已经是 Grok、Cursor 这样的名字。

    但如果只是增长快,还不足以支撑 180 亿美元的想象力。

    更深一层,资本押注的,是 Kimi 身上那股很少见的技术心气。

    最近这几个月,Kimi 连续开源的几项工作,砍的几乎都是深度学习最底层的基础设施。

    这件事的分量,其实比一篇论文本身大得多。

    因为市场真正买单的,不只是你能不能做出增长,而是你有没有能力去改写那些别人默认不能动的东西。

    更重要的是,你改完之后,还能不能把这种能力变成真实增长。

    所以,杨植麟在 GTC 连说三个“we scale and open-sourced”,不全是客套,我想了下,还有姿态。

    “we”意味着一种邀请——不用别人定义的规则做竞赛,我们在改规则本身。然后开源公开邀请所有人一起往前走。

    GPU 训练特惠!

    H100/H200 GPU算力按秒计费,平均节省开支30%以上!

    扫码了解详情☝

    点「赞」的人都变好看了哦!