DeepSeek 在 2026 年第一篇论文,梁文峰署名

让「多流残差」这个好想法,能真正在大模型上跑起来

私底下,某巨佬评价道:“牛逼”

 https://arxiv.org/abs/2512.24880
打开网易新闻 查看精彩图片
https://arxiv.org/abs/2512.24880

要理解这篇论文,得先知道 Transformer 里的信息是怎么传的

Transformer 里的信息流

你问 ChatGPT 一个问题:今天天气怎么样,它怎么回答你的?

问题拆成一个个小单元,比如「今天」「天气」「怎么样」这样的片段

,可以点击下面的 svg,模拟交互

然后,每个片段会被转成一组向量,进入 Transformer,开始进行处理

数字从第一层进去,经过处理,传到第二层,再处理,再传到第三层...一直传到最后一层

最后一层输出的数字,决定了模型接下来要生成哪个词

 大概就是这样
打开网易新闻 查看精彩图片
大概就是这样

这个过程会循环往复,直到所有文字都生成完毕

你看到 ChatGPT 一个字一个字往外蹦,就是这个过程

所以中间这几十层的传递很关键。传到最后的数字如果不对,生成的内容就会跑偏

问题来了:层数一多,数字在传递过程中会越来越小,甚至趋近于零
传到后面,前面的信息就丢了

2015 年,ResNet 提出了一个办法:残差连接

做法很简单。每一层在输出的时候,把「这一层算出来的新数字」和「上一层传过来的原始数字」加在一起,再传给下一层

 一个简单的示意图
打开网易新闻 查看精彩图片
一个简单的示意图

这样,不管网络有多深,最开始的信息都能一路传到底

过去十年,几乎所有大模型都在用

字节的想法:一条路不够,搞四条

2024 年,字节发了一篇论文叫 Hyper-Connections(HC),入选了 ICLR 2025

他们说,一条残差通道不够用,要把这条路拓宽成四条,还得并行

同时的,这四条通道之间,可以互相交换信息,通过一个可学习的矩阵来混合

 三种连接方式对比:左边是传统残差,中间是 HC,右边是 DeepSeek 的 mHC
打开网易新闻 查看精彩图片
三种连接方式对比:左边是传统残差,中间是 HC,右边是 DeepSeek 的 mHC

听起来很合理,小模型上的实验效果也确实好

但...

 boom 问题:信号爆炸
打开网易新闻 查看精彩图片
boom 问题:信号爆炸

那个用来混合信息的矩阵,完全可学习,没有任何约束

一层没事,两层也还行

但层数一多,矩阵一乘,信号就飞了

信息每过一层,都要被这个矩阵处理一次。矩阵乘矩阵,再乘矩阵...

DeepSeek 在 27B 模型上复现了这个问题

训练到 12000 步左右,loss 突然飙升,梯度剧烈震荡,训练崩了

 27B 模型训练曲线,HC 在 12k 步附近崩了
打开网易新闻 查看精彩图片
27B 模型训练曲线,HC 在 12k 步附近崩了

论文里给了一个指标,衡量信号在传递过程中被放大了多少倍

HC 在 27B 模型上,这个数能到多少?
3000 倍(理想情况下,不应该放大)

 HC 的信号增益能飙到 3000 mHC:加一个约束
打开网易新闻 查看精彩图片
HC 的信号增益能飙到 3000 mHC:加一个约束

DeepSeek 的思路很直接
问题出在矩阵没有约束,那就加约束

加什么约束?
双随机矩阵

这个矩阵有个特点:
所有元素加起来,每一行的和等于 1,每一列的和也等于 1

换句话说,信息经过这个矩阵,可以在四条通道之间重新分配,但总量不变

信息可以流动,但总量守恒

不管模型有多少层,信号都不会爆炸,也不会消失

用了这个约束之后,27B 模型上的信号放大倍数从 3000 降到了 1.6

 mHC 的信号增益稳定在 1 附近性
打开网易新闻 查看精彩图片
mHC 的信号增益稳定在 1 附近性

这就是 mHC
m 代表 Manifold,流形约束

工程优化

四条通道,意味着四倍的数据读写量

DeepSeek 做了一系列工程优化:内核融合重计算策略流水线调度...

细节不展开了

最终结果:
额外的训练时间开销只有 6.7%

实验效果

27B 模型,mHC 对比传统残差连接,loss 下降 0.021

下游任务上,推理能力(BBH)提升 2.1%,阅读理解(DROP)提升 2.3%

训练全程稳定

 mHC 稳定下降,没崩 说回这篇论文
打开网易新闻 查看精彩图片
mHC 稳定下降,没崩 说回这篇论文

字节的 HC 提出了一个好想法:把残差通道变宽
但没解决大规模训练的稳定性问题

DeepSeek 给出了数学上干净的解法,然后在工程上把开销压到了可接受的范围

这篇论文透露的信息:DeepSeek 在认真搞架构层的优化

下一代模型,DeepSeek 会不会用 mHC?不知道

但显然,他们在这个方向有投入