DeepSeek 在 2026 年第一篇论文,梁文峰署名
让「多流残差」这个好想法,能真正在大模型上跑起来
私底下,某巨佬评价道:“牛逼”
要理解这篇论文,得先知道 Transformer 里的信息是怎么传的
Transformer 里的信息流
你问 ChatGPT 一个问题:今天天气怎么样,它怎么回答你的?
问题拆成一个个小单元,比如「今天」「天气」「怎么样」这样的片段
,可以点击下面的 svg,模拟交互
然后,每个片段会被转成一组向量,进入 Transformer,开始进行处理
数字从第一层进去,经过处理,传到第二层,再处理,再传到第三层...一直传到最后一层
最后一层输出的数字,决定了模型接下来要生成哪个词
这个过程会循环往复,直到所有文字都生成完毕
你看到 ChatGPT 一个字一个字往外蹦,就是这个过程
所以中间这几十层的传递很关键。传到最后的数字如果不对,生成的内容就会跑偏
问题来了:层数一多,数字在传递过程中会越来越小,甚至趋近于零
传到后面,前面的信息就丢了
2015 年,ResNet 提出了一个办法:残差连接
做法很简单。每一层在输出的时候,把「这一层算出来的新数字」和「上一层传过来的原始数字」加在一起,再传给下一层
这样,不管网络有多深,最开始的信息都能一路传到底
过去十年,几乎所有大模型都在用
字节的想法:一条路不够,搞四条
2024 年,字节发了一篇论文叫 Hyper-Connections(HC),入选了 ICLR 2025
他们说,一条残差通道不够用,要把这条路拓宽成四条,还得并行
同时的,这四条通道之间,可以互相交换信息,通过一个可学习的矩阵来混合
听起来很合理,小模型上的实验效果也确实好
但...
那个用来混合信息的矩阵,完全可学习,没有任何约束
一层没事,两层也还行
但层数一多,矩阵一乘,信号就飞了
信息每过一层,都要被这个矩阵处理一次。矩阵乘矩阵,再乘矩阵...
DeepSeek 在 27B 模型上复现了这个问题
训练到 12000 步左右,loss 突然飙升,梯度剧烈震荡,训练崩了
论文里给了一个指标,衡量信号在传递过程中被放大了多少倍
HC 在 27B 模型上,这个数能到多少?3000 倍(理想情况下,不应该放大)
DeepSeek 的思路很直接
问题出在矩阵没有约束,那就加约束
加什么约束?
双随机矩阵
这个矩阵有个特点:所有元素加起来,每一行的和等于 1,每一列的和也等于 1
换句话说,信息经过这个矩阵,可以在四条通道之间重新分配,但总量不变
信息可以流动,但总量守恒
不管模型有多少层,信号都不会爆炸,也不会消失
用了这个约束之后,27B 模型上的信号放大倍数从 3000 降到了 1.6
这就是 mHC
m 代表 Manifold,流形约束
工程优化
四条通道,意味着四倍的数据读写量
DeepSeek 做了一系列工程优化:内核融合、重计算策略、流水线调度...
细节不展开了
最终结果:
额外的训练时间开销只有 6.7%
实验效果
27B 模型,mHC 对比传统残差连接,loss 下降 0.021
下游任务上,推理能力(BBH)提升 2.1%,阅读理解(DROP)提升 2.3%
训练全程稳定
字节的 HC 提出了一个好想法:把残差通道变宽
但没解决大规模训练的稳定性问题
DeepSeek 给出了数学上干净的解法,然后在工程上把开销压到了可接受的范围
这篇论文透露的信息:DeepSeek 在认真搞架构层的优化
下一代模型,DeepSeek 会不会用 mHC?不知道
但显然,他们在这个方向有投入
热门跟贴