25年最后一天, deepseek 奉上了新年礼物 mHC,又是新的网络结构

如果不负责任地猜一下,这种对底层架构的深度魔改,加上他们之前MoE的积累,没准DeepSeek V4真的要搞个大新闻。

DeepSeek是真的厉害,要搞就搞底层创新,搞完MoE,现在盯上Transformer最基础的下水道:残差连接(Residual Connection)。

打开网易新闻 查看精彩图片

1、为什么要搞mHC

自从ResNet出来以后,残差连接就是深度学习的标配。Identity Mapping(恒等映射)保证了信号能无损传到深层,模型才能堆得深。

24年字节搞了个Hyper-Connections,觉得原来的残差流太细,信息不够跑。于是把残差流宽度扩大n倍(比如4倍),还加了各种可学习的线性映射矩阵(HH)来混合不同流的信息。这就好比把原来的单车道扩建成了四车道高速公路,不仅宽,车还能变道。

问题来了: 路是宽了,但车速控制不住了。原来那套完美的Identity Mapping属性被破坏了。当你层数一深,这些不受约束的矩阵乘起来,信号要么消失要么爆炸。图里HC跑到12k步loss直接起飞,梯度乱跳。显存访问开销也因为通道变宽暴增,撞上了Memory Wall。

打开网易新闻 查看精彩图片

2、核心思路:把矩阵关进“流形”里(Manifold Constraint)

这部分是论文的理论高光。DeepSeek这次的做法,给混合矩阵加约束,强制它必须是双随机矩阵(Doubly Stochastic Matrix)。

妙在哪里?1️⃣从几何角度,这相当于把信号的传递变成了一种“凸组合”。你可以把它想象成一种能量守恒系统,信号在层与层之间传递时,总量被严格控制住了,既不会凭空放大也不会莫名衰减。2️⃣ 双随机矩阵的谱范数≤1,意味着不会放大信号,梯度爆炸的风险大大降低。3️⃣多个双随机矩阵连乘,结果还是双随机矩阵,所以深层网络也能保持稳定

实现上用经典的Sinkhorn-Knopp算法,反复做行列归一化,迭代20次就够了。

打开网易新闻 查看精彩图片

3、工程优化

mHC显然需要大量对应的工程优化才能 work, 而且DeepSeek显然是要在实际生产环境里用这东西的,所以花了不少篇幅讲工程实现。

几个关键优化:Kernel Fusion(算子融合)、Recomputing(重计算)、DualPipe通信重叠(dualpipe 是 v3提的) 等等。

最终效果:在n=4时,mHC只增加6.7%的训练时间开销。这个数字对于大规模训练来说是可以接受的。

主要看27B模型的结果:

loss比baseline降0.021,比HC稳

梯度范数平稳,HC则剧烈波动

BBH、DROP、GSM8K等benchmark全面超baseline,多数超HC

信号增益幅度从HC的约3000降到约1.6,三个数量级

在 scaling实验中还做了3B、9B的模型,说明这套方法在大模型上是通用的,且随着算力增加优势依然存在,期待在百 b 甚至 T 以上的模型效果

感觉又要搞一波大的(是不是今年春节,DeepSeek V4要来了?)

作者:AI Dance