DeepSeek 把人工智能的下水道打通了

知识圈

2026-01-01 20:57 ·北京

25年最后一天， deepseek 奉上了新年礼物 mHC，又是新的网络结构

如果不负责任地猜一下，这种对底层架构的深度魔改，加上他们之前MoE的积累，没准DeepSeek V4真的要搞个大新闻。

DeepSeek是真的厉害，要搞就搞底层创新，搞完MoE，现在盯上Transformer最基础的下水道：残差连接（Residual Connection）。

1、为什么要搞mHC

自从ResNet出来以后，残差连接就是深度学习的标配。Identity Mapping（恒等映射）保证了信号能无损传到深层，模型才能堆得深。

24年字节搞了个Hyper-Connections，觉得原来的残差流太细，信息不够跑。于是把残差流宽度扩大n倍（比如4倍），还加了各种可学习的线性映射矩阵（HH）来混合不同流的信息。这就好比把原来的单车道扩建成了四车道高速公路，不仅宽，车还能变道。

问题来了：路是宽了，但车速控制不住了。原来那套完美的Identity Mapping属性被破坏了。当你层数一深，这些不受约束的矩阵乘起来，信号要么消失要么爆炸。图里HC跑到12k步loss直接起飞，梯度乱跳。显存访问开销也因为通道变宽暴增，撞上了Memory Wall。

2、核心思路：把矩阵关进“流形”里（Manifold Constraint）

这部分是论文的理论高光。DeepSeek这次的做法，给混合矩阵加约束，强制它必须是双随机矩阵（Doubly Stochastic Matrix）。

妙在哪里？1️⃣从几何角度，这相当于把信号的传递变成了一种“凸组合”。你可以把它想象成一种能量守恒系统，信号在层与层之间传递时，总量被严格控制住了，既不会凭空放大也不会莫名衰减。2️⃣ 双随机矩阵的谱范数≤1，意味着不会放大信号，梯度爆炸的风险大大降低。3️⃣多个双随机矩阵连乘，结果还是双随机矩阵，所以深层网络也能保持稳定

实现上用经典的Sinkhorn-Knopp算法，反复做行列归一化，迭代20次就够了。

3、工程优化

mHC显然需要大量对应的工程优化才能 work，而且DeepSeek显然是要在实际生产环境里用这东西的，所以花了不少篇幅讲工程实现。

几个关键优化：Kernel Fusion（算子融合）、Recomputing（重计算）、DualPipe通信重叠（dualpipe 是 v3提的）等等。

最终效果：在n=4时，mHC只增加6.7%的训练时间开销。这个数字对于大规模训练来说是可以接受的。

主要看27B模型的结果：

loss比baseline降0.021，比HC稳

梯度范数平稳，HC则剧烈波动

BBH、DROP、GSM8K等benchmark全面超baseline，多数超HC

信号增益幅度从HC的约3000降到约1.6，三个数量级

在 scaling实验中还做了3B、9B的模型，说明这套方法在大模型上是通用的，且随着算力增加优势依然存在，期待在百 b 甚至 T 以上的模型效果

感觉又要搞一波大的（是不是今年春节，DeepSeek V4要来了？）

作者：AI Dance