DeepSeek 今年第一篇论文，到底在讲什么？

赛博禅心

2026-01-03 23:55 ·北京

DeepSeek 在 2026 年第一篇论文，梁文峰署名

让「多流残差」这个好想法，能真正在大模型上跑起来

私底下，某巨佬评价道：“牛逼”

https://arxiv.org/abs/2512.24880

要理解这篇论文，得先知道 Transformer 里的信息是怎么传的

Transformer 里的信息流

你问 ChatGPT 一个问题：今天天气怎么样，它怎么回答你的？

问题拆成一个个小单元，比如「今天」「天气」「怎么样」这样的片段

，可以点击下面的 svg，模拟交互

然后，每个片段会被转成一组向量，进入 Transformer，开始进行处理

数字从第一层进去，经过处理，传到第二层，再处理，再传到第三层...一直传到最后一层

最后一层输出的数字，决定了模型接下来要生成哪个词

大概就是这样

这个过程会循环往复，直到所有文字都生成完毕

你看到 ChatGPT 一个字一个字往外蹦，就是这个过程

所以中间这几十层的传递很关键。传到最后的数字如果不对，生成的内容就会跑偏

问题来了：层数一多，数字在传递过程中会越来越小，甚至趋近于零
传到后面，前面的信息就丢了

2015 年，ResNet 提出了一个办法：残差连接

做法很简单。每一层在输出的时候，把「这一层算出来的新数字」和「上一层传过来的原始数字」加在一起，再传给下一层

一个简单的示意图

这样，不管网络有多深，最开始的信息都能一路传到底

过去十年，几乎所有大模型都在用

字节的想法：一条路不够，搞四条

2024 年，字节发了一篇论文叫 Hyper-Connections（HC），入选了 ICLR 2025

他们说，一条残差通道不够用，要把这条路拓宽成四条，还得并行

同时的，这四条通道之间，可以互相交换信息，通过一个可学习的矩阵来混合

三种连接方式对比：左边是传统残差，中间是 HC，右边是 DeepSeek 的 mHC

听起来很合理，小模型上的实验效果也确实好

但...

boom 问题：信号爆炸

那个用来混合信息的矩阵，完全可学习，没有任何约束

一层没事，两层也还行

但层数一多，矩阵一乘，信号就飞了

信息每过一层，都要被这个矩阵处理一次。矩阵乘矩阵，再乘矩阵...

DeepSeek 在 27B 模型上复现了这个问题

训练到 12000 步左右，loss 突然飙升，梯度剧烈震荡，训练崩了

27B 模型训练曲线，HC 在 12k 步附近崩了

论文里给了一个指标，衡量信号在传递过程中被放大了多少倍

HC 在 27B 模型上，这个数能到多少？
3000 倍（理想情况下，不应该放大）

HC 的信号增益能飙到 3000 mHC：加一个约束

DeepSeek 的思路很直接
问题出在矩阵没有约束，那就加约束

加什么约束？
双随机矩阵

这个矩阵有个特点：
所有元素加起来，每一行的和等于 1，每一列的和也等于 1

换句话说，信息经过这个矩阵，可以在四条通道之间重新分配，但总量不变

信息可以流动，但总量守恒

不管模型有多少层，信号都不会爆炸，也不会消失

用了这个约束之后，27B 模型上的信号放大倍数从 3000 降到了 1.6

mHC 的信号增益稳定在 1 附近性

这就是 mHC
m 代表 Manifold，流形约束

工程优化

四条通道，意味着四倍的数据读写量

DeepSeek 做了一系列工程优化：内核融合、重计算策略、流水线调度...

细节不展开了

最终结果：
额外的训练时间开销只有 6.7%

实验效果

27B 模型，mHC 对比传统残差连接，loss 下降 0.021

下游任务上，推理能力（BBH）提升 2.1%，阅读理解（DROP）提升 2.3%

训练全程稳定

mHC 稳定下降，没崩说回这篇论文

字节的 HC 提出了一个好想法：把残差通道变宽
但没解决大规模训练的稳定性问题

DeepSeek 给出了数学上干净的解法，然后在工程上把开销压到了可接受的范围

这篇论文透露的信息：DeepSeek 在认真搞架构层的优化

下一代模型，DeepSeek 会不会用 mHC？不知道

但显然，他们在这个方向有投入

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴