DeepSeek 元旦扔出王炸！CEO 梁文锋亲自署名，要动 AI 用了 10 年的“承重墙”？

AI范儿

2026-01-01 20:56 ·上海 ·优质互联网领域创作者

★ 设为星标 | 只讲人话，带你玩转AIGC。

今天是元旦，DeepSeek 又扔了个王炸。

本来准备躺平过节（嗯，是真的躺着了），结果睁眼发现一篇新论文 mHC（流形约束超连接）突然刷屏。

我看了一眼作者列表，直接“垂死病中惊坐起”——最后一位赫然写着：Wenfeng Liang（梁文锋）。

图：DeepSeek CEO 梁文峰署名

熟悉 DeepSeek 的都知道，这位 CEO 极少在技术论文上亲自署名。

老板亲自挂帅，还选在新年第一天发，说明这事儿绝对不简单。

读完我才发现，他们这次竟然要革深度学习祖师爷 ResNet 的命。

听起来很狂？但我研究了一下原理，发现这帮人是真有东西。

01｜从何恺明的“神来之笔”说起

要看懂 DeepSeek 的操作，我们得先回看一眼历史。

2016年，大神何恺明（Kaiming He）团队提出了 ResNet，彻底解决了深层网络训练不动的难题。

其中的核心设计叫“恒等映射”。

图：何恺明，深度残差网络（ResNet）的主要发明者

打个比方，这就像在迷宫里修了一条“直通车道”。信号可以无脑地从这一层传到下一层，不被中间商赚差价。

正是因为有了这条路，今天的 ChatGPT、DeepSeek 这些几百层的庞然大物才跑得起来。

但问题是，对于现在胃口越来越大的模型来说，这一条“单车道”渐渐不够用了。

于是，学术界搞出了一个叫 HC（Hyper-Connections，超连接）的东西。

HC 的想法很美好：既然单车道不够，那我就扩建成多车道呗！

它把残差流变宽（n倍），让信息在不同车道间乱窜、混合，以此来提升模型的能力。

图：三代架构进化史：(a) 是经典的“单车道” ResNet； (b) 是路修宽了但没红绿灯的 HC（容易撞车）； (c) 是 DeepSeek 加了“交通管制”的 mHC。

但问题来了，这一扩建，出事了。

原来的 ResNet 是“直通车”，很稳。现在的 HC 变成了“无红绿灯的超级路口”。

论文里的数据特别吓人：在 HC 的架构下，信号在网络里传着传着，就会因为缺乏管束而疯狂膨胀。

看原论文里的数据，HC 的信号增益幅度峰值直接干到了 3000！（下图右侧）

图：HC 的信号增益幅度峰值直接干到了 3000

这意味着啥？意味着信号被放大了 3000 倍。

这就像早高峰的十字路口没有红绿灯，车全撞在一块了，这就是典型的“信号爆炸”。

结果就是：模型训练极其不稳定，错误率（Loss）说炸就炸，根本没法在大规模模型上用。

02｜DeepSeek 的解法：数学暴力美学

面对这种“车祸现场”，一般人的思路可能是：“那我就少修两条路吧。”

但 DeepSeek 的思路是：路我要修，但我要请一个懂数学的交警。

这就是 mHC（流形约束超连接）的核心逻辑。

他们发现，只要把那些负责指挥交通的矩阵，强行按在一个叫“双随机矩阵”的数学规则里，问题就解决了。

别被这个数学名词吓跑，它的原理其实也挺简单，就像“能量守恒定律”：

不管你在路口怎么变道、怎么混合，进来的流量总和，必须严格等于出去的流量总和。

既不允许车子凭空消失（信号衰减），也不允许凭空变出车来（信号爆炸）。

为了做到这一点，DeepSeek 用了一个叫 Sinkhorn-Knopp 的算法，像是给矩阵戴上了“紧箍咒”。

不管这矩阵原来长啥样，经过这个算法一处理，它就必须变得老老实实，行和列的加和都得等于1。

这就很漂亮了。

它保留了多车道互联带来的信息丰富度（性能提升），又把信号严格限制在了一个安全的范围内（稳定性），完美致敬了何恺明当年追求的“恒等映射”精神。

03. 效果怎么样？直接看疗效

理论吹得再好，还得看实验。

还记得刚才说 HC 的信号增益飙到了 3000 吗？

用了 mHC 之后，这个数字被死死按在了 1.6 左右。

从 3000 到 1.6，这是直接降低了三个数量级！

这也直接体现在了训练曲线上：

稳如老狗： mHC 的训练 Loss 曲线（蓝线）极其平滑，跟基线模型几乎一样稳。

图：mHC 的训练 Loss 曲线极其平滑

性能更强：在 27B 参数的模型上，mHC 不仅稳，效果还比标准版更好。特别是在比较难的 BBH（逻辑推理）和 DROP 任务上，提升非常明显。

图：在 27B 参数的模型上，mHC 不仅稳，效果还比标准版更好。

04. 不止是数学，更是工程上的“抠门”

读 DeepSeek 的论文，你永远能感觉到他们那种“把算力榨干到最后一滴”的执着。

因为把路修宽，本来是一件非常费显存、费时间的事。

如果不做优化，内存访问成本（I/O）会增加好几倍，这谁受得了？

所以 mHC 不仅仅是一个数学创新，还是一套工程优化方案。

算子融合（Kernel Fusion）：他们手写了底层的 Kernel，把好几步计算合并成一步，减少 GPU 读写内存的次数。

重计算（Recomputing）：为了省显存，他们选择在反向传播时重新计算中间结果，而不是一直存着。

通信重叠：利用 DualPipe 策略，把额外的通信时间“藏”在计算时间里。

结果就是：在扩展率为 4 的情况下，mHC 带来的额外训练时间开销，仅仅只有 6.7%。

用极小的代价，换来了模型性能和稳定性的双重提升。

这种“又好又省”的风格，确实很 DeepSeek。

说实话，每次读 DeepSeek 的论文都让人挺佩服的，不是那些牛逼的技术，而是他们“死磕底层”的态度。

特别是在现在，大家都忙着卷应用、卷 Agents 的时候，他们愿意回过头去修补 AI 的“地基”。

ResNet 已经统治了深度学习这么多年，大家都觉得它是完美的。

但 mHC 告诉我们：只要你不迷信权威，哪怕是地基，也有重修的可能。

mHC 这种架构，或许不会马上改变你的生活，但它可能会让下一代的 DeepSeek、GPT 跑得更稳、更快。

对于 DeepSeek 这种“硬核”的数学暴力美学，你怎么看？欢迎在评论区聊聊。

(觉得文章硬核？点个“赞”，点个♥️，假装自己看懂了)

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴