★ 设为星标 | 只讲人话,带你玩转AIGC。

今天是元旦,DeepSeek 又扔了个王炸

本来准备躺平过节(嗯,是真的躺着了),结果睁眼发现一篇新论文 mHC(流形约束超连接)突然刷屏。

我看了一眼作者列表,直接“垂死病中惊坐起”——最后一位赫然写着:Wenfeng Liang(梁文锋)。

打开网易新闻 查看精彩图片

图:DeepSeek CEO 梁文峰署名

熟悉 DeepSeek 的都知道,这位 CEO 极少在技术论文上亲自署名。

老板亲自挂帅,还选在新年第一天发,说明这事儿绝对不简单。

读完我才发现,他们这次竟然要革深度学习祖师爷 ResNet 的命。

听起来很狂?但我研究了一下原理,发现这帮人是真有东西。

01|从何恺明的“神来之笔”说起

要看懂 DeepSeek 的操作,我们得先回看一眼历史。

2016年,大神何恺明(Kaiming He) 团队提出了 ResNet,彻底解决了深层网络训练不动的难题。

其中的核心设计叫“恒等映射”。

打开网易新闻 查看精彩图片

图:何恺明,深度残差网络(ResNet)的主要发明者

打个比方,这就像在迷宫里修了一条“直通车道”。信号可以无脑地从这一层传到下一层,不被中间商赚差价。

正是因为有了这条路,今天的 ChatGPT、DeepSeek 这些几百层的庞然大物才跑得起来。

但问题是,对于现在胃口越来越大的模型来说,这一条“单车道”渐渐不够用了。

于是,学术界搞出了一个叫 HC(Hyper-Connections,超连接) 的东西。

HC 的想法很美好:既然单车道不够,那我就扩建成多车道呗!

它把残差流变宽(n倍),让信息在不同车道间乱窜、混合,以此来提升模型的能力。

打开网易新闻 查看精彩图片

图:三代架构进化史:(a) 是经典的“单车道” ResNet; (b) 是路修宽了但没红绿灯的 HC(容易撞车); (c) 是 DeepSeek 加了“交通管制”的 mHC。

但问题来了,这一扩建,出事了。

原来的 ResNet 是“直通车”,很稳。现在的 HC 变成了“无红绿灯的超级路口”。

论文里的数据特别吓人:在 HC 的架构下,信号在网络里传着传着,就会因为缺乏管束而疯狂膨胀。

看原论文里的数据,HC 的信号增益幅度峰值直接干到了 3000!(下图右侧)

打开网易新闻 查看精彩图片

图:HC 的信号增益幅度峰值直接干到了 3000

这意味着啥?意味着信号被放大了 3000 倍。

这就像早高峰的十字路口没有红绿灯,车全撞在一块了,这就是典型的“信号爆炸”。

结果就是:模型训练极其不稳定,错误率(Loss) 说炸就炸,根本没法在大规模模型上用。

02|DeepSeek 的解法:数学暴力美学

面对这种“车祸现场”,一般人的思路可能是:“那我就少修两条路吧。”

但 DeepSeek 的思路是:路我要修,但我要请一个懂数学的交警。

这就是 mHC(流形约束超连接)的核心逻辑。

他们发现,只要把那些负责指挥交通的矩阵,强行按在一个叫“双随机矩阵”的数学规则里,问题就解决了。

别被这个数学名词吓跑,它的原理其实也挺简单,就像“能量守恒定律”:

不管你在路口怎么变道、怎么混合,进来的流量总和,必须严格等于出去的流量总和。

既不允许车子凭空消失(信号衰减),也不允许凭空变出车来(信号爆炸)。

为了做到这一点,DeepSeek 用了一个叫 Sinkhorn-Knopp 的算法,像是给矩阵戴上了“紧箍咒”。

不管这矩阵原来长啥样,经过这个算法一处理,它就必须变得老老实实,行和列的加和都得等于1。

这就很漂亮了。

它保留了多车道互联带来的信息丰富度(性能提升),又把信号严格限制在了一个安全的范围内(稳定性),完美致敬了何恺明当年追求的“恒等映射”精神。

03. 效果怎么样?直接看疗效

理论吹得再好,还得看实验。

还记得刚才说 HC 的信号增益飙到了 3000 吗?

用了 mHC 之后,这个数字被死死按在了 1.6 左右。

打开网易新闻 查看精彩图片

从 3000 到 1.6,这是直接降低了三个数量级!

这也直接体现在了训练曲线上:

稳如老狗: mHC 的训练 Loss 曲线(蓝线)极其平滑,跟基线模型几乎一样稳。

打开网易新闻 查看精彩图片

图:mHC 的训练 Loss 曲线极其平滑

性能更强: 在 27B 参数的模型上,mHC 不仅稳,效果还比标准版更好。特别是在比较难的 BBH(逻辑推理)和 DROP 任务上,提升非常明显。

打开网易新闻 查看精彩图片

图:在 27B 参数的模型上,mHC 不仅稳,效果还比标准版更好。

04. 不止是数学,更是工程上的“抠门”

读 DeepSeek 的论文,你永远能感觉到他们那种“把算力榨干到最后一滴”的执着。

因为把路修宽,本来是一件非常费显存、费时间的事。

如果不做优化,内存访问成本(I/O)会增加好几倍,这谁受得了?

所以 mHC 不仅仅是一个数学创新,还是一套工程优化方案。

算子融合(Kernel Fusion): 他们手写了底层的 Kernel,把好几步计算合并成一步,减少 GPU 读写内存的次数。

重计算(Recomputing): 为了省显存,他们选择在反向传播时重新计算中间结果,而不是一直存着。

通信重叠: 利用 DualPipe 策略,把额外的通信时间“藏”在计算时间里。

结果就是:在扩展率为 4 的情况下,mHC 带来的额外训练时间开销,仅仅只有 6.7%。

用极小的代价,换来了模型性能和稳定性的双重提升。

这种“又好又省”的风格,确实很 DeepSeek。

说实话,每次读 DeepSeek 的论文都让人挺佩服的,不是那些牛逼的技术,而是他们“死磕底层”的态度。

特别是在现在,大家都忙着卷应用、卷 Agents 的时候,他们愿意回过头去修补 AI 的“地基”。

ResNet 已经统治了深度学习这么多年,大家都觉得它是完美的。

但 mHC 告诉我们:只要你不迷信权威,哪怕是地基,也有重修的可能。

mHC 这种架构,或许不会马上改变你的生活,但它可能会让下一代的 DeepSeek、GPT 跑得更稳、更快。

对于 DeepSeek 这种“硬核”的数学暴力美学,你怎么看?欢迎在评论区聊聊。

(觉得文章硬核?点个“赞”,点个♥️,假装自己看懂了)