★ 设为星标 | 只讲人话,带你玩转AIGC。
今天是元旦,DeepSeek 又扔了个王炸。
本来准备躺平过节(嗯,是真的躺着了),结果睁眼发现一篇新论文 mHC(流形约束超连接)突然刷屏。
我看了一眼作者列表,直接“垂死病中惊坐起”——最后一位赫然写着:Wenfeng Liang(梁文锋)。
图:DeepSeek CEO 梁文峰署名
熟悉 DeepSeek 的都知道,这位 CEO 极少在技术论文上亲自署名。
老板亲自挂帅,还选在新年第一天发,说明这事儿绝对不简单。
读完我才发现,他们这次竟然要革深度学习祖师爷 ResNet 的命。
听起来很狂?但我研究了一下原理,发现这帮人是真有东西。
01|从何恺明的“神来之笔”说起
要看懂 DeepSeek 的操作,我们得先回看一眼历史。
2016年,大神何恺明(Kaiming He) 团队提出了 ResNet,彻底解决了深层网络训练不动的难题。
其中的核心设计叫“恒等映射”。
图:何恺明,深度残差网络(ResNet)的主要发明者
打个比方,这就像在迷宫里修了一条“直通车道”。信号可以无脑地从这一层传到下一层,不被中间商赚差价。
正是因为有了这条路,今天的 ChatGPT、DeepSeek 这些几百层的庞然大物才跑得起来。
但问题是,对于现在胃口越来越大的模型来说,这一条“单车道”渐渐不够用了。
于是,学术界搞出了一个叫 HC(Hyper-Connections,超连接) 的东西。
HC 的想法很美好:既然单车道不够,那我就扩建成多车道呗!
它把残差流变宽(n倍),让信息在不同车道间乱窜、混合,以此来提升模型的能力。
图:三代架构进化史:(a) 是经典的“单车道” ResNet; (b) 是路修宽了但没红绿灯的 HC(容易撞车); (c) 是 DeepSeek 加了“交通管制”的 mHC。
但问题来了,这一扩建,出事了。
原来的 ResNet 是“直通车”,很稳。现在的 HC 变成了“无红绿灯的超级路口”。
论文里的数据特别吓人:在 HC 的架构下,信号在网络里传着传着,就会因为缺乏管束而疯狂膨胀。
看原论文里的数据,HC 的信号增益幅度峰值直接干到了 3000!(下图右侧)
图:HC 的信号增益幅度峰值直接干到了 3000
这意味着啥?意味着信号被放大了 3000 倍。
这就像早高峰的十字路口没有红绿灯,车全撞在一块了,这就是典型的“信号爆炸”。
结果就是:模型训练极其不稳定,错误率(Loss) 说炸就炸,根本没法在大规模模型上用。
02|DeepSeek 的解法:数学暴力美学
面对这种“车祸现场”,一般人的思路可能是:“那我就少修两条路吧。”
但 DeepSeek 的思路是:路我要修,但我要请一个懂数学的交警。
这就是 mHC(流形约束超连接)的核心逻辑。
他们发现,只要把那些负责指挥交通的矩阵,强行按在一个叫“双随机矩阵”的数学规则里,问题就解决了。
别被这个数学名词吓跑,它的原理其实也挺简单,就像“能量守恒定律”:
不管你在路口怎么变道、怎么混合,进来的流量总和,必须严格等于出去的流量总和。
既不允许车子凭空消失(信号衰减),也不允许凭空变出车来(信号爆炸)。
为了做到这一点,DeepSeek 用了一个叫 Sinkhorn-Knopp 的算法,像是给矩阵戴上了“紧箍咒”。
不管这矩阵原来长啥样,经过这个算法一处理,它就必须变得老老实实,行和列的加和都得等于1。
这就很漂亮了。
它保留了多车道互联带来的信息丰富度(性能提升),又把信号严格限制在了一个安全的范围内(稳定性),完美致敬了何恺明当年追求的“恒等映射”精神。
03. 效果怎么样?直接看疗效
理论吹得再好,还得看实验。
还记得刚才说 HC 的信号增益飙到了 3000 吗?
用了 mHC 之后,这个数字被死死按在了 1.6 左右。
从 3000 到 1.6,这是直接降低了三个数量级!
这也直接体现在了训练曲线上:
稳如老狗: mHC 的训练 Loss 曲线(蓝线)极其平滑,跟基线模型几乎一样稳。
图:mHC 的训练 Loss 曲线极其平滑
性能更强: 在 27B 参数的模型上,mHC 不仅稳,效果还比标准版更好。特别是在比较难的 BBH(逻辑推理)和 DROP 任务上,提升非常明显。
图:在 27B 参数的模型上,mHC 不仅稳,效果还比标准版更好。
04. 不止是数学,更是工程上的“抠门”
读 DeepSeek 的论文,你永远能感觉到他们那种“把算力榨干到最后一滴”的执着。
因为把路修宽,本来是一件非常费显存、费时间的事。
如果不做优化,内存访问成本(I/O)会增加好几倍,这谁受得了?
所以 mHC 不仅仅是一个数学创新,还是一套工程优化方案。
算子融合(Kernel Fusion): 他们手写了底层的 Kernel,把好几步计算合并成一步,减少 GPU 读写内存的次数。
重计算(Recomputing): 为了省显存,他们选择在反向传播时重新计算中间结果,而不是一直存着。
通信重叠: 利用 DualPipe 策略,把额外的通信时间“藏”在计算时间里。
结果就是:在扩展率为 4 的情况下,mHC 带来的额外训练时间开销,仅仅只有 6.7%。
用极小的代价,换来了模型性能和稳定性的双重提升。
这种“又好又省”的风格,确实很 DeepSeek。
说实话,每次读 DeepSeek 的论文都让人挺佩服的,不是那些牛逼的技术,而是他们“死磕底层”的态度。
特别是在现在,大家都忙着卷应用、卷 Agents 的时候,他们愿意回过头去修补 AI 的“地基”。
ResNet 已经统治了深度学习这么多年,大家都觉得它是完美的。
但 mHC 告诉我们:只要你不迷信权威,哪怕是地基,也有重修的可能。
mHC 这种架构,或许不会马上改变你的生活,但它可能会让下一代的 DeepSeek、GPT 跑得更稳、更快。
对于 DeepSeek 这种“硬核”的数学暴力美学,你怎么看?欢迎在评论区聊聊。
(觉得文章硬核?点个“赞”,点个♥️,假装自己看懂了)
热门跟贴