过去半年以来,大家都在等DeepSeek再次放大招,但是似乎并没有让人特别惊艳的进展,再次横空出世。
等2026年的新年刚翻页,DeepSeek 并没有像外界期待的那样发布新模型、刷榜单、秀参数,而是做了一件更加踢馆炸街的大事,在 arXiv上发表了一篇最重磅的论文。
这一点非常关键。因为arXiv 从来就不是给市场看的地方,它是全球科研共同体默认的“原始技术水源”。
能选择在这里发声,说明这一次DeepSeek 想讨论的,不是大模型的应用效果了,而是以前的规则本身,能不能继续成立,还能不能继续创新的问题。
但如果你顺着论文真正想解决的问题往下拆,你会发现,这一次DeepSeek 实际上是在正面回答一个,过去两年几乎所有大模型公司都在刻意回避的问题:
大模型,还能不能继续稳定地变大?
注意,这里不是“还能不能继续变强”,而是“还能不能稳定”的变大的问题。这是两个完全不同的命题。
过去十年,整个深度学习体系有一个几乎没人再质疑的默认前提:只要模型足够深、足够宽,只要算力和数据能跟上,训练的效果就一定能出来。参数规模,等于能力上限。这个逻辑,支撑了从ResNet 到 Transformer,再到今天所有大模型的扩张路径。
但这个逻辑并不是天然成立的,它背后依赖的,其实是一项极其关键、却早已被视为“空气”的基础设施——残差连接。
如果没有残差连接,今天你看到的所有GPT、Claude、Gemini、LLaMA,根本不可能存在。
关于残差连接,我们得把这个来龙去脉和底层逻辑说清楚。
在残差连接出现之前,神经网络一旦加深之后,训练就会迅速失控。不是算力不够,而是梯度在层层传递中不断衰减、扭曲,信息根本传不到该去的地方。这一点工程上表现得非常直观:loss 不收敛、效果倒退、调参调到崩溃。
参差连接的伟大之处,在于它做了一件极其简单、却极其反直觉的事:
它不要求每一层都必须“学到东西”,而是允许它什么都不学。
输出不再是f(x),而是x + f(x)。
那条“+ x”,就是一条信息的保命通道。
只要这条通道在,哪怕这一层的参数全错,信息至少还能原样往下走。也正是因为这一点,网络才第一次具备了“无限加深”的工程可能性。
换句话来说,残差连接的作用,不是为了提高上限,而是为了防止系统出现崩溃。
但是,问题也恰恰出在这里。
残差连接就像一条单向的高速公路。当模型规模越来越大、任务越来越复杂,人们开始逐渐意识到:这种单一、线性的残差信息通道,虽然稳,但可能已经不够用了。
现实世界的信息处理,从来不是一条直线。复杂认知一定是多层信息、多路径并行、交叉作用的结果。而传统残差连接,本质上是一条极其干净、极其保守的高速路,它可以保证不出事故,但是同时也限制了交通运行的复杂度。
这正是Hyper-Connections(HC)出现的背景。
HC 的出发点,是非常清晰:既然信息不该只在相邻层之间流动,那为什么不让多层之间直接建立连接?让不同深度的特征充分混合,理论上模型的表达能力会大幅提升。
从研究的动机上看,这条路设是完全正确的选择。从实验的直觉上看,它也确实有效。但HC 真正的问题,不在于“连得多”,而在于它动了残差连接的底座。
为了实现多层混合,HC 把原本的恒等映射 x → x,变成了 x → W·x。也就是说。那条原本不参与学习、不容易出错的信息高速路,被强行加上了一个可学习的变换矩阵。
听起来只是多了一步线性映射,但是这一步,在工程层面,带来的变化是巨大的。
因为一旦W 学错了,那么信息就不再是“至少能通过”,而是必然会被扭曲。原来残差连接提供的是“兜底信息机制”,现在这个兜底的机制被拆掉了。
于是你会看到一个非常典型的现象:HC 在小模型、小规模实验中表现十分亮眼;但是模型一放大、层数一加深,训练立刻开始变得不稳定了。算力越多、参数越大,问题反而暴露得越快。
这其实暴露了一个更深层的问题:大模型表达能力的提升,正在侵蚀系统原有的稳定性。
于是,这一次,针对这个问题,DeepSeek 做了一件非常值得玩味,也非常“硬核”的事。
它没有否定HC,也没有退回传统残差连接的安全区,而是直接选择了一个从数学层面重新立规矩的路径。它这次给出的答案,核心思路只有一句话:HC,你可以连得更加复杂,但你不能破坏信息守恒。
于是,DeepSeek 的mHC 出现了。
DeepSeek 把残差路径中的映射矩阵,强行约束到了一个特定的数学空间里——Birkhoff 多面体。这个空间里所有矩阵,都满足一个极其重要的性质:它们是双随机矩阵。
双随机矩阵如果不用数学语言解释,这到底意味着什么?意味着信息不会被放大,也不会被压缩,只会在不同通道之间重新分配。意味着信息的“总量”,是被锁死了。
实现这一步的工程意义,可以说非常直接而重大,因为无论你怎么设计复杂的信息连接,残差信息都不会被破坏;也就意味着无论模型变得多大,梯度都不会因为残差路径而失控。
所以,mHC 的本质,不是让模型变得更“聪明”,而是让模型在复杂化之后,系统依然可控。
具体的实验结果,也非常耐人寻味:模型规模越大,mHC 相对于传统 HC 的优势越明显。那么不得不承认,这是一个极其关键的信号,因为它说明,mHC的解决方案,这不是一个小技巧,而是一种随规模放大的结构优势。
到这里,如果我们只站在技术视角来理解的话,这已经是一篇很扎实的论文了。但如果我们再次切换到资本市场的视角,你会发现,这件事的意义要大得多。
过去两年,大模型竞争在资本层面的逻辑其实非常单一:谁能拿到更多钱,谁能买到更多卡,谁就有更大的胜率。
这是一种极端依赖资本投入的竞争模式,它的隐含前提是:算力投入的边际效率始终成立。只要你愿意烧钱,就一定能换来能力。
而mHC 这类工作的真正冲击在于:它开始动摇这个前提。因为训练不稳定,本身就是最大的隐性成本。一次失败的大规模训练,消耗的不只是算力,还有时间、团队节奏、资本耐心,以及市场的窗口期。
大模型具备更稳定的结构,到底意味着什么?意味着花同样的钱,可以换来的是更确定的结果;意味着扩张不是资本的博弈,而是工程化的决策和手段;意味着大模型的规模优势,开始从资源垄断,算力优势,转向“结构设计”能力了。
这种情况会直接改变三件事。第一,算力的绝对优势,会被结构效率部分对冲。第二,工程能力,会重新成为大模型公司的核心壁垒。第三,大模型竞争的重心,会从“谁更有钱有卡”,慢慢转向“谁更不容易崩”。
从这个角度看,DeepSeek 这篇论文,真正的价值不在于 mHC 本身,而在于它所代表的技术方向选择。
它没有在参数规模上,去硬刚美国,也没有在应用层面追热点,而是提前一步,把注意力放在了一个更长期,也更底层的问题上:当模型继续变大的确定性开始下降,新的系统的确定性,到底从哪里来?
DeepSeek借助mHC,给出的答案,是结构的约束,是工程的理性,是在复杂系统里主动引入“安全边界”。
这件事,对DeepSeek 自身的战略价值也非常清晰。更稳定的训练意味着更低的边际成本、更高的成功率、更强的开源社区吸引力。同时也意味着在下一轮模型继续放大之前,DeepSeek已经提前卡住了一块关键的技术高地。
更重要的是,它释放了一个非常明确的信号:中国的AI 团队,已经开始在“规则层”参与博弈了。
不是继续跟随,不是看淡优化,而是尝试定义,尝试改变规则,改变底层逻辑。
所以,如果你把这篇论文放回资本市场的语境里,它讨论的从来不只是残差连接,而是一个更宏观的问题:当大模型的扩张不再只是算力问题,谁有能力让系统在更大规模下依然不崩?这才是下一阶段真正决定产业格局和技术能力的核心变量。
新的一年刚刚开始,DeepSeek 又一次选择了不走寻常路。而真正值得关注的,也从来不是这一篇论文本身,而是它背后所指向的那条创新路线。
如果说过去的竞争,是“谁能把模型做得更大”,那接下来的竞争,很可能会变成一句话:今后谁能把模型,安全地做大。目前来看,能够很快掌握这一必杀秘诀的,就是DeepSeek团队了,就是中国的AI工程师了。
因此mHC的提出,其实释放了一个很清晰的信号:中国的AI研发团队,再次跑到了世界前列,因为他们已经开始在“基础架构层”开始做原创了。
所以,在新的一年刚刚开始之际,DeepSeek 又来踢馆,又来炸街了,是不是很快,又会掀起全球的DeepSeek时刻了?
热门跟贴