2025 年 12 月 31 日,DeepSeek 发布了论文《mHC:流形约束的超连接》(Manifold-Constrained Hyper-Connections),提出了一种新的残差连接设计,用于解决超连接(HC)在大模型扩展下的不稳定性和难以扩展的问题。

这是一篇跨年论文,引发AI圈子内外不少人在元旦节去啃这篇“每个字都看得懂,但就是不知道啥意思”的研究。

打开网易新闻 查看精彩图片

(来源,DeepSeek)

先说下超连接这个提法,并非DeepSeek首创。这一思路最早来自字节跳动Seed团队,在2024年底提出,扩展了传统的残差连接,随后被ICLR 2025接收。

残差连接,是一个个经典的深度学习问题:随着网络深度增加,信号和梯度可能会消失或爆炸,使得深层网络难以训练。2015 年,在微软的研究员何恺明提出了 ResNet(残差网络),通过在每一层引入恒等路径:

打开网易新闻 查看精彩图片

这样可以保证信息“恒等映射”,始终可以向前传播,但也付出了代价。

  • Pre-Norm 残差能稳定训练,但往往过于强化恒等映射,导致不同层的表示变得过于相似;

  • Post-Norm 残差能提升表示多样性,却在大规模训练时更难优化。

字节Seed团队提出了一个有趣的问题:如果一条残差通路不够用呢?那就用超级连接。

于是,超级连接将残差路径从单一路径扩展为多条并行通路,并通过可学习的连接矩阵来决定这些通路在不同深度上混合方式。

在实践中,这带来了非常快的收敛速度——论文中某些设置下训练速度提升接近 80%。然而,它很难扩展到大模型规模(这或许也是它没有被广泛讨论的原因之一)。当模型规模增大时,超级连接的训练变得极其不稳定。

不稳定性的根源,在于这些可学习的残差混合矩阵会在层与层之间相乘,它们的连乘结果可能迅速放大。这与何恺明的残差设计完全不同,最初它是非扩张(non-expansive)的。

DeepSeek在论文中显示:在一个270亿参数(27B)模型中,超级连接会导致跨深度方向约3000倍的信号放大,从而引发严重的不稳定性。

打开网易新闻 查看精彩图片

于是,DeepSeek提出了mHC的改进。这里面的m是指流形(manifold)。

流形是一个数学几何概念,大意就是在多维发散熵增的空间,存在着有限压缩、有迹可循的模式。

DeepSeek提出了流形约束超连接 (mHC)。将超级连接(HC)的残差连接空间投影到一个特定的流形上, 以恢复恒等映射属性, 同时结合了严格的基础设施优化来保证效率。

将残差混合矩阵约束在“双随机矩阵流形”上——即矩阵的每一行和每一列之和都等于1,这样做带来几个关键效果:

  • 不会放大或衰减信号(保持非扩张性);

  • 即使在数百层深的网络中也能保持稳定;

  • 恢复了残差连接中“恒等路径”的性质;

  • 同时仍然允许模型学习不同残差通路之间的混合方式。

实证结果,是在相同设置下:

  • 原本约 3000× 的信号放大降至约1.6×;

  • 训练过程如理论预期一样变得平稳;

  • 通过进一步的工程优化(DeepSeek 一贯的风格),在仅增加约 6.7% 计算量 的情况下,性能显著提升:BBH(抽象、多步、跨层推理的)得分,从43.8提升到51;DROP(长文本中的精确离散推理),从47提升到53.9,等等。

DeepSeek在用这篇论文预告DeepSeek-V4吗?可能。它最起码可以说明,DeepSeek在追求真正的下一代大模型,在基础架构上实现明显的创新。

这篇论文在残差连接这一“老问题”上做了一个非常扎实的结构性修正,使超级连接在大模型时代真正可用、可扩展、可稳定,成为基础架构的一部分。