一个数学公式的巧妙调整,让AI训练稳定性实现质的飞跃,中国团队在全球AI架构竞赛中再下一城。

打开网易新闻 查看精彩图片

2026年元旦清晨,当大多数人还沉浸在节日氛围中时,中国AI领域传来重磅消息——DeepSeek团队在arXiv上发布了一篇题为《mHC: Manifold-Constrained Hyper-Connections》的论文,创始人梁文锋亲自署名。

这篇论文提出的新架构,直指困扰AI领域十年的残差连接瓶颈问题,为大规模模型训练开辟了新路径。

01 元旦惊喜

打开网易新闻 查看精彩图片

新年第一天,当时钟刚过零点,AI研究社区却异常活跃。一篇来自DeepSeek团队的论文悄然出现在arXiv上,迅速引发全球AI研究者的关注

论文标题中的“mHC”迅速成为技术圈热门词汇。这篇由Zhenda Xie、Yixuan Wei、Huanqi Cao共同完成,梁文锋亲自署名的研究,瞄准了Transformer架构中一个基础但关键的问题。

选择在元旦发布,这一时机意味深长。对中国AI界而言,这无疑是一份最好的新年礼物

02 十年瓶颈

打开网易新闻 查看精彩图片

要理解这项突破的价值,我们需要回到AI模型的基础架构。过去十年中,Transformer的残差连接结构x + F(x)一直是AI模型的“骨干神经”。

这种设计简单而优雅,通过“恒等映射”保证信号无损传输,确保了训练的稳定性。但随着模型规模不断扩大,这一架构逐渐暴露出局限性。

近期,字节跳动Seed团队提出的Hyper-Connections尝试通过扩展残差流宽度来突破瓶颈,确实带来了性能提升,但也带来了新问题。

信号在传播过程中会“爆炸”或“消失”,破坏恒等映射特性,模型越深越难训练。同时,通道变宽意味着显存开销成倍增加,形成了所谓的“显存墙”。

03 核心突破

DeepSeek团队提出的mHC架构,核心在于“流形约束”这一概念。研究团队将传统HC的残差连接空间投影到一个特定的数学流形上,巧妙地恢复了恒等映射属性。

研究团队利用Sinkhorn-Knopp算法,将残差连接矩阵投影到Birkhoff多胞形上。这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性。

简单来说,就像为信息流动铺设了专用轨道,既保持了通道宽度增加带来的性能优势,又防止了信号失控。

这一设计带来了多重理论优势:学习到的映射是非扩张的,能有效缓解梯度爆炸问题;谱范数有界且不超过1,保持范数稳定;同时具有复合封闭性,确保跨多层仍保持稳定。

04 实战验证

在27B参数规模的实际训练中,mHC展现出了令人信服的性能。与原始HC相比,mHC有效缓解了训练不稳定问题,最终损失降低了0.021。

梯度范数分析进一步证实了稳定性的提升:mHC表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓。

在8个不同的下游基准测试中,mHC不仅始终优于基线模型,还在大多数任务上超越了HC。特别在推理能力方面,mHC在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益。

最令人惊喜的是系统开销。在扩展倍率n=4的情况下,mHC仅增加了6.7%的训练时间开销,却换来了显著的性能提升。

05 可扩展优势

研究团队进一步测试了mHC在不同规模下的表现。从3B、9B到27B参数规模的计算扩展曲线表明,即使在更高的计算预算下,性能优势依然稳健。

图6展示了mHC与基线模型的扩展特性对比。计算扩展曲线中,每个点代表模型大小与数据集大小的最优计算配置,涵盖不同参数规模。

这些实验结果验证了mHC在大规模场景下的有效性。团队内部的更大规模训练实验也证实了这一结论。

06 背后深意

为什么DeepSeek要在元旦发布这篇论文?为什么梁文锋要亲自署名?这传递的信号远比技术细节本身更重要

在中国AI公司全球竞争的背景下,DeepSeek此举展示了其在基础研究领域的决心与实力。选择在2026年第一天发布,更像是一份宣言:中国AI不仅要追赶,更要在基础架构上引领创新。

mHC研究的意义不仅在于解决了一个具体的技术问题,更在于为整个基础模型的拓扑架构演进指明了方向。在AI竞赛日益白热化的今天,架构创新远比参数堆砌更具战略价值。

当我们仔细审视那些实验数据曲线,会发现一个令人振奋的现象:在27B模型训练中,mHC的梯度范数曲线如平滑山丘般稳定延伸,而传统HC的曲线则像暴风雨中的心电图剧烈震荡

在BBH推理任务上2.1%的性能提升,看似微小却标志着中国团队在AI基础架构领域已从跟跑者变为并行者。梁文锋的名字出现在作者栏,不仅代表个人荣誉,更是中国AI企业集体冲刺技术深水区的象征。

新年钟声与论文发布时刻重合,这或许是巧合,但中国AI在全球舞台发出的声音,已经无法被忽视。

AI眼镜处于爆发前夜,有很多值得体验的好产品

欢迎大家进群一起交流使用心得!