他同时提到,论文的数学推导和底层实现虽有较高复杂度,但核心围绕"投影矩阵与流形约束"展开,具备落地可行性,而团队在CUDA内核层面的算子融合优化,更体现了深厚的工程实力。

打开网易新闻 查看精彩图片

2026年元旦,当外界还沉浸在新年的喜庆氛围中,AI圈已被一则技术突破消息点燃。中国AI初创公司DeepSeek悄然发布重磅学术论文,提出名为mHC(流形约束超连接)的新型网络架构,直指当前大规模模型训练的核心痛点——数值不稳定与信号爆炸。这篇由19人团队联合攻关、创始人梁文锋亲自署名的论文,不仅在arXiv和Huggingface平台迅速引发关注,更让业界看到了基础模型架构演进的新可能。对于普通读者而言,mHC看似深奥的技术术语背后,实则藏着大模型"更稳、更强、更高效"的进化密码,它如何破解行业痛点?又将为AI发展带来哪些影响?本文将逐一解读。

打开网易新闻 查看精彩图片

溯源:大模型训练的"稳定性困境"从何而来?

要理解mHC的价值,首先要搞懂大模型训练的"根基"——残差连接。自Transformer架构诞生以来,残差连接(公式表达为x + F(x))就成为支撑模型深度堆叠的核心机制。简单来说,它就像给信息传递搭建了"主通道+辅助通道":x代表原始信息的"主通道",保证基础信号稳定传递;F(x)则是模型学习到的"辅助通道",负责捕捉复杂特征。这种设计的精妙之处在于,无论模型中间层的学习效果如何,原始信息都能通过"主通道"直达后续层级,避免了信号在深层网络中逐渐衰减或失真,这也是千亿参数模型能顺利训练的关键。

随着AI技术的发展,研究者们不满足于单一的残差流通道,提出了"超连接(HC)"架构——将单一残差流扩展为多条并行通道,并通过一个可学习的连接矩阵实现跨通道信息组合。就像把单车道拓宽为多车道,理论上能让模型捕捉更丰富的特征,大幅提升表达能力。但问题也随之而来:这个"可学习的连接矩阵"缺乏约束,完全自由生长。这就好比多车道交通失去了信号灯和交警管制,车辆(信号)极易无序叠加,导致在十亿、百亿参数的大规模训练中出现"信号爆炸"或"梯度异常",最终模型训练失败。这也是超连接架构在小模型中效果显著,却始终无法在大模型中落地的根本原因。

突破:mHC用"几何约束"给信号加"安全护栏"

DeepSeek提出的mHC架构,核心思路并非否定超连接的多流优势,而是给自由生长的连接矩阵加上"安全护栏"——引入几何约束,让其在可控范围内发挥作用。这个"护栏"的核心是将连接矩阵限制在"双随机矩阵流形"内,通俗来讲,就是要求矩阵的每一行、每一列元素之和都等于1,且所有元素都是非负数。

打开网易新闻 查看精彩图片

这个约束看似简单,却蕴含着深刻的数学原理。一方面,双随机矩阵的最大特征值为1,这意味着它不会放大任何信号,只会在不同残差流之间重新分配权重,就像交通管制员合理疏导车流,而非无限制放行;另一方面,我们熟悉的传统残差连接对应的单位矩阵,本身就是双随机矩阵的一种特殊情况,这意味着mHC完全兼容现有技术体系,无需推倒重来。这种设计既保留了超连接多流并行的表达优势,又恢复了残差连接的稳定性,实现了"鱼与熊掌兼得"。

在技术实现上,DeepSeek团队没有选择复杂的约束优化,而是采用了工程上成熟的Sinkhorn-Knopp算法。这个算法的作用就像"信号矫正器":训练过程中,模型先自由学习连接矩阵,再通过该算法在每次信息传递前进行"归一化矫正",将其投影到双随机矩阵的安全范围内。更关键的是,团队通过内核融合、重计算、通信重叠等底层优化,把这种矫正带来的额外计算开销控制在极低水平——实验显示,当并行通道扩展4倍时,训练时间仅增加6.7%,完全具备工程落地价值。

打开网易新闻 查看精彩图片

验证:3B到27B参数规模的"稳定性大考"

任何技术突破都需要实验数据支撑,mHC的表现没有让人失望。DeepSeek团队在3B(30亿)、9B(90亿)和27B(270亿)三种不同参数规模的模型上进行了测试,核心验证两个问题:是否能解决超连接的训练不收敛问题?是否能保持甚至提升模型性能?

实验结果给出了肯定答案:在传统超连接频繁失效的27B参数模型上,mHC不仅实现了稳定训练,没有出现信号爆炸或梯度异常,还在多个自然语言处理任务中维持了优异性能。这一结果证明,mHC提出的"几何约束"思路并非理论空想,而是能切实解决大规模模型训练痛点的可行方案。对于企业而言,这意味着未来可以在更小的算力成本下训练更复杂的模型,推动大模型技术向更广泛的行业场景渗透。

业界反响:技术突破背后的行业趋势

mHC架构的发布,迅速在全球AI社区引发热议。在Reddit平台,长期从事深度学习研究的用户SlowFail2433指出,缺乏稳定残差连接导致的梯度崩溃问题,不仅存在于大语言模型,在卷积神经网络(如ResNet)中也普遍存在,若mHC能实现规模化应用,其意义不可小觑。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

领英平台的行业观察人士则从另一个角度解读:DeepSeek持续公开核心研究成果,反映出中国AI公司日益开放的协作文化。在过去,部分企业倾向于隐藏核心技术,但如今越来越多的中国AI团队选择通过学术论文分享突破,这种开放不仅能推动整个行业的技术进步,也为自身后续的模型迭代释放信号。有观点猜测,mHC架构很可能成为DeepSeek下一代基础模型的核心组件,此次论文发布正是技术落地前的重要铺垫。

总结:不止于技术突破,更是架构演进的新范式

客观来看,mHC并非要取代Transformer,而是为基础模型架构的演进提供了全新思路。它证明了在大规模模型训练中,单纯依靠增加正则项或优化初始化参数,难以从根本上解决稳定性问题;而通过显式的几何约束,将模型结构限制在具备良好数学性质的空间内,才是系统性解决问题的关键。

这一思路的价值远不止于当前的超连接优化。随着AI模型向多流、多路径的复杂拓扑发展,如何平衡"表达能力"与"可控可训性"将成为核心课题,mHC提出的"几何约束+工程优化"框架,为未来的架构设计提供了可复用的解决方案。对于中国AI产业而言,DeepSeek的这一突破更具象征意义——它标志着中国团队不仅能在应用层实现技术落地,更能在基础模型的核心架构领域提出原创性思路,在全球AI竞争中占据更重要的话语权。

正如业内人士所言,2026年AI圈的开年大礼,不仅是一个新架构,更是一种新信心。当技术突破不再依赖单一的算力堆砌,而是回归到数学原理与工程实践的深度融合,AI的下一次进化,或许已在路上。