打开网易新闻 查看精彩图片

编者按:

DeepSeek发布的mHC(流形约束超连接)新架构,不仅会改变芯片设计,而且标志着AI硬件设计将从“适配通用计算”转向“为特定高效架构深度优化”的新范式。

简单来说,mHC是一种让AI模型在参数规模变大时,训练更稳定、效率更高的新方法。它的核心影响在于,它通过算法创新显著降低了对算力和内存的粗暴依赖,这将倒逼芯片设计追求更高的“有效计算效率”,而不仅仅是峰值算力。

2026年元旦,AI圈被一篇来自DeepSeek的论文打破了跨年的宁静。这篇题为《mHC: Manifold-Constrained Hyper-Connections》的研究成果,以流形约束超连接架构(mHC)为核心,直指当前大模型训练与芯片设计的核心痛点。论文作者名单中,DeepSeek创始人兼CEO梁文峰的署名尤为引人注目,这也暗示着这项技术并非单纯的学术探索,而是承载着产业落地的明确诉求。

过去几年,AI行业的竞争焦点始终围绕“更大参数、更多算力”展开,从百亿到万亿参数的模型迭代,倒逼GPU等AI芯片不断堆砌计算单元。但繁荣背后,一个致命的矛盾逐渐凸显:芯片算力的增长速度远超内存带宽的提升速度,导致大量计算资源浪费在无效的数据搬运上。行业将这一困境称为“存储墙”,它就像AI芯片的阿喀琉斯之踵,成为制约AI算力释放的核心瓶颈。美光的研究数据显示,近五年GPU算力增长37.5倍,而PCIe带宽仅提升8倍,这种严重失衡让即便是最先进的AI芯片,实际利用率也常不足30%。

梁文峰团队提出的mHC架构,并未局限于算法层面的优化,而是通过流形约束重构了神经网络的连接逻辑,从根源上降低了对内存带宽的需求。这一跨越算法与硬件的创新尝试,让业界开始重新思考:当软件架构能够主动适配硬件瓶颈,是否会颠覆当前“硬件先行、软件适配”的芯片设计逻辑?2026年的这场技术突破,或许正站在AI软硬件协同进化的新起点上。

打开网易新闻 查看精彩图片

从失控到可控

mHC架构的核心突破逻辑

要理解mHC架构为何能触动芯片设计的敏感神经,首先需要回溯其解决的核心问题——超连接(HC)架构的“失控困境”。在Transformer模型的发展历程中,残差连接是支撑深层网络稳定训练的关键基石,其“x + F(x)”的恒等映射结构,确保了信号在传播过程中不会出现系统性的放大或衰减。但随着模型规模扩大,单一残差流的表达能力逐渐不足,超连接架构应运而生。它通过拓宽残差流通道、构建多路径连接,显著提升了模型的表达能力,却也埋下了稳定性的隐患。

打开网易新闻 查看精彩图片

传统超连接架构的致命缺陷,在于其无约束的连接矩阵破坏了残差连接的恒等映射特性。在大规模模型训练中,这种无约束设计极易导致信号爆炸或梯度异常,论文数据显示,某些场景下传统超连接的信号放大倍数可达3000倍,直接导致训练崩溃。更严重的是,多路径连接带来的不仅是稳定性问题,还有内存开销的激增——更多的残差流意味着更多的中间激活值需要存储和搬运,进一步加剧了“存储墙”问题,让本就捉襟见肘的内存带宽雪上加霜。梁文峰在团队内部技术分享中曾提到,超连接的这种“性能与稳定不可兼得”的困境,是当前大模型训练成本居高不下的重要原因。

mHC架构的核心创新,在于为超连接加上了“几何约束的缰绳”。其核心思路是将超连接的连接矩阵投影到双随机矩阵构成的流形(Birkhoff多胞形)上,通过数学约束确保矩阵每行、每列元素之和均为1且非负。这一约束看似简单,却从根源上解决了信号失控问题:双随机矩阵的最大特征值为1,意味着它只能在不同残差流之间重新分配权重,而不会系统性放大信号范数。实验数据显示,mHC将信号放大倍数严格控制在1.6倍以内,彻底摆脱了传统超连接的稳定性困扰。

在实现层面,mHC采用了工程上成熟的Sinkhorn-Knopp算法完成流形投影,既保证了约束的有效性,又控制了额外开销。训练过程中,模型先学习普通实值矩阵,再通过有限步的Sinkhorn归一化将其投影为近似双随机矩阵,这种可微的投影方式确保了训练的连续性。更关键的是,DeepSeek团队并未止步于算法创新,而是通过三大工程优化手段将内存开销降到最低:内核融合将RMSNorm、矩阵乘法等多个算子打包执行,减少中间数据的读写次数;选择性重计算通过丢弃非关键中间激活值,在反向传播时重新计算,使显存占用减少70%以上;DualPipe通信计算重叠则让梯度传输与模型计算并行进行,消除了计算单元的空闲等待时间。

实验验证了这套方案的有效性。在3B、9B乃至27B参数规模的模型训练中,mHC不仅完全避免了传统超连接的不收敛问题,还在BBH、DROP等八个下游任务中全面超越基线模型,其中BBH任务性能提升2.1%,DROP任务提升2.3%。更值得关注的是,当扩展率为4时,mHC带来的额外训练时间开销仅为6.7%,这种“低代价、高性能”的平衡,使其具备了大规模产业应用的基础。梁文峰团队在论文中强调,mHC的价值不在于取代Transformer,而在于为复杂残差拓扑的探索提供了“可控可训”的理论与工程框架,这一框架的通用性,为其与各类芯片架构的适配埋下了伏笔。

打开网易新闻 查看精彩图片

软硬件协同革命

mHC对芯片设计的潜在重塑

长期以来,AI芯片设计陷入了“算力竞赛”的路径依赖。从NVIDIA的H100到Blackwell架构,再到各类国产AI芯片,核心创新方向始终围绕提升计算单元密度、扩大显存容量展开。但mHC架构的出现,让业界开始反思:当软件能够主动降低对内存带宽的需求,芯片设计是否需要跳出“堆硬件”的惯性思维?这种反思背后,是mHC架构带来的软硬件协同逻辑的根本性转变。

打开网易新闻 查看精彩图片

首先,mHC有望打破“算力-带宽”的错配困局,推动芯片设计从“算力优先”转向“效率优先”。当前AI芯片的核心矛盾是算力过剩而带宽不足,大量时钟周期浪费在数据搬运上。mHC通过内核融合、选择性重计算等优化,将原本分散的多次内存访问整合为单次访问,大幅降低了对带宽的需求。这种软件层面的“带宽节约”,让芯片设计可以不必一味追求高带宽的HBM显存。例如,对于中低端AI芯片而言,原本因带宽不足无法支撑的大规模模型训练,在mHC架构的适配下,有望通过优化内存访问效率实现可行性。这意味着未来芯片设计可能会出现差异化路线:高端芯片继续追求算力与带宽的极致匹配,而中低端芯片则可通过适配mHC等高效架构,以更低的硬件成本实现相近的训练效果。

其次,mHC的流形约束逻辑,可能推动芯片专用计算单元的创新。当前AI芯片的计算单元主要针对矩阵乘法等通用算子优化,但mHC中的Sinkhorn-Knopp投影算子具有独特的计算特性。虽然目前DeepSeek通过软件优化将其与现有算子融合,但随着mHC架构的普及,芯片设计可能会加入专门的投影算子加速单元。这种专用单元的出现,将打破当前AI芯片“通用计算单元”的垄断格局,推动芯片向“通用+专用”的异构架构演进。更重要的是,mHC的约束逻辑可以与芯片的存储层次设计深度协同——例如,芯片可以根据mHC的激活值重计算策略,动态调整缓存的存储策略,优先缓存关键层输入,释放缓存空间用于其他计算任务,进一步提升内存利用率。

再者,mHC架构可能降低大模型训练的硬件门槛,改变芯片市场的竞争格局。当前大模型训练被少数拥有超大规模GPU集群的科技巨头垄断,核心原因在于中小厂商难以承担高端AI芯片的成本。mHC架构在保证训练稳定性的同时,大幅降低了显存占用和带宽需求,使得中小厂商可以利用更少的中端芯片完成大规模模型训练。这种门槛的降低,将带动中端AI芯片市场的需求增长,倒逼芯片厂商在中端市场投入更多创新资源。例如,针对mHC架构优化的中端芯片,可能会重点提升缓存效率和算子融合能力,而非盲目堆砌计算单元。这种市场需求的变化,将引导芯片设计资源从“高端内卷”向“中端普惠”扩散,推动AI芯片市场的多元化发展。

不过,mHC要真正重塑芯片设计方向,仍需跨越一系列挑战。一方面,架构适配的生态建设需要时间。当前主流AI芯片的软件栈均针对传统Transformer架构优化,要让芯片厂商主动适配mHC,需要形成足够的产业共识。DeepSeek的开源策略或许能加速这一进程——此前其开源的DeepSeek-V3模型已积累了大量开发者,mHC架构若持续开源,有望吸引更多芯片厂商参与适配。另一方面,mHC的优化效果仍需在更大规模模型中验证。虽然目前在27B参数模型中表现优异,但在千亿、万亿参数模型中,其对内存带宽的节约效果是否依然显著,仍需更多实验数据支撑。梁文峰在接受媒体采访时表示,团队正在推进更大规模的mHC模型训练,相关数据将在2026年逐步公布,这一数据将直接影响芯片厂商的适配信心。

值得注意的是,mHC带来的软硬件协同思路,已开始引发行业共鸣。美光等存储厂商在近期的技术分享中提到,未来存储产品的设计需要更紧密地结合AI架构的内存访问特性,而mHC的出现为这种协同提供了绝佳范例。NVIDIA相关技术负责人也表示,正在关注mHC等高效架构对芯片设计的影响,不排除在未来的芯片架构中加入针对性优化。这些信号表明,mHC架构正在推动AI行业从“软件适配硬件”的被动模式,向“软硬件协同设计”的主动模式转变。

打开网易新闻 查看精彩图片

结 语

2026年初梁文峰团队mHC架构的发布,不仅是算法层面的突破,更像是一声打破AI行业“算力竞赛”惯性的号角。在“存储墙”成为制约AI发展核心瓶颈的当下,mHC通过流形约束与工程优化的结合,为解决算力与带宽的错配问题提供了全新思路。它所倡导的“软件主动适配硬件瓶颈”的逻辑,正在挑战传统的芯片设计范式,推动行业向“效率优先”的软硬件协同方向演进。

客观来看,mHC架构要彻底改变芯片设计方向,仍需跨越生态建设、大规模验证等多重障碍,短期内难以完全颠覆现有格局。但不可否认的是,它已经为芯片设计提供了新的思考维度:芯片的核心价值不在于堆砌多少算力,而在于如何让每一份算力都得到高效利用。这种思路的转变,或许会成为未来几年AI芯片创新的核心主线。

对于行业而言,mHC的出现更像是一个重要的转折点。它提醒着从业者,AI的发展不能只追求“规模”的增长,更要关注“效率”的提升。当越来越多的团队开始探索算法与硬件的深度协同,或许就能突破当前的技术瓶颈,推动AI行业进入更可持续的发展阶段。2026年的这场技术探索,无论最终是否能完全重塑芯片设计方向,都已为AI行业的创新注入了新的活力——而这,或许正是梁文峰团队发布mHC架构的深层意义所在。