DeepSeek再次放大招，用MHC改变技术规则|deepseek|信号|正式版模型|残差

过去半年以来，大家都在等DeepSeek再次放大招，但是似乎并没有让人特别惊艳的进展，再次横空出世。

等2026年的新年刚翻页，DeepSeek 并没有像外界期待的那样发布新模型、刷榜单、秀参数，而是做了一件更加踢馆炸街的大事，在 arXiv上发表了一篇最重磅的论文。

这一点非常关键。因为arXiv 从来就不是给市场看的地方，它是全球科研共同体默认的“原始技术水源”。

能选择在这里发声，说明这一次DeepSeek 想讨论的，不是大模型的应用效果了，而是以前的规则本身，能不能继续成立，还能不能继续创新的问题。

但如果你顺着论文真正想解决的问题往下拆，你会发现，这一次DeepSeek 实际上是在正面回答一个，过去两年几乎所有大模型公司都在刻意回避的问题：

大模型，还能不能继续稳定地变大？

注意，这里不是“还能不能继续变强”，而是“还能不能稳定”的变大的问题。这是两个完全不同的命题。

过去十年，整个深度学习体系有一个几乎没人再质疑的默认前提：只要模型足够深、足够宽，只要算力和数据能跟上，训练的效果就一定能出来。参数规模，等于能力上限。这个逻辑，支撑了从ResNet 到 Transformer，再到今天所有大模型的扩张路径。

但这个逻辑并不是天然成立的，它背后依赖的，其实是一项极其关键、却早已被视为“空气”的基础设施——残差连接。

如果没有残差连接，今天你看到的所有GPT、Claude、Gemini、LLaMA，根本不可能存在。

关于残差连接，我们得把这个来龙去脉和底层逻辑说清楚。

在残差连接出现之前，神经网络一旦加深之后，训练就会迅速失控。不是算力不够，而是梯度在层层传递中不断衰减、扭曲，信息根本传不到该去的地方。这一点工程上表现得非常直观：loss 不收敛、效果倒退、调参调到崩溃。

参差连接的伟大之处，在于它做了一件极其简单、却极其反直觉的事：
它不要求每一层都必须“学到东西”，而是允许它什么都不学。

输出不再是f(x），而是x + f(x）。
那条“+ x”，就是一条信息的保命通道。

只要这条通道在，哪怕这一层的参数全错，信息至少还能原样往下走。也正是因为这一点，网络才第一次具备了“无限加深”的工程可能性。

换句话来说，残差连接的作用，不是为了提高上限，而是为了防止系统出现崩溃。

但是，问题也恰恰出在这里。

残差连接就像一条单向的高速公路。当模型规模越来越大、任务越来越复杂，人们开始逐渐意识到：这种单一、线性的残差信息通道，虽然稳，但可能已经不够用了。

现实世界的信息处理，从来不是一条直线。复杂认知一定是多层信息、多路径并行、交叉作用的结果。而传统残差连接，本质上是一条极其干净、极其保守的高速路，它可以保证不出事故，但是同时也限制了交通运行的复杂度。

这正是Hyper-Connections（HC）出现的背景。

HC 的出发点，是非常清晰：既然信息不该只在相邻层之间流动，那为什么不让多层之间直接建立连接？让不同深度的特征充分混合，理论上模型的表达能力会大幅提升。

从研究的动机上看，这条路设是完全正确的选择。从实验的直觉上看，它也确实有效。但HC 真正的问题，不在于“连得多”，而在于它动了残差连接的底座。

为了实现多层混合，HC 把原本的恒等映射 x → x，变成了 x → W·x。也就是说。那条原本不参与学习、不容易出错的信息高速路，被强行加上了一个可学习的变换矩阵。

听起来只是多了一步线性映射，但是这一步，在工程层面，带来的变化是巨大的。

因为一旦W 学错了，那么信息就不再是“至少能通过”，而是必然会被扭曲。原来残差连接提供的是“兜底信息机制”，现在这个兜底的机制被拆掉了。

于是你会看到一个非常典型的现象：HC 在小模型、小规模实验中表现十分亮眼；但是模型一放大、层数一加深，训练立刻开始变得不稳定了。算力越多、参数越大，问题反而暴露得越快。

这其实暴露了一个更深层的问题：大模型表达能力的提升，正在侵蚀系统原有的稳定性。

于是，这一次，针对这个问题，DeepSeek 做了一件非常值得玩味，也非常“硬核”的事。

它没有否定HC，也没有退回传统残差连接的安全区，而是直接选择了一个从数学层面重新立规矩的路径。它这次给出的答案，核心思路只有一句话：HC，你可以连得更加复杂，但你不能破坏信息守恒。

于是，DeepSeek 的mHC 出现了。

DeepSeek 把残差路径中的映射矩阵，强行约束到了一个特定的数学空间里——Birkhoff 多面体。这个空间里所有矩阵，都满足一个极其重要的性质：它们是双随机矩阵。

双随机矩阵如果不用数学语言解释，这到底意味着什么？意味着信息不会被放大，也不会被压缩，只会在不同通道之间重新分配。意味着信息的“总量”，是被锁死了。

实现这一步的工程意义，可以说非常直接而重大，因为无论你怎么设计复杂的信息连接，残差信息都不会被破坏；也就意味着无论模型变得多大，梯度都不会因为残差路径而失控。

所以，mHC 的本质，不是让模型变得更“聪明”，而是让模型在复杂化之后，系统依然可控。

具体的实验结果，也非常耐人寻味：模型规模越大，mHC 相对于传统 HC 的优势越明显。那么不得不承认，这是一个极其关键的信号，因为它说明，mHC的解决方案，这不是一个小技巧，而是一种随规模放大的结构优势。

到这里，如果我们只站在技术视角来理解的话，这已经是一篇很扎实的论文了。但如果我们再次切换到资本市场的视角，你会发现，这件事的意义要大得多。

过去两年，大模型竞争在资本层面的逻辑其实非常单一：谁能拿到更多钱，谁能买到更多卡，谁就有更大的胜率。

这是一种极端依赖资本投入的竞争模式，它的隐含前提是：算力投入的边际效率始终成立。只要你愿意烧钱，就一定能换来能力。

而mHC 这类工作的真正冲击在于：它开始动摇这个前提。因为训练不稳定，本身就是最大的隐性成本。一次失败的大规模训练，消耗的不只是算力，还有时间、团队节奏、资本耐心，以及市场的窗口期。

大模型具备更稳定的结构，到底意味着什么？意味着花同样的钱，可以换来的是更确定的结果；意味着扩张不是资本的博弈，而是工程化的决策和手段；意味着大模型的规模优势，开始从资源垄断，算力优势，转向“结构设计”能力了。

这种情况会直接改变三件事。第一，算力的绝对优势，会被结构效率部分对冲。第二，工程能力，会重新成为大模型公司的核心壁垒。第三，大模型竞争的重心，会从“谁更有钱有卡”，慢慢转向“谁更不容易崩”。

从这个角度看，DeepSeek 这篇论文，真正的价值不在于 mHC 本身，而在于它所代表的技术方向选择。

它没有在参数规模上，去硬刚美国，也没有在应用层面追热点，而是提前一步，把注意力放在了一个更长期，也更底层的问题上：当模型继续变大的确定性开始下降，新的系统的确定性，到底从哪里来？

DeepSeek借助mHC，给出的答案，是结构的约束，是工程的理性，是在复杂系统里主动引入“安全边界”。

这件事，对DeepSeek 自身的战略价值也非常清晰。更稳定的训练意味着更低的边际成本、更高的成功率、更强的开源社区吸引力。同时也意味着在下一轮模型继续放大之前，DeepSeek已经提前卡住了一块关键的技术高地。

更重要的是，它释放了一个非常明确的信号：中国的AI 团队，已经开始在“规则层”参与博弈了。

不是继续跟随，不是看淡优化，而是尝试定义，尝试改变规则，改变底层逻辑。

所以，如果你把这篇论文放回资本市场的语境里，它讨论的从来不只是残差连接，而是一个更宏观的问题：当大模型的扩张不再只是算力问题，谁有能力让系统在更大规模下依然不崩？这才是下一阶段真正决定产业格局和技术能力的核心变量。

新的一年刚刚开始，DeepSeek 又一次选择了不走寻常路。而真正值得关注的，也从来不是这一篇论文本身，而是它背后所指向的那条创新路线。

如果说过去的竞争，是“谁能把模型做得更大”，那接下来的竞争，很可能会变成一句话：今后谁能把模型，安全地做大。目前来看，能够很快掌握这一必杀秘诀的，就是DeepSeek团队了，就是中国的AI工程师了。

因此mHC的提出，其实释放了一个很清晰的信号：中国的AI研发团队，再次跑到了世界前列，因为他们已经开始在“基础架构层”开始做原创了。

所以，在新的一年刚刚开始之际，DeepSeek 又来踢馆，又来炸街了，是不是很快，又会掀起全球的DeepSeek时刻了？

DeepSeek再次放大招，用MHC改变技术规则

热搜

热门跟贴

热搜

热门跟贴

相关推荐

深度丨梁文锋署名论文发布，DeepSeek用mHC新架构“秀肌肉”

DeepSeek突然更新R1论文：暴增64页，能公开的全公开了

未来社会如同物理学的"费米能级"：会用AI，才能在职场活下去

马斯克最新播客长叹：中国听懂了我的话，2026年将在算力上碾压世界

外网提问：中国AI模型Deepseek如何威胁美国主导地位

清华孙茂松团队 × 深言科技：以解释作为训练信号，让 8B 模型在幻觉检测上反超闭源大模型

高通近乎垄断，联发科第二，小米强势入围

美日技术封锁下，三星如何实现技术反超？一部存储芯片的逆袭兵法

中国科技再出王炸！被美国逼出来的鸿蒙系统，补齐中美竞争的短板

AI芯片战场杀疯！中国芯跳出硅基陷阱，10年完成惊人反转？

CMU与NYU联合团队提出“上褶度”，揭秘计算受限下的智能真相

一年后，DeepSeek-R1的每token成本降到了原来的1/32

Agent 2.0时代来了，首批「工业级智能体」正在核心位置上岗

蚂蚁再把医疗AI卷出新高度！蚂蚁·安诊儿医疗大模型开源即SOTA

智源2026十大趋势指明AI前景——世界模型、超级应用与产业智能体

ChatGPT学阿福，但还有一沓作业抄不会

从联网设备到智能体终端，阿里云开启AI硬件的普惠元年

这跟数学没多大关系啊，这是思维逻辑

看懂身体这10个信号，关键时刻能救命，每一条都重要！

中方：沉痛哀悼丹羽宇一郎