刚刚过去的新年,DeepSeek团队又发表了一篇论文,是对于传统大模型结构的一次提升,效果不可谓不好,连老板梁文峰都署名了。

但我可能有点儿不够政治正确,因为这两年,大模型领域的新架构更新速度,已经快到一种微妙的程度。

不是“看不懂”, 而是你会开始怀疑一件事:

我真的还有必要,完整理解每一种新结构吗?

打开网易新闻 查看精彩图片

那一刻突然意识到: 这种感觉,可能并不只是我一个人的。

那位 Reddit 用户的原话,大意是这样的:这一切迟早会变成动态的,甚至由 LLM 直接生成。 尽管我对 DeepSeek 的工作印象深刻,但我已经懒得再去学习这些不断出现的新架构了。 我甚至怀疑自己是否还能真正做出贡献。 所以,我干脆把它们当作只有“参数”的黑盒来看。 ——真是令人叹为观止。

他的态度并不激烈,甚至算得上克制:

一方面,明确承认 DeepSeek 的工作很漂亮(impressed)

另一方面,也坦白了一种越来越常见的感受: 面对层出不穷的架构,学习意愿正在被消耗

于是,他对 architecture 的态度,回到了很多人最早对 deep learning 的直觉印象:

大量参数 + 不完全可解释 = 黑盒模型。

这番话很快收获了将近 40 个点踩。

原因也不难理解: 它不够技术、不够积极、不够昂扬, 不像一个“还在前沿冲锋”的研究者该说的话。

但说实话,我也是在认真看完论文之后,产生了类似的感觉

这种共鸣,并不是来自“我不想学了”。

恰恰相反,是在认真读完论文之后 。

PART 01

DeepSeek 工作的技术目标

当你把 DeepSeek 这项工作的技术目标拆解开,会发现它试图解决的,其实是一个 并不陌生的问题 : 传统 residual 结构的信息利用效率。

而这个问题, 字节豆包 团队其实在更早的时候,就已经给出过一个很有代表性的方向—— HC(Hyper-Connections) 。

PART 02

传统 residual 结构的特点

如果一定要打个不太严谨的比喻,我会说: 这更像是模型结构里的一种「富贵病」。

Residual:极其安全,但也极其保守

传统 residual 结构,有一个几乎无可替代的优点:

  • 设计简单

  • 单向叠加

  • 极其稳定

  • 几乎不会犯结构性错误

正因为如此,它才能成为深度网络里的标准配置 。

但代价也同样明显。

在很多情况下,一些本来可能有价值的信息, 并没有真正参与到后续的表示构建中, 而是被“安全地”传递、叠加,最终被淹没掉了。

打开网易新闻 查看精彩图片

PART 03

HC 与 mHC 的技术路径

HC(Hyper-Connections)的核心思路

HC(Hyper-Connections)的核心思路其实很直接:

既然信息会被浪费,那就把 residual 拆成多路, 让它们之间产生更充分的交互。

但问题也随之而来:

多路 residual 在深层叠加后

很容易引入数值不稳定

训练风险会快速放大

这并不是实现细节的问题,而是结构本身缺乏约束。

mHC(Manifold-Constrained Hyper-Connections)的改进

DeepSeek 提出的 mHC(Manifold-Constrained Hyper-Connections),在我看来,是一个非常漂亮、也非常“工程正确”的回应:

通过引入流形约束

把多路 residual 的交互限制在稳定空间内

让信息混合得更充分,但不至于失控

从设计角度说,这是一条 非常优雅的技术路径 。

PART 04

大模型发展的阶段判断

但整体感觉是:我们可能已经进入了「水多加面」阶段

给我的整体感受是—— 现在的大模型,已经进入了“水多加面,面多加水”的阶段。

在没有革命性新材料出现之前:

水和面的比例

只能靠一次次试错来逼近

换个数据、换个环境、换个人操作

最优解都可能不一样

对模型态度的转变

在这样的背景下,把模型重新视为一个带参数的黑盒, 并不意味着否定这些工作的价值。

它更像是一种位置上的战略回撤:

从执着于理解每一条内部连接, 转向关注系统的整体行为、稳定边界与可控性。

PART 05

Reddit 评论背后的趋势思考

那条 Reddit 评论,可能并不只是“疲惫”

再往前看一步,我反而会觉得:

那位 Reddit 用户的判断,未必只是情绪化的“我学不动了”, 而可能无意中触碰到了一个更长期的趋势 。

当前大模型的静态本质

当前的大模型——无论是 residual 的加法, 还是流形约束下的乘法——本质上仍然是静态结构 。

只要:

seed 固定

训练流程确定

模型的行为,在统计意义上就是高度可复现的。 此前也已经有研究指出,在这种前提下,模型输出的一致性是可以被严格保证的。

未来模型结构的动态化可能

如果真是这样,那么未来真正应该变化的, 或许就不该是某一种固定结构或固定配方。

也许真正该变的,是「结构本身是否能动态调整」

也许在更远的未来:

pre-train 会被某种“自定义的 LLM”部分取代

模型不再完全遵循预先写死的公式

而是能够在训练、甚至推理过程中 动态修改自己的结构、路径与参数分配方式

如果那一天真的到来,那么今天这些精妙却静态的架构,很可能都会成为 过渡形态 。

PART 06

对被点踩评论的再审视

回到那条被点踩的评论

现在再回头看那条 Reddit 评论,我反而觉得:

它之所以被点踩, 不是因为它错了, 而是因为它说得太早,也太直接了。

当模型已经进入「水多加面、面多加水」的阶段, 承认个体在架构层面的边际贡献正在下降, 也许并不是一种消极, 而是一种 对现实复杂度的诚实回应 。