我开始把大模型当成黑盒了从 DeepSeek 的一篇论文，说起|deepseek|大模型|论文|黑盒

刚刚过去的新年，DeepSeek团队又发表了一篇论文，是对于传统大模型结构的一次提升，效果不可谓不好，连老板梁文峰都署名了。

但我可能有点儿不够政治正确，因为这两年，大模型领域的新架构更新速度，已经快到一种微妙的程度。

不是“看不懂”，而是你会开始怀疑一件事：

我真的还有必要，完整理解每一种新结构吗？

那一刻突然意识到：这种感觉，可能并不只是我一个人的。

那位 Reddit 用户的原话，大意是这样的：这一切迟早会变成动态的，甚至由 LLM 直接生成。尽管我对 DeepSeek 的工作印象深刻，但我已经懒得再去学习这些不断出现的新架构了。我甚至怀疑自己是否还能真正做出贡献。所以，我干脆把它们当作只有“参数”的黑盒来看。 ——真是令人叹为观止。

他的态度并不激烈，甚至算得上克制：

一方面，明确承认 DeepSeek 的工作很漂亮（impressed）

另一方面，也坦白了一种越来越常见的感受：面对层出不穷的架构，学习意愿正在被消耗

于是，他对 architecture 的态度，回到了很多人最早对 deep learning 的直觉印象：

大量参数 + 不完全可解释 = 黑盒模型。

这番话很快收获了将近 40 个点踩。

原因也不难理解：它不够技术、不够积极、不够昂扬，不像一个“还在前沿冲锋”的研究者该说的话。

但说实话，我也是在认真看完论文之后，产生了类似的感觉

这种共鸣，并不是来自“我不想学了”。

恰恰相反，是在认真读完论文之后。

PART 01

DeepSeek 工作的技术目标

当你把 DeepSeek 这项工作的技术目标拆解开，会发现它试图解决的，其实是一个并不陌生的问题：传统 residual 结构的信息利用效率。

而这个问题，字节豆包团队其实在更早的时候，就已经给出过一个很有代表性的方向—— HC（Hyper-Connections）。

PART 02

传统 residual 结构的特点

如果一定要打个不太严谨的比喻，我会说：这更像是模型结构里的一种「富贵病」。

Residual：极其安全，但也极其保守

传统 residual 结构，有一个几乎无可替代的优点：

设计简单

单向叠加

极其稳定

几乎不会犯结构性错误

正因为如此，它才能成为深度网络里的标准配置。

但代价也同样明显。

在很多情况下，一些本来可能有价值的信息，并没有真正参与到后续的表示构建中，而是被“安全地”传递、叠加，最终被淹没掉了。

PART 03

HC 与 mHC 的技术路径

HC（Hyper-Connections）的核心思路

HC（Hyper-Connections）的核心思路其实很直接：

既然信息会被浪费，那就把 residual 拆成多路，让它们之间产生更充分的交互。

但问题也随之而来：

多路 residual 在深层叠加后

很容易引入数值不稳定

训练风险会快速放大

这并不是实现细节的问题，而是结构本身缺乏约束。

mHC（Manifold-Constrained Hyper-Connections）的改进

DeepSeek 提出的 mHC（Manifold-Constrained Hyper-Connections），在我看来，是一个非常漂亮、也非常“工程正确”的回应：

通过引入流形约束

把多路 residual 的交互限制在稳定空间内

让信息混合得更充分，但不至于失控

从设计角度说，这是一条非常优雅的技术路径。

PART 04

大模型发展的阶段判断

但整体感觉是：我们可能已经进入了「水多加面」阶段

给我的整体感受是—— 现在的大模型，已经进入了“水多加面，面多加水”的阶段。

在没有革命性新材料出现之前：

水和面的比例

只能靠一次次试错来逼近

换个数据、换个环境、换个人操作

最优解都可能不一样

对模型态度的转变

在这样的背景下，把模型重新视为一个带参数的黑盒，并不意味着否定这些工作的价值。

它更像是一种位置上的战略回撤：

从执着于理解每一条内部连接，转向关注系统的整体行为、稳定边界与可控性。

PART 05

Reddit 评论背后的趋势思考

那条 Reddit 评论，可能并不只是“疲惫”

再往前看一步，我反而会觉得：

那位 Reddit 用户的判断，未必只是情绪化的“我学不动了”，而可能无意中触碰到了一个更长期的趋势。

当前大模型的静态本质

当前的大模型——无论是 residual 的加法，还是流形约束下的乘法——本质上仍然是静态结构。

只要：

seed 固定

训练流程确定

模型的行为，在统计意义上就是高度可复现的。此前也已经有研究指出，在这种前提下，模型输出的一致性是可以被严格保证的。

未来模型结构的动态化可能

如果真是这样，那么未来真正应该变化的，或许就不该是某一种固定结构或固定配方。

也许真正该变的，是「结构本身是否能动态调整」

也许在更远的未来：

pre-train 会被某种“自定义的 LLM”部分取代

模型不再完全遵循预先写死的公式

而是能够在训练、甚至推理过程中动态修改自己的结构、路径与参数分配方式

如果那一天真的到来，那么今天这些精妙却静态的架构，很可能都会成为过渡形态。

PART 06

对被点踩评论的再审视

回到那条被点踩的评论

现在再回头看那条 Reddit 评论，我反而觉得：

它之所以被点踩，不是因为它错了，而是因为它说得太早，也太直接了。

当模型已经进入「水多加面、面多加水」的阶段，承认个体在架构层面的边际贡献正在下降，也许并不是一种消极，而是一种对现实复杂度的诚实回应。

我开始把大模型当成黑盒了从 DeepSeek 的一篇论文，说起

热搜

热门跟贴

热搜

热门跟贴

相关推荐

大模型的下半场，属于拥有云+AI全栈引擎的玩家

一台个性化学习机发布背后，科大讯飞要让大模型长在场景里

字节领航、Kimi 爆发：红包大战落幕，AI行业变天

小云雀会成为字节的Higgsfield吗

道歉于事无补，OpenAI口碑跌进谷底

DeepSeek新突破来了！ DualPath系统让AI推理效率翻倍

从单一智能到多端AI互联，我在MWC高通展台看见了未来

中科院叫停高价OA期刊版面费，专家：没有过多影响，举双手赞成

一千多个模型都指向一个通用子空间

西湖大学排名全球第99位！这所年轻的高校，成功的原因揭秘

【DeepSeek谈艺】杨继锋·油画丨凝萃山河的诗意，叩响生命的回响

杆子是不是固定长度的，前半段靠实力，后半段全是靠技术！

第一次感受到了家族的威力，论文可以直接在家族群查重了吧！

银河证券：建议持续关注恒生互联网科技巨头低位布局机会

中国母女迪拜36万囤12张机票等回国

刚下飞机行李就没了！杭州姑娘花10多万去南极旅游却崩溃：衣物全靠借

和合伙人一起走进蔬菜大棚学习技术 助力农产品，没成想早就认可

朱小伟开车技术好，倒车入库一把过，比以前聪明了不少!

霍尔木兹海峡紧扼着哪些产油国"咽喉" 一图看懂

老师傅炸鱼，原来是这样操作的，五星级都没这技术！

和合伙人一起走进蔬菜大棚学习技术助力农产品，没成想早就认可