教授直言：AI突破关键非Transformer架构

丁铗惊悚影视解说

2026-05-06 09:13 ·四川

只要一提到大模型，很多人张口闭口就是Transformer架构有多么颠覆。似乎掌握了架构设计，就拿到了通往通用人工智能的门票。

普林斯顿大学助理教授庄刘（Zhuang Liu）在最近的一次交流中，直接打破了这种固有认知。

作为在深度学习架构领域的顶尖学者，他明确指出，在实际应用中，有很多因素远比单纯的架构选择重要得多。

现在学术界在AI架构研究上到底处于什么状态？在落地应用时，决定AI表现的究竟是什么？

相比于前几年各种新架构层出不穷，现在的学术界在底层架构研究上，变得没有那么活跃了。

庄刘教授坦诚地点出了痛点：学术界现在根本负担不起足够大的计算规模，来在有说服力的体量上去验证这些架构创新的效果。

理想情况下，如果有了新的架构点子，应该在最前沿的规模上进行验证。不一定是万亿美元级别，但至少也得在70亿、或者300亿参数这样的庞大规模上跑出效果。

因为工业界需要看到这个规模的收益才会信服。

目前，反而是那些拥有开放权重模型的科技公司，比如Kimi、DeepSeek等，还在不断地摆弄和优化架构。他们有大量的计算资源去测试如何修改残差连接，以及如何连接不同的网络层。

受限于算力资源，学术界在超大规模底层架构的探索上面临困难。但这并不意味着探索停止，庄刘教授表示，他自己还是会在大学现有的资源下试着研究，借助云代码工具亲手写代码进行验证。

那么，所谓的“颠覆性架构”真的不可替代吗？庄刘团队在2021年做了一项名为“面向20年代的卷积网络”的研究。

当时，Transformer刚进入计算机视觉领域，性能极其亮眼，整个视觉圈子都在从传统的卷积网络往视觉Transformer迁移。

他们想搞清楚：这种性能差距，究竟是因为自注意力机制的内在优势，还是因为其他细小的设计细节？

研究得出的答案是后者。他们通过系统性地控制设计组件，将卷积网络进行了现代化改造，比如调整激活函数的使用、减少归一化层。

结果发现，改造后的卷积网络在各种任务上，都能跟当时极强的视觉Transformer打平。

根本没有任何一个单一的改动能瞬间拉升性能，真正起作用的是把所有的小细节组合在一起。这些小细节的组合，比看起来像是网络核心组件的改变要重要得多。

只要输入输出接口保持不变，不管选哪种架构，只要用上残差连接、自注意力等合理机制，在合适位置放对激活函数和前馈层，最终都会非常接近性能与效率的最高前沿。在过去很多年里，除了成熟架构，并没有什么真正被广泛采用的根本性创新。

既然架构选择不是唯一的决定性因素，在实际应用中，什么才是最核心的命门？

庄刘教授给出了肯定的答案：用什么数据来训练模型，比架构的选择重要得多。

一旦用更多的计算、更多样化的大规模互联网数据去训练，同样的模型就会涌现出极具竞争力的性能。深度学习最大的启示是：你想让模型在哪方面做得好，就必须针对那方面去训练。

为了让模型什么都会，普遍的假设是模型需要在训练时见过所有的东西。但计算资源和模型容量是有限的，模型学到的不同能力之间会相互竞争。

如何平衡不同数据领域是关键。庄刘教授提到，不能让“怎么理发”的话题跟“怎么编程”拥有同样多的数据，因为编程显然更重要。需要把关心的所有领域大致划分出来，在训练集里让它们保持恰当的配比。

如果你希望模型在面向用户时对各种任务都有不错的能力，那么在训练集里拥有足够的数据就是最合理的解法。

现在的模型能力很强，但人类有超强的记忆力，模型却比不上。在职业和个人生涯里，有太多东西我们希望模型能记住，比如互动历史、偏好等，这样就不必反复去讲。

如何不让模型遗忘，这是持续学习需要解决的问题。如果能成功解决记忆问题，会比搭建协作式智能体更有价值。之所以需要大量智能体分开做不同任务，就是因为一个智能体记不住所有事情。

除了记忆，对于不同类型的工作，模型的需求也不同。对于数字工作、白领工作，很多事在数字空间里完成，可能只需要一个能读懂电脑屏幕的模型，不需要世界模型。

但对于体力劳动，比如建筑、开车、理发、医疗手术等物理活动，工作中的反馈非常精细，这确实需要视觉世界模型。超过半数的工作想真正做好的话，都需要视觉世界模型。

综上所述，当前的AI领域，学术界受限于算力规模，在超大架构研究上面临门槛。而研究也表明，细致的组件优化往往能达到与核心架构改变相似的效果。

在实际落地应用中，优质、海量且配比合理的数据，是决定模型能力的关键。未来，谁能突破模型长久记忆与持续学习的瓶颈，谁能构建出适应物理世界的视觉世界模型，谁就能让AI产生真正的质变。

对于AI总是记不住你的指令和偏好这件事，你在日常使用中有没有遇到过类似的烦恼？欢迎在评论区留下你的看法！

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴