只要一提到大模型,很多人张口闭口就是Transformer架构有多么颠覆。似乎掌握了架构设计,就拿到了通往通用人工智能的门票。
普林斯顿大学助理教授庄刘(Zhuang Liu)在最近的一次交流中,直接打破了这种固有认知。
作为在深度学习架构领域的顶尖学者,他明确指出,在实际应用中,有很多因素远比单纯的架构选择重要得多。
现在学术界在AI架构研究上到底处于什么状态?在落地应用时,决定AI表现的究竟是什么?
相比于前几年各种新架构层出不穷,现在的学术界在底层架构研究上,变得没有那么活跃了。
庄刘教授坦诚地点出了痛点:学术界现在根本负担不起足够大的计算规模,来在有说服力的体量上去验证这些架构创新的效果。
理想情况下,如果有了新的架构点子,应该在最前沿的规模上进行验证。不一定是万亿美元级别,但至少也得在70亿、或者300亿参数这样的庞大规模上跑出效果。
因为工业界需要看到这个规模的收益才会信服。
目前,反而是那些拥有开放权重模型的科技公司,比如Kimi、DeepSeek等,还在不断地摆弄和优化架构。他们有大量的计算资源去测试如何修改残差连接,以及如何连接不同的网络层。
受限于算力资源,学术界在超大规模底层架构的探索上面临困难。但这并不意味着探索停止,庄刘教授表示,他自己还是会在大学现有的资源下试着研究,借助云代码工具亲手写代码进行验证。
那么,所谓的“颠覆性架构”真的不可替代吗?庄刘团队在2021年做了一项名为“面向20年代的卷积网络”的研究。
当时,Transformer刚进入计算机视觉领域,性能极其亮眼,整个视觉圈子都在从传统的卷积网络往视觉Transformer迁移。
他们想搞清楚:这种性能差距,究竟是因为自注意力机制的内在优势,还是因为其他细小的设计细节?
研究得出的答案是后者。他们通过系统性地控制设计组件,将卷积网络进行了现代化改造,比如调整激活函数的使用、减少归一化层。
结果发现,改造后的卷积网络在各种任务上,都能跟当时极强的视觉Transformer打平。
根本没有任何一个单一的改动能瞬间拉升性能,真正起作用的是把所有的小细节组合在一起。这些小细节的组合,比看起来像是网络核心组件的改变要重要得多。
只要输入输出接口保持不变,不管选哪种架构,只要用上残差连接、自注意力等合理机制,在合适位置放对激活函数和前馈层,最终都会非常接近性能与效率的最高前沿。在过去很多年里,除了成熟架构,并没有什么真正被广泛采用的根本性创新。
既然架构选择不是唯一的决定性因素,在实际应用中,什么才是最核心的命门?
庄刘教授给出了肯定的答案:用什么数据来训练模型,比架构的选择重要得多。
一旦用更多的计算、更多样化的大规模互联网数据去训练,同样的模型就会涌现出极具竞争力的性能。深度学习最大的启示是:你想让模型在哪方面做得好,就必须针对那方面去训练。
为了让模型什么都会,普遍的假设是模型需要在训练时见过所有的东西。但计算资源和模型容量是有限的,模型学到的不同能力之间会相互竞争。
如何平衡不同数据领域是关键。庄刘教授提到,不能让“怎么理发”的话题跟“怎么编程”拥有同样多的数据,因为编程显然更重要。需要把关心的所有领域大致划分出来,在训练集里让它们保持恰当的配比。
如果你希望模型在面向用户时对各种任务都有不错的能力,那么在训练集里拥有足够的数据就是最合理的解法。
现在的模型能力很强,但人类有超强的记忆力,模型却比不上。在职业和个人生涯里,有太多东西我们希望模型能记住,比如互动历史、偏好等,这样就不必反复去讲。
如何不让模型遗忘,这是持续学习需要解决的问题。如果能成功解决记忆问题,会比搭建协作式智能体更有价值。之所以需要大量智能体分开做不同任务,就是因为一个智能体记不住所有事情。
除了记忆,对于不同类型的工作,模型的需求也不同。对于数字工作、白领工作,很多事在数字空间里完成,可能只需要一个能读懂电脑屏幕的模型,不需要世界模型。
但对于体力劳动,比如建筑、开车、理发、医疗手术等物理活动,工作中的反馈非常精细,这确实需要视觉世界模型。超过半数的工作想真正做好的话,都需要视觉世界模型。
综上所述,当前的AI领域,学术界受限于算力规模,在超大架构研究上面临门槛。而研究也表明,细致的组件优化往往能达到与核心架构改变相似的效果。
在实际落地应用中,优质、海量且配比合理的数据,是决定模型能力的关键。未来,谁能突破模型长久记忆与持续学习的瓶颈,谁能构建出适应物理世界的视觉世界模型,谁就能让AI产生真正的质变。
对于AI总是记不住你的指令和偏好这件事,你在日常使用中有没有遇到过类似的烦恼?欢迎在评论区留下你的看法!
热门跟贴