Transformer论文的共同作者Llion Jones最近在ML Street Talk播客上说了一番发人深省的话。
他回忆道:在Transformer出现之前,RNN是绝对的主流。所有人都在研究如何改进RNN——把门控放在不同位置、调整各种细节。语言建模的性能从1.26慢慢优化到1.25 bits per character,大家都觉得这是进步。
然后Transformer来了。
当他们把深层decoder-only Transformer应用到同样的任务时,直接就达到了1.1 bits per character。那一刻,之前所有关于RNN的研究突然显得像是在浪费时间。
Jones坦言:我们现在可能正处于完全相同的困境中。无数论文都在对Transformer做各种微调——MoE、注意力机制变体、架构小改动——我们很可能陷入了一个局部最优,正在以同样的方式浪费时间。
“我个人不认为Transformer是终点。我不认为这就是最终架构,只需要不断扩大规模就行。某个时刻会出现新的突破,届时我们会再次意识到,现在做的很多事情其实是在原地打转。”
这番话之所以震撼,是因为说这话的人亲手终结了上一代研究者的努力。他比任何人都清楚范式转换的残酷性。
这里有一个认知陷阱:你永远无法从内部判断自己是否困在局部最优里。从里面看,一切都像是进步。RNN的性能确实在持续提升,直到Transformer让它变得无关紧要。
更棘手的是研究激励机制的问题。发表Transformer的增量改进能带来引用和职位,而尝试可能失败的全新架构往往什么都得不到。于是所有人都理性地选择优化当前范式,即便集体层面我们可能已经卡住了。
有人用库恩的科学哲学来解读这件事:这正是常规科学与范式转换的区别。我们可能还需要两到三次范式转换才能真正接近AGI。
当然也有不同声音。有人指出,RNN时代的很多研究成果后来被应用到了Transformer上,并非完全白费。还有人认为,即便是局部最优,当前的Transformer可能已经足够强大,能支撑我们走很远。
但Jones的核心洞察依然成立:每一次范式转换,事后看都是对之前努力的否定,但在当时看都是必要的探索。我们无法跳过这个阶段,只能希望有人能更快找到出口。
最诚实的部分是:他并没有声称知道下一个突破是什么,只是指出Transformer大概率不是长期答案。这很坦诚,但确实不可操作。
也许真正的问题是:当所有人都在打磨同一块石头时,谁愿意去翻开另一块?
x.com/NielsRogge/status/2009338666053689643
热门跟贴