Transformer共同作者的反思：我们可能正在浪费时间

我不叫阿哏

2026-01-11 14:03 ·广东

Transformer论文的共同作者Llion Jones最近在ML Street Talk播客上说了一番发人深省的话。

他回忆道：在Transformer出现之前，RNN是绝对的主流。所有人都在研究如何改进RNN——把门控放在不同位置、调整各种细节。语言建模的性能从1.26慢慢优化到1.25 bits per character，大家都觉得这是进步。

然后Transformer来了。

当他们把深层decoder-only Transformer应用到同样的任务时，直接就达到了1.1 bits per character。那一刻，之前所有关于RNN的研究突然显得像是在浪费时间。

Jones坦言：我们现在可能正处于完全相同的困境中。无数论文都在对Transformer做各种微调——MoE、注意力机制变体、架构小改动——我们很可能陷入了一个局部最优，正在以同样的方式浪费时间。

“我个人不认为Transformer是终点。我不认为这就是最终架构，只需要不断扩大规模就行。某个时刻会出现新的突破，届时我们会再次意识到，现在做的很多事情其实是在原地打转。”

这番话之所以震撼，是因为说这话的人亲手终结了上一代研究者的努力。他比任何人都清楚范式转换的残酷性。

这里有一个认知陷阱：你永远无法从内部判断自己是否困在局部最优里。从里面看，一切都像是进步。RNN的性能确实在持续提升，直到Transformer让它变得无关紧要。

更棘手的是研究激励机制的问题。发表Transformer的增量改进能带来引用和职位，而尝试可能失败的全新架构往往什么都得不到。于是所有人都理性地选择优化当前范式，即便集体层面我们可能已经卡住了。

有人用库恩的科学哲学来解读这件事：这正是常规科学与范式转换的区别。我们可能还需要两到三次范式转换才能真正接近AGI。

当然也有不同声音。有人指出，RNN时代的很多研究成果后来被应用到了Transformer上，并非完全白费。还有人认为，即便是局部最优，当前的Transformer可能已经足够强大，能支撑我们走很远。

但Jones的核心洞察依然成立：每一次范式转换，事后看都是对之前努力的否定，但在当时看都是必要的探索。我们无法跳过这个阶段，只能希望有人能更快找到出口。

最诚实的部分是：他并没有声称知道下一个突破是什么，只是指出Transformer大概率不是长期答案。这很坦诚，但确实不可操作。

也许真正的问题是：当所有人都在打磨同一块石头时，谁愿意去翻开另一块？

x.com/NielsRogge/status/2009338666053689643

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴