同一周,两个互不认识的团队,分别在南加州大学和卡内基梅隆大学,几乎同时把同一套想法塞进了预印本。没有商量,没有引用,连城市都隔着几千公里。这种巧合在学术界是一条暗号——说明某个结论已经自己“熟”在空气里了。他们想的是同一件事:让大语言模型推理,不该靠暴力穷举,而是像一颗弹珠滚向山谷底部那样,自动滑向正确答案。

往前看半步,才能理解这件事值得兴奋在哪。

打开网易新闻 查看精彩图片

现在我们想从模型嘴里掏出一份靠谱的推理结果,主流的玩法叫“测试时扩展”——名字听上去挺讲究,操作起来却直白得近乎粗糙。你让模型把同一道题做很多遍,生成上百个答案,然后用一套规则挑出一个最好的。这确实管用,以至于整个行业的推理能力竞赛,一度就变成了“谁花得起更多算力,谁就更快一步”。可它骨子里是暴力的:每一次尝试都在凭空消耗算力和电力,而且花掉的双倍投入,换不来双倍质量的回报。

用卡内基梅隆大学这组人的话说,这就像找钥匙的时候,你不去顺着线索找,而是随机去推每一扇门。门够多总能撞开,但没人能保证你是在“逼近”,还只是在碰运气。他们真正想解决的,就是把碰运气改成一寸一寸往正确方向趟过去。

于是就有了那个山谷弹珠的比喻。

想象一片起伏的地貌,有山脊也有谷底。你抬起手,把一颗弹珠随意丢在某个位置,接下来什么都不用做——它自己会沿着坡度滚落到近旁最低的那一点,停稳,不再动弹。那个停稳的位置在动力学里叫作“吸引子”,一个系统无需外力干预就会自然落定的稳定状态。这篇名为《均衡推理器》的论文,就想把整个回答过程训练成这么一副地貌:正确答案是谷底,模型发出的每一次中间演算,都是在重力方向上滚一步。

如果这一步走通了,“多想想”就不再是多买几张彩票,而是理所当然地把弹珠往谷底多推一点。算力花得越多,离答案就越近——不是概率,而是属性。另一个微妙的好处是,当弹珠彻底停住的时候,就说明它已经坠到谷底了,不需要再请一个裁判来比较一堆答案里谁更靠谱。模型的推演过程自己就能宣告结束,收敛本身就是一个自带的验证信号。

同一个命题在这一两周被三篇独立论文从不同角度撞上。《均衡推理器》是其中一极,把“思考”重新定义为一种向平衡点的坠落。其余的几项工作也像约好了似的,各自在架构里埋进类似的引信。放在一起看,它们留下的线索比任何单篇都要清晰:一个让模型从“打开所有门”变成“自动滚进锁孔”的转折点,可能真的就在眼前了。