北京中关村学院、哈工大还有中科院自动化所的博士生及教授,整出个叫TrajSelector的东西。

这玩意儿没搞堆参数的套路,就琢磨着怎么把大模型自己的“隐藏状态”用起来,居然让Best-of-N从实验室里的理论,变成了能落地用的真东西。

打开网易新闻 查看精彩图片

现在做大模型推理的,要么愁效果要么愁成本,这方案算是踩在了痛点上。

传统选优套路,要么瞎猜要么烧钱,没一个省心的

大模型做数学题这类推理任务,想提效就绕不开Test-TimeScaling。

内部优化的思路快走到头了,大家就盯上了外部优化的Best-of-N让模型出多条推理路径,再挑个最对的。

打开网易新闻 查看精彩图片

可怎么挑,成了大难题。

投票法是最常用的,哪个答案出现次数多就选哪个。

这方法跟瞎蒙没差多少。

有研究早就说了,正确答案往往藏在少数路径里,用投票法选,大概率会错过对的。

打开网易新闻 查看精彩图片

我见过用它做AMC23题的测试,正确答案只出现3次,投票法直接选了出现8次的错答案,这能靠谱才怪。

另一个是过程奖励模型,用个额外模型给每步推理打分。

可这模型性能忽高忽低,关键是它压根不是为外部TTS设计的。

打开网易新闻 查看精彩图片

7B参数的模型,投入成本高不说,在AIME24测试里准确率波动能差出一大截,落地用着太闹心。

如此看来,这两种老办法,都解决不了“又准又省”的核心需求。

聊完传统方法的坑,再看看TrajSelector是怎么把这些问题理顺的。

打开网易新闻 查看精彩图片

它没走堆参数的老路,反而盯上了大模型里没被好好用的“隐藏状态”。

TrajSelector破局:小模型挖宝藏,轻量还比大模型管用

大模型的隐藏状态里,藏着不少“自我反思信号”。

比如解数学题时,某一步的隐藏状态,其实已经记下了“这步推导合不合理”,就是没被显式用起来。

打开网易新闻 查看精彩图片

TrajSelector的想法,就是把这些信号挖出来用。

它的流程特简单,就三步。

打开网易新闻 查看精彩图片

先让冻结的策略模型并行采样,出多条推理路径和对应的隐藏状态;再用个0.6B参数的轻量模型,靠着这些隐藏状态给每步打分别看模型小,它能复用策略模型的编码能力,比7B的过程奖励模型效果还好;最后把每步分数平均一下,选总分最高的路径当答案。

训练的时候,它也没搞复杂。

打开网易新闻 查看精彩图片

传统过程奖励模型要人工给每步标对错,成本高到离谱。

TrajSelector不用这一套,借鉴了FreePRM的损失函数,加了个“buffer”吸收噪声。

本来想觉得没有人工标注,模型学不会抓重点,但后来发现,数据驱动下它自己就能学会怎么判断推理步骤好坏,太省心了。

打开网易新闻 查看精彩图片

实验效果也实打实。

用Qwen3-8B当基座,在AMC23、AIME24这些基准测试里,不管N设成16还是32,它的准确率都比投票法和7B过程奖励模型高。

而且随着N增大,性能一直稳着涨,不会像老方法那样忽高忽低。

打开网易新闻 查看精彩图片

毫无疑问,这种稳定的增益,才是落地时最需要的。

现在这方案已经开始落地了。

有教育AI平台用了它,数学解题模块不卡顿了,投入成本也降了不少,每天能服务上万学生。

小型科研团队也受益了,不用买高价GPU,用这轻量方案就能实现不错的推理效果。

打开网易新闻 查看精彩图片

更何况,它证明了大模型优化不一定非要往大了做,把现有能力用聪明点,反而更实用。

TrajSelector给大模型推理指了条新路子:与其追求更大的模型,不如更聪明地用现有模型的能力。

隐藏状态里的自我反思信号,是还没被挖透的宝藏。

打开网易新闻 查看精彩图片

对于想落地大模型推理的场景来说,这种轻量、高效、低成本的方案,才是让技术从实验室走向实用化的关键。

TrajSelector 给大模型推理优化提供了一个重要思路:与其追求更大的模型,不如更聪明地利用现有模型的能力

打开网易新闻 查看精彩图片

它用 0.6B 的轻量级验证器,实现了比 7B PRM 更好的效果,证明了 “隐藏状态中的自我反思信号” 是未被充分挖掘的宝藏。

对于需要落地大模型推理的场景(比如教育、科研计算),TrajSelector 的高效性和低成本特性,让 “Best-of-N” 从 “实验室方案” 真正走向 “实用化”。

打开网易新闻 查看精彩图片

我觉得,未来会有更多人放弃堆参数的执念,转而学着从模型内部挖潜力毕竟,实用才是技术最该有的样子。