实验室到落地！TrajSelector让大模型推理，不用烧钱堆参数

卷史

2025-11-12 16:39 ·上海

北京中关村学院、哈工大还有中科院自动化所的博士生及教授，整出个叫TrajSelector的东西。

这玩意儿没搞堆参数的套路，就琢磨着怎么把大模型自己的“隐藏状态”用起来，居然让Best-of-N从实验室里的理论，变成了能落地用的真东西。

现在做大模型推理的，要么愁效果要么愁成本，这方案算是踩在了痛点上。

传统选优套路，要么瞎猜要么烧钱，没一个省心的

大模型做数学题这类推理任务，想提效就绕不开Test-TimeScaling。

内部优化的思路快走到头了，大家就盯上了外部优化的Best-of-N让模型出多条推理路径，再挑个最对的。

可怎么挑，成了大难题。

投票法是最常用的，哪个答案出现次数多就选哪个。

这方法跟瞎蒙没差多少。

有研究早就说了，正确答案往往藏在少数路径里，用投票法选，大概率会错过对的。

我见过用它做AMC23题的测试，正确答案只出现3次，投票法直接选了出现8次的错答案，这能靠谱才怪。

另一个是过程奖励模型，用个额外模型给每步推理打分。

可这模型性能忽高忽低，关键是它压根不是为外部TTS设计的。

7B参数的模型，投入成本高不说，在AIME24测试里准确率波动能差出一大截，落地用着太闹心。

如此看来，这两种老办法，都解决不了“又准又省”的核心需求。

聊完传统方法的坑，再看看TrajSelector是怎么把这些问题理顺的。

它没走堆参数的老路，反而盯上了大模型里没被好好用的“隐藏状态”。

TrajSelector破局：小模型挖宝藏，轻量还比大模型管用

大模型的隐藏状态里，藏着不少“自我反思信号”。

比如解数学题时，某一步的隐藏状态，其实已经记下了“这步推导合不合理”，就是没被显式用起来。

TrajSelector的想法，就是把这些信号挖出来用。

它的流程特简单，就三步。

先让冻结的策略模型并行采样，出多条推理路径和对应的隐藏状态；再用个0.6B参数的轻量模型，靠着这些隐藏状态给每步打分别看模型小，它能复用策略模型的编码能力，比7B的过程奖励模型效果还好；最后把每步分数平均一下，选总分最高的路径当答案。

训练的时候，它也没搞复杂。

传统过程奖励模型要人工给每步标对错，成本高到离谱。

TrajSelector不用这一套，借鉴了FreePRM的损失函数，加了个“buffer”吸收噪声。

本来想觉得没有人工标注，模型学不会抓重点，但后来发现，数据驱动下它自己就能学会怎么判断推理步骤好坏，太省心了。

实验效果也实打实。

用Qwen3-8B当基座，在AMC23、AIME24这些基准测试里，不管N设成16还是32，它的准确率都比投票法和7B过程奖励模型高。

而且随着N增大，性能一直稳着涨，不会像老方法那样忽高忽低。

毫无疑问，这种稳定的增益，才是落地时最需要的。

现在这方案已经开始落地了。

有教育AI平台用了它，数学解题模块不卡顿了，投入成本也降了不少，每天能服务上万学生。

小型科研团队也受益了，不用买高价GPU，用这轻量方案就能实现不错的推理效果。

更何况，它证明了大模型优化不一定非要往大了做，把现有能力用聪明点，反而更实用。

TrajSelector给大模型推理指了条新路子：与其追求更大的模型，不如更聪明地用现有模型的能力。

隐藏状态里的自我反思信号，是还没被挖透的宝藏。

对于想落地大模型推理的场景来说，这种轻量、高效、低成本的方案，才是让技术从实验室走向实用化的关键。

TrajSelector 给大模型推理优化提供了一个重要思路：与其追求更大的模型，不如更聪明地利用现有模型的能力。

它用 0.6B 的轻量级验证器，实现了比 7B PRM 更好的效果，证明了 “隐藏状态中的自我反思信号” 是未被充分挖掘的宝藏。

对于需要落地大模型推理的场景（比如教育、科研计算），TrajSelector 的高效性和低成本特性，让 “Best-of-N” 从 “实验室方案” 真正走向 “实用化”。

我觉得，未来会有更多人放弃堆参数的执念，转而学着从模型内部挖潜力毕竟，实用才是技术最该有的样子。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴