测试时缩放(TTS)想让大模型花更多算力换更好答案,但谁来决定怎么花这笔钱?过去全是人写规则。一支横跨六家机构的研究团队换了种思路:把规则制定权交给AI自己。

这个叫AutoTTS的项目核心很朴素——建一个离线模拟环境,预生成一批解题路径存起来,然后让AI代理在里面试各种控制策略。Claude Code负责具体搜索:回顾上一轮表现,找出弱点,直接写代码实现新算法。全程约160分钟,花费40美元。

打开网易新闻 查看精彩图片

出来的结果有点反直觉。代理设计的算法会追踪模型在多轮中的置信度变化,而非像常规方法那样一看多数票倾向就定型。如果置信度纹丝不动,它就新开更多解题路径;如果快速爬升,就集中资源深挖。这种动态调节在AIME、HMMT等数学基准上,用比标准自洽法少70%的token维持了同等准确率。

更意外的是迁移性。同一套控制逻辑放到DeepSeek-R1-Distill-Llama-8B和GPQA-Diamond非数学基准上照样管用。研究者认为,这说明代理找到的不是针对特定模型的技巧,而是对"宽度vs深度"这个控制空间的通用理解。

论文把已知方法重新框定为同一空间里的特例:宽度是同时跑多少条路径,深度是每条走多远。人类研究者习惯手绘路线,AutoTTS则让机器自己搜。模拟环境的存在让搜索成本可控——试几千种变体也不用每次都唤醒真实大模型。

为防搜索迷失在细枝末节,每个提案只能对外暴露一个高层控制器,由它自行设定内部阈值。完整日志则帮代理看清哪些尝试在空耗算力。这种约束下的自主探索,最终产出了人类可能永远不会想到的控制逻辑。