让AI自己找优化算法：Claude Code发现人类想不到的推理策略

我是一个粉刷匠2

2026-05-25 02:17 ·北京

测试时缩放（TTS）想让大模型花更多算力换更好答案，但谁来决定怎么花这笔钱？过去全是人写规则。一支横跨六家机构的研究团队换了种思路：把规则制定权交给AI自己。

这个叫AutoTTS的项目核心很朴素——建一个离线模拟环境，预生成一批解题路径存起来，然后让AI代理在里面试各种控制策略。Claude Code负责具体搜索：回顾上一轮表现，找出弱点，直接写代码实现新算法。全程约160分钟，花费40美元。

出来的结果有点反直觉。代理设计的算法会追踪模型在多轮中的置信度变化，而非像常规方法那样一看多数票倾向就定型。如果置信度纹丝不动，它就新开更多解题路径；如果快速爬升，就集中资源深挖。这种动态调节在AIME、HMMT等数学基准上，用比标准自洽法少70%的token维持了同等准确率。

更意外的是迁移性。同一套控制逻辑放到DeepSeek-R1-Distill-Llama-8B和GPQA-Diamond非数学基准上照样管用。研究者认为，这说明代理找到的不是针对特定模型的技巧，而是对"宽度vs深度"这个控制空间的通用理解。

论文把已知方法重新框定为同一空间里的特例：宽度是同时跑多少条路径，深度是每条走多远。人类研究者习惯手绘路线，AutoTTS则让机器自己搜。模拟环境的存在让搜索成本可控——试几千种变体也不用每次都唤醒真实大模型。

为防搜索迷失在细枝末节，每个提案只能对外暴露一个高层控制器，由它自行设定内部阈值。完整日志则帮代理看清哪些尝试在空耗算力。这种约束下的自主探索，最终产出了人类可能永远不会想到的控制逻辑。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴