ArXiv上一篇编号2604.25917的论文《RecursiveMAS》提出了一个好玩的想法:让AI智能体在协作时,不只传递最终答案,而是把内部推理过程中的潜在嵌入(latent embeddings)传给下一个智能体。下一个智能体基于前者的推理状态继续工作,这套方法在基准测试上的平均准确率提升了8.3个点。论文的结果不错,但有个前提——你得能用开源权重模型,推理时能拿出隐藏层状态。
Claude、GPT-4o、Gemini这类API服务都做不到。我尝试用Anthropic的扩展思考API来重新实现这套逻辑,思路是转移核心思想:论文管这叫内部状态共享,我这边做的是思考文本的中继传递。Claude的扩展思考文本块带有加密签名,绑定了原始对话。你没法把一个带签名的思考块硬塞进另一个智能体的消息数组里,API会直接拒绝。所以处理办法是:从思考块里把文本提出来,作为普通用户消息注入到下一个智能体中。签名不跟着过去,但推理内容传过去了。
我搭出的第一版架构是一套Planner→Critic→Solver的循环,每个智能体输出的不是原始思考文本,而是一份精简的脑内建模JSON。为什么这么设计?在1024个token的思考预算内,原始思考往往是压缩且碎片化的。我的假设是:150个token的结构化信号,每个token携带的信息量比1024个token的压缩散文更高。JSON结构里包含了智能体对问题的解读、关键步骤、被否决的尝试路径、置信度评分以及潜在错误点。其中,confidence和potential_errors是两个承重字段,它们告诉下游智能体该把质疑的力气花在哪里,而不需要下游去反刍完整的推理过程。
结果怎么样?准确率多了2个点。但代价是15倍的token消耗。在50道题的测试集里,这套结构化传递方案只比基线多赢了1道题。方向对,但成本比没法直接用。如果要为每个请求完整跑一遍Planner→Critic→Solver链,2个点的收益在n=50的样本量下撑不起这个开销。
显然下一步会想到:让智能体2在生成自己的答案之前先读智能体1的JSON报告。我没这么做。问题是锚定效应——智能体2在看到前一个人的答案后才形成自己的判断,就会倾向于附和确认,而不是提出独立质疑。整套实验指向一个关键的权衡:用结构化摘要传递推理线索,确实能让下游智能体更精准地定位可信度薄弱点,但token成本的膨胀幅度说明,这种做法的实际部署门槛还很高。
热门跟贴