基于Claude的思考链传递架构，赢了1题贵了15倍|token|传递架构|思考链|推理|新论文|智能体

ArXiv上一篇编号2604.25917的论文《RecursiveMAS》提出了一个好玩的想法：让AI智能体在协作时，不只传递最终答案，而是把内部推理过程中的潜在嵌入（latent embeddings）传给下一个智能体。下一个智能体基于前者的推理状态继续工作，这套方法在基准测试上的平均准确率提升了8.3个点。论文的结果不错，但有个前提——你得能用开源权重模型，推理时能拿出隐藏层状态。

Claude、GPT-4o、Gemini这类API服务都做不到。我尝试用Anthropic的扩展思考API来重新实现这套逻辑，思路是转移核心思想：论文管这叫内部状态共享，我这边做的是思考文本的中继传递。Claude的扩展思考文本块带有加密签名，绑定了原始对话。你没法把一个带签名的思考块硬塞进另一个智能体的消息数组里，API会直接拒绝。所以处理办法是：从思考块里把文本提出来，作为普通用户消息注入到下一个智能体中。签名不跟着过去，但推理内容传过去了。

我搭出的第一版架构是一套Planner→Critic→Solver的循环，每个智能体输出的不是原始思考文本，而是一份精简的脑内建模JSON。为什么这么设计？在1024个token的思考预算内，原始思考往往是压缩且碎片化的。我的假设是：150个token的结构化信号，每个token携带的信息量比1024个token的压缩散文更高。JSON结构里包含了智能体对问题的解读、关键步骤、被否决的尝试路径、置信度评分以及潜在错误点。其中，confidence和potential_errors是两个承重字段，它们告诉下游智能体该把质疑的力气花在哪里，而不需要下游去反刍完整的推理过程。

结果怎么样？准确率多了2个点。但代价是15倍的token消耗。在50道题的测试集里，这套结构化传递方案只比基线多赢了1道题。方向对，但成本比没法直接用。如果要为每个请求完整跑一遍Planner→Critic→Solver链，2个点的收益在n=50的样本量下撑不起这个开销。

显然下一步会想到：让智能体2在生成自己的答案之前先读智能体1的JSON报告。我没这么做。问题是锚定效应——智能体2在看到前一个人的答案后才形成自己的判断，就会倾向于附和确认，而不是提出独立质疑。整套实验指向一个关键的权衡：用结构化摘要传递推理线索，确实能让下游智能体更精准地定位可信度薄弱点，但token成本的膨胀幅度说明，这种做法的实际部署门槛还很高。