打开网易新闻 查看精彩图片

多Agent协作被吹成AI解题的终极答案,斯坦福团队直接掀桌。他们给单模型和多Agent团队分配同等算力,结果单挑几乎全胜。

研究团队测试了Qwen3、DeepSeek-R1、Gemini 2.5等主流模型,覆盖链式推理、辩论、集成五种团队架构。核心发现:Agent之间每传递一次中间结果,信息就漏一点。单模型则把推理链攥在手里,一气呵成。

但团队也留了后路。他们造了个词叫"上下文腐烂"——模型处理长文本时,中间信息最容易被忽略。这时候把任务拆开,多个Agent各管一段,反而能捞回关键细节。实验里故意把输入文本搞乱,团队架构确实反超。

另一个反直觉结论:基础模型越弱,组队收益越高。单Agent容易钻牛角尖,多Agent像撒网捕鱼,偶尔能捞到漏网之鱼。辩论模式被验证为最强团队配置。

研究只测了文本推理,工具调用和图像处理不在范围内。论文预印本已挂出,多Agent信徒们可以开始找补了。