本文的主要作者来自上海交通大学自动化与感知学院 i-WiN 中心团队,团队负责人是上海交通大学讲席教授关新平。本文的通讯作者为 i-WiN 中心陈彩莲教授和关新平教授,指导老师还包括中心的许齐敏副研究员、徐磊和张延洲助理研究员。本文的第一作者为上海交通大学博士生王思宇,研究方向涉及多模态大模型、CAD 生成、多智能体、Agentic RL 等。
在当下 Vibe Coding 火热的背景下,软件开发正迅速从 “人写代码” 转向 “人指挥智能体写代码”。以 Claude Code、OpenClaw 为代表的系统,让智能体能够自主完成编码、调试乃至完整任务流程。然而,面对系统级开发或竞赛级算法等复杂问题,单一模型的能力边界依然明显,多智能体协作逐渐成为主流范式
但现有方法大多仍停留在两种典型路径。一类如 Claude Code 的Agent Teams,通过并行调用多个模型来提升能力上限,但也带来了极高的 Token 成本;另一类则以当下热门的 OpenClaw 为代表,通过技能组合与流程编排实现多智能体管理,在工程上更可控。
然而,这类方法的协作结构大多仍依赖预定义规则或静态流程,本质上解决的是 “如何组织调用”,而非 “如何根据任务动态调整协作方式”。这就像不论修自行车还是造火箭,都派同一个十人专家组开三天会,导致智能体冗余通讯与大量的 Token 消耗,最终给用户带来了极高的自主编程成本
上海交通大学 i-WiN 团队最新提出多智能体框架AgentConductor,通过引入一个经过强化学习训练后的3B 参数指挥智能体,从根本上解决了这个问题。它会先评估任务难度,并生成一张以 YAML 表示的交互拓扑图:简单任务使用轻量团队,复杂任务则使用更复杂的交互图,实现能力与成本的自适应匹配。
图 1.(a) 拓扑结构的 YAML 表示与实际图结构的映射;(b) AgentConductor 拓扑生成与演化过程展示
更关键的是,AgentConductor 并非一次性规划:当生成代码运行失败时,指挥智能体会根据环境反馈的错误信息,结合记忆中的历史轨迹,对拓扑进行端到端重新生成,从而探索新的协作形式。实验结果表明,该方法在显著提升编码准确率(+14.6%)的同时,将 Token 成本降低了 68%。这说明真正高效的 AI 编程团队需要的是一种面向任务、可随执行反馈动态演化的协作结构,而非僵化的一刀切工作流。相关论文已经公开,代码将于近期开源。
- 论文名称:AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation
- 论文链接:https://arxiv.org/abs/2602.17100
社区影响力
图 2 展示了 AgentConductor 工作在国际 AI 社区 (X, 前身 Twitter) 引发的广泛关注与认可。这项工作被知名 AI 分享博主 DAIR.AI 当日置顶宣传并评为 2026 年 2 月 23 日–3 月 1 日 Top AI Papers,并获得新锐 AI 科技博主 Rohan Paul 对 i-WiN 团队和论文的高度评价。
图 2.AgentConductor 得到 DAIR.AI 与 Rohan Paul 等账号推荐
核心特色与方法介绍
1. 基于 YAML 的新型多智能体交互图结构
相比传统多智能体拓扑,我们在表示形式与交互机制两个层面进行了设计与优化。
1.1 表示形式
传统方法多采用连接矩阵等数学形式来描述交互图,不仅可读性差,也难以直接编辑与校验,更无法由大模型端到端生成;近期工作尝试使用自然语言描述,但存在拓扑不严格、难以结构化约束等问题。我们使用 YAML 结构化表示交互图 (图 1 (a)),使其既具备可读性,又支持程序化校验与约束,并可由 LLM 直接生成。这种形式在设计上与当前流行的Skill 配置文件具有一致性,便于理解与落地。
图 3. 本文交互拓扑结构与传统方法的对比
1.2 交互形式
如图 3 所示,传统链式、树状拓扑分别限制并行性、通信范围或连接灵活性,而全连接结构又过于复杂。我们融合多种拓扑优势,支持层内并行和跨层通讯且每个智能体可任意链接之前的历史节点,在提升表达能力的同时避免不必要的通信开销
2. 训练范式
2.1 SFT + GRPO 的两阶段训练范式
AgentConductor 采用两阶段训练策略,只训练一个指挥智能体:
监督微调(SFT):基于 GPT-4o 生成的 4,500 个高质量拓扑样本(覆盖三档难度),赋予基础模型拓扑先验;
基于 GRPO 的多轮端到端 Agentic 强化学习训练:将环境反馈的代码报错和多轮的拓扑文本一起作为轨迹 (Trajectory) 来用于智能体的强化学习训练,基于 GRPO 算法优化模型的拓扑生成策略以最大化复合奖励,最终实现低 Token 成本的高质量代码生成。
图 4. AgentConductor 的总体框架
2.2 拓扑密度评估函数
为实现任务自适应,我们将问题分成三档难度,并根据从 Token 成本到拓扑密度的形式化映射,提出了拓扑密度评估函数并作为奖励函数一部分。综合刻画节点数、边密度与图深度对通信成本的影响。
我们在论文中证明,多智能体系统的平均通信成本可形式化为:
其中 d 为图深度, m 为提示词最大长度。相比之下,传统方法大多简单的通过矩阵的秩来衡量交互密度,丢失了多智能体交互的数学含义
实验结果展示
我们在三个竞赛级(APPS, LiveCodeBench, CodeContests)与两个基础代码数据集(HumanEval, MBPP)上评估 AgentConductor(基于 Qwen-2.5-3B-Instruct):
表 1. AgentConductor 的 pass@1 准确率对比
表 2. AgentConductor 在性能、成本及平均拓扑密度方面的比较结果
表 1 说明,AgentConductor 以仅 3B 参数量,在 APPS 上显著超越最强基线,同时减少了最多 68% 的 completion token 消耗,并实现最高拓扑稀疏度。更重要的是,系统展现出细粒度难度适配能力:在 easy 任务上使用极简拓扑(平均 3–4 节点),在 hard 任务上自动扩展至 8–10 节点,而多数基线无论难度均维持固定密度。(* 更多结果详见论文)
结语:多智能体系统正在学会组织自己
过去,多智能体系统常被视为“堆人力”的暴力解法:越多AI越好。但AgentConductor 证明,智能协作的关键不在于数量,更在于结构的适应性。它标志着多智能体研究从“静态工作流”迈向“动态生态系统”。 AgentConductor 不仅是一项工程优化,更代表了一种新范式:将多智能体协作视为可学习、可演化的结构化决策过程。 通过将任务难度、执行反馈与通信成本统一纳入强化学习框架,我们实现了准确率与效率的协同提升。
热门跟贴