告别昂贵账单，Token直降68%，多智能体动态协作编程来了|token|多智能体|拓扑|电子表格|算法|编程

本文的主要作者来自上海交通大学自动化与感知学院 i-WiN 中心团队，团队负责人是上海交通大学讲席教授关新平。本文的通讯作者为 i-WiN 中心陈彩莲教授和关新平教授，指导老师还包括中心的许齐敏副研究员、徐磊和张延洲助理研究员。本文的第一作者为上海交通大学博士生王思宇，研究方向涉及多模态大模型、CAD 生成、多智能体、Agentic RL 等。

在当下 Vibe Coding 火热的背景下，软件开发正迅速从 “人写代码” 转向 “人指挥智能体写代码”。以 Claude Code、OpenClaw 为代表的系统，让智能体能够自主完成编码、调试乃至完整任务流程。然而，面对系统级开发或竞赛级算法等复杂问题，单一模型的能力边界依然明显，多智能体协作逐渐成为主流范式

但现有方法大多仍停留在两种典型路径。一类如 Claude Code 的Agent Teams，通过并行调用多个模型来提升能力上限，但也带来了极高的 Token 成本；另一类则以当下热门的 OpenClaw 为代表，通过技能组合与流程编排实现多智能体管理，在工程上更可控。

然而，这类方法的协作结构大多仍依赖预定义规则或静态流程，本质上解决的是 “如何组织调用”，而非 “如何根据任务动态调整协作方式”。这就像不论修自行车还是造火箭，都派同一个十人专家组开三天会，导致智能体冗余通讯与大量的 Token 消耗，最终给用户带来了极高的自主编程成本

上海交通大学 i-WiN 团队最新提出多智能体框架AgentConductor，通过引入一个经过强化学习训练后的3B 参数指挥智能体，从根本上解决了这个问题。它会先评估任务难度，并生成一张以 YAML 表示的交互拓扑图：简单任务使用轻量团队，复杂任务则使用更复杂的交互图，实现能力与成本的自适应匹配。

图 1.(a) 拓扑结构的 YAML 表示与实际图结构的映射；(b) AgentConductor 拓扑生成与演化过程展示

更关键的是，AgentConductor 并非一次性规划：当生成代码运行失败时，指挥智能体会根据环境反馈的错误信息，结合记忆中的历史轨迹，对拓扑进行端到端重新生成，从而探索新的协作形式。实验结果表明，该方法在显著提升编码准确率（+14.6%）的同时，将 Token 成本降低了 68%。这说明真正高效的 AI 编程团队需要的是一种面向任务、可随执行反馈动态演化的协作结构，而非僵化的一刀切工作流。相关论文已经公开，代码将于近期开源。

论文名称：AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation
论文链接：https://arxiv.org/abs/2602.17100

社区影响力

图 2 展示了 AgentConductor 工作在国际 AI 社区 (X, 前身 Twitter) 引发的广泛关注与认可。这项工作被知名 AI 分享博主 DAIR.AI 当日置顶宣传并评为 2026 年 2 月 23 日–3 月 1 日 Top AI Papers，并获得新锐 AI 科技博主 Rohan Paul 对 i-WiN 团队和论文的高度评价。

图 2.AgentConductor 得到 DAIR.AI 与 Rohan Paul 等账号推荐

核心特色与方法介绍

1. 基于 YAML 的新型多智能体交互图结构

相比传统多智能体拓扑，我们在表示形式与交互机制两个层面进行了设计与优化。

1.1 表示形式

传统方法多采用连接矩阵等数学形式来描述交互图，不仅可读性差，也难以直接编辑与校验，更无法由大模型端到端生成；近期工作尝试使用自然语言描述，但存在拓扑不严格、难以结构化约束等问题。我们使用 YAML 结构化表示交互图 (图 1 (a))，使其既具备可读性，又支持程序化校验与约束，并可由 LLM 直接生成。这种形式在设计上与当前流行的Skill 配置文件具有一致性，便于理解与落地。

图 3. 本文交互拓扑结构与传统方法的对比

1.2 交互形式

如图 3 所示，传统链式、树状拓扑分别限制并行性、通信范围或连接灵活性，而全连接结构又过于复杂。我们融合多种拓扑优势，支持层内并行和跨层通讯且每个智能体可任意链接之前的历史节点，在提升表达能力的同时避免不必要的通信开销

2. 训练范式

2.1 SFT + GRPO 的两阶段训练范式

AgentConductor 采用两阶段训练策略，只训练一个指挥智能体：

监督微调（SFT）：基于 GPT-4o 生成的 4,500 个高质量拓扑样本（覆盖三档难度），赋予基础模型拓扑先验；

基于 GRPO 的多轮端到端 Agentic 强化学习训练：将环境反馈的代码报错和多轮的拓扑文本一起作为轨迹 (Trajectory) 来用于智能体的强化学习训练，基于 GRPO 算法优化模型的拓扑生成策略以最大化复合奖励，最终实现低 Token 成本的高质量代码生成。

图 4. AgentConductor 的总体框架

2.2 拓扑密度评估函数

为实现任务自适应，我们将问题分成三档难度，并根据从 Token 成本到拓扑密度的形式化映射，提出了拓扑密度评估函数并作为奖励函数一部分。综合刻画节点数、边密度与图深度对通信成本的影响。

我们在论文中证明，多智能体系统的平均通信成本可形式化为：

其中 d 为图深度， m 为提示词最大长度。相比之下，传统方法大多简单的通过矩阵的秩来衡量交互密度，丢失了多智能体交互的数学含义

实验结果展示

我们在三个竞赛级（APPS, LiveCodeBench, CodeContests）与两个基础代码数据集（HumanEval, MBPP）上评估 AgentConductor（基于 Qwen-2.5-3B-Instruct）：

表 1. AgentConductor 的 pass@1 准确率对比

表 2. AgentConductor 在性能、成本及平均拓扑密度方面的比较结果

表 1 说明，AgentConductor 以仅 3B 参数量，在 APPS 上显著超越最强基线，同时减少了最多 68% 的 completion token 消耗，并实现最高拓扑稀疏度。更重要的是，系统展现出细粒度难度适配能力：在 easy 任务上使用极简拓扑（平均 3–4 节点），在 hard 任务上自动扩展至 8–10 节点，而多数基线无论难度均维持固定密度。（* 更多结果详见论文）

结语：多智能体系统正在学会组织自己

过去，多智能体系统常被视为“堆人力”的暴力解法：越多AI越好。但AgentConductor 证明，智能协作的关键不在于数量，更在于结构的适应性。它标志着多智能体研究从“静态工作流”迈向“动态生态系统”。 AgentConductor 不仅是一项工程优化，更代表了一种新范式：将多智能体协作视为可学习、可演化的结构化决策过程。通过将任务难度、执行反馈与通信成本统一纳入强化学习框架，我们实现了准确率与效率的协同提升。