一个 AI 写代码,写到一半开始"失忆";两个 AI 协作,互相甩锅说对方写得烂;三个 AI 轮班,居然能连续肝 8 小时全栈开发——这是 Anthropic 工程师最近拿出的新玩法。
4 月 4 日,Anthropic 发布了一套多智能体协作框架(multi-agent harness),专门解决"AI 编程马拉松"里的两个老毛病:上下文丢失和任务半途而废。不是让单个模型硬撑,而是把活儿拆给三个角色:规划师、生成师、质检员。
为什么一个 AI 干不了长活儿
用过 Claude 写代码的人都知道,聊到第 50 轮左右,模型开始"眼神涣散"。不是算力不够,是上下文窗口(context window)塞满了——之前的对话、代码、报错信息像堆叠的快递盒,把通道堵死。
常见的解法是上下文压缩(compaction),把历史对话精简摘要。但 Anthropic 工程师发现,这会让模型变得"谨小慎微":它知道快触顶了,于是提前收手,长任务反而做不完整。
更隐蔽的问题是自我评估偏差。AI 给自己写的 UI 打分时,往往比人类宽松得多——"这个按钮配色挺和谐的"——结果用户看到实物直接沉默。
单个智能体的天花板,不是算力,是自我认知的盲区。
Anthropic 的解法很产品经理思维:不卷单个模型的极限,而是设计一套"轮班制"。三个智能体各司其职,交接时不是扔一堆聊天记录,而是结构化的状态文档——下一位接班者能快速定位,不用从头翻历史。
三班倒是怎么运转的
这套框架把开发流程切成三道工序:
规划智能体(Planning Agent)负责拆解任务。拿到"做一个电商后台"这种模糊需求,它输出技术方案、文件结构、依赖清单——相当于开工前的图纸会审。
生成智能体(Generation Agent)是主力码农。它只认规划师给的蓝图,埋头写代码。写完不自己拍板,把产物打包成"交付物"(artifact)。
评估智能体(Evaluation Agent)当质检。它用预定义的评分标准(rubric)验收,比如"按钮对比度是否达标""API 响应是否小于 200ms"。不通过就打回,附带具体修改意见。
关键设计在交接机制。规划师下班时,不会把脑子里想的都倒给生成师——而是输出一份结构化文档:技术决策、待办事项、风险点。生成师完工后,交付物里包含代码、测试用例、已知缺陷。评估师的反馈又是下一轮规划的输入。
上下文在这里不是被压缩,而是被"归档"——每个角色只读自己需要的卷宗。
这套流程支持多轮迭代。Anthropic 的测试显示,系统能稳定运行数小时,处理前端设计到后端部署的全栈任务。对比单智能体长会话,任务完成率显著提升——具体数字未公开,但工程师提到"从频繁中断到可持续交付"。
为什么专门拆出一个"质检员"
AI 给自己打分虚高,这事 Anthropic 早有观察。设计类任务尤其明显:模型容易陷入"自我陶醉",把平庸的 UI 评成优秀。
评估智能体的独立性是刻意设计的。它不参与代码生成,只拿着评分表当"甲方"。评分标准可以定制——可以是设计规范文档,也可以是性能基准测试。
这种分离有个额外好处:可解释性。当生成师抱怨"凭什么打回"时,评估师能指着评分表逐条说理。虽然都是 AI,但角色对立制造了类似"代码评审"的张力。
Anthropic 工程师在内部文档里打了个比方:「让同一个厨师又做菜又写食评,和让独立美食评论家打分,结果必然不同。」
质检员的存在,本质是给系统引入"外部视角"——尽管这个外部也是机器。
长时运行的工程细节
支撑数小时不间断运行的,是一组底层机制。
上下文重置(context reset)是核心。每个智能体启动时,不继承前任的完整对话历史,而是读取结构化的"交接文档"。这避免了上下文线性膨胀,也让模型始终保持"清醒"——不会被几十轮前的错误假设带偏。
状态持久化(state persistence)确保中断后可恢复。如果任务跑到一半服务器挂了,重启后能从最后一个检查点继续,不用从头再来。
工具调用链(tool chaining)被严格管控。生成师调用代码解释器、浏览器、文件系统时,操作日志被完整记录,评估师可以复盘"这行 bug 是怎么引入的"。
这些设计指向同一个目标:把"AI 编程"从聊天式的即兴创作,变成可管理、可追踪的工程流程。
和前代方案的区别
多智能体协作不是新概念,但 Anthropic 的实现有几处差异化。
一是角色固定而非动态拆分。有些框架让 AI 自己决定"我现在该当规划师还是码农",结果角色切换频繁,状态混乱。Anthropic 选择硬编码三角色,降低协调成本。
二是交接物的结构化。不是扔一段自然语言总结,而是带格式的技术文档——类似人类团队里的需求文档、接口文档、测试报告。
三是评估的强制性。生成师的产出必须经过评估师关卡,不能自我放行。这增加了延迟,但减少了"半成品上线"的风险。
Anthropic 提到,这套框架已在内部用于原型开发,覆盖从 React 前端到 Python 后端的完整栈。工程师特别指出,前端设计任务受益最明显——因为评估标准相对客观(对比度、间距、响应式断点),质检员能有效约束生成师的"审美放飞"。
对开发者的实际意义
这套设计目前以研究形态发布,尚未集成到 Claude 的公开 API。但技术文档已足够详细,第三方可以复现。
对普通用户的直接价值有限——你没法明天就雇三个 AI 轮班写自己的 App。但它揭示了 Anthropic 的产品思路:不追求单点参数突破,而是把 AI 能力封装成可组合的工程模块。
更深远的影响在生态层面。如果多智能体协作成为标准做法,开发工具链会被重塑。IDE 不再是对话窗口,而是"智能体调度台":查看哪个角色在值班、当前迭代轮次、历史评估记录。
调试方式也会变。现在的 AI 编程,出错了只能翻聊天记录猜原因。未来可能是调取评估师的质检报告,看"第三轮迭代时性能评分骤降,对应哪次代码变更"。
从"和 AI 聊天"到"管理 AI 团队",交互范式正在转移。
另一个值得注意的点是成本结构。三智能体轮班,意味着同样的任务要调用三次模型(规划、生成、评估)。Anthropic 没有披露具体开销,但承认"增加了计算资源消耗"。这是换取可靠性的代价——和雇人类团队一样,分工细化带来效率,也带来管理成本。
行业里的同类探索
多智能体编程并非 Anthropic 独家。OpenAI 的 Swarm、Google 的 Multi-Agent Orchestration、开源社区的 AutoGen 都在尝试类似方向。
差异主要在协调机制。Swarm 强调动态任务分配,智能体根据当前状态自选角色;AutoGen 支持更灵活的角色定义,但配置复杂度较高。Anthropic 的选择是"做减法"——固定三角色、强制评估关卡、结构化交接——换取可预测性。
这种取舍符合其产品调性。Claude 一贯以"更可控"为卖点,相比 GPT 的创意奔放,更强调遵循指令和减少幻觉。三智能体框架延续了这一路线:不是让 AI 更聪明,而是让 AI 协作更可靠。
也有批评声音。部分开发者认为固定角色限制了灵活性,"有些任务根本不需要规划师,直接写代码更快"。Anthropic 的回应是框架支持配置化——可以关闭某个角色,但默认三班倒是经过验证的"安全模式"。
技术文档里的一个细节
Anthropic 发布的技术文档中,有个容易被忽略的参数:评估智能体的评分表(rubric)支持人工覆盖。
意思是,如果自动评估和人类判断冲突,开发者可以介入调整标准。这保留了"人在回路"(human-in-the-loop)的接口——不是完全自动化的黑箱。
这个设计很产品经理。完全自动化的 AI 团队是远景,但现阶段"AI 干活、人类把关"更务实。评估师的存在,其实是把"把关"环节也自动化了大部分,但留了一扇后门。
文档里还提到一个边界案例:当生成师和评估师陷入"改-打回-再改-再打回"的循环时,系统会触发升级机制,由规划师重新介入调整任务拆分。这类似于人类团队里的" escalate 到管理层"。
这些细节说明,Anthropic 设计的不是三个独立 AI,而是一个有反馈回路、有异常处理的组织系统。
开放问题
三智能体框架能跑通,建立在 Anthropic 对 Claude 能力的深度了解上。换成其他模型,同样的角色分工是否有效?评估智能体的评分标准,迁移到不同技术栈时需要多少调整?
更长远的疑问是:当 AI 能组成三人小队,四人、五人的协作边界在哪里?规划师是否需要再拆出"架构师"和"项目经理"?评估师要不要分化出"安全审计"和"用户体验"两个专职?
Anthropic 没有给出答案。技术文档的结尾很克制,只提到"持续优化角色定义和交接协议"——换句话说,三班倒只是起点,不是终局。
如果这套框架开源,你会先用它做什么:是让三个 AI 轮班维护自己的遗留代码,还是赌一把,看它们能不能独立交付一个完整产品?
热门跟贴