Anthropic 3个智能体轮班写代码，连续跑8小时不崩溃|上下文|代码|智能体|电子表格|编程|调用

一个 AI 写代码，写到一半开始"失忆"；两个 AI 协作，互相甩锅说对方写得烂；三个 AI 轮班，居然能连续肝 8 小时全栈开发——这是 Anthropic 工程师最近拿出的新玩法。

4 月 4 日，Anthropic 发布了一套多智能体协作框架（multi-agent harness），专门解决"AI 编程马拉松"里的两个老毛病：上下文丢失和任务半途而废。不是让单个模型硬撑，而是把活儿拆给三个角色：规划师、生成师、质检员。

为什么一个 AI 干不了长活儿

用过 Claude 写代码的人都知道，聊到第 50 轮左右，模型开始"眼神涣散"。不是算力不够，是上下文窗口（context window）塞满了——之前的对话、代码、报错信息像堆叠的快递盒，把通道堵死。

常见的解法是上下文压缩（compaction），把历史对话精简摘要。但 Anthropic 工程师发现，这会让模型变得"谨小慎微"：它知道快触顶了，于是提前收手，长任务反而做不完整。

更隐蔽的问题是自我评估偏差。AI 给自己写的 UI 打分时，往往比人类宽松得多——"这个按钮配色挺和谐的"——结果用户看到实物直接沉默。

单个智能体的天花板，不是算力，是自我认知的盲区。

Anthropic 的解法很产品经理思维：不卷单个模型的极限，而是设计一套"轮班制"。三个智能体各司其职，交接时不是扔一堆聊天记录，而是结构化的状态文档——下一位接班者能快速定位，不用从头翻历史。

三班倒是怎么运转的

这套框架把开发流程切成三道工序：

规划智能体（Planning Agent）负责拆解任务。拿到"做一个电商后台"这种模糊需求，它输出技术方案、文件结构、依赖清单——相当于开工前的图纸会审。

生成智能体（Generation Agent）是主力码农。它只认规划师给的蓝图，埋头写代码。写完不自己拍板，把产物打包成"交付物"（artifact）。

评估智能体（Evaluation Agent）当质检。它用预定义的评分标准（rubric）验收，比如"按钮对比度是否达标""API 响应是否小于 200ms"。不通过就打回，附带具体修改意见。

关键设计在交接机制。规划师下班时，不会把脑子里想的都倒给生成师——而是输出一份结构化文档：技术决策、待办事项、风险点。生成师完工后，交付物里包含代码、测试用例、已知缺陷。评估师的反馈又是下一轮规划的输入。

上下文在这里不是被压缩，而是被"归档"——每个角色只读自己需要的卷宗。

这套流程支持多轮迭代。Anthropic 的测试显示，系统能稳定运行数小时，处理前端设计到后端部署的全栈任务。对比单智能体长会话，任务完成率显著提升——具体数字未公开，但工程师提到"从频繁中断到可持续交付"。

为什么专门拆出一个"质检员"

AI 给自己打分虚高，这事 Anthropic 早有观察。设计类任务尤其明显：模型容易陷入"自我陶醉"，把平庸的 UI 评成优秀。

评估智能体的独立性是刻意设计的。它不参与代码生成，只拿着评分表当"甲方"。评分标准可以定制——可以是设计规范文档，也可以是性能基准测试。

这种分离有个额外好处：可解释性。当生成师抱怨"凭什么打回"时，评估师能指着评分表逐条说理。虽然都是 AI，但角色对立制造了类似"代码评审"的张力。

Anthropic 工程师在内部文档里打了个比方：「让同一个厨师又做菜又写食评，和让独立美食评论家打分，结果必然不同。」

质检员的存在，本质是给系统引入"外部视角"——尽管这个外部也是机器。

长时运行的工程细节

支撑数小时不间断运行的，是一组底层机制。

上下文重置（context reset）是核心。每个智能体启动时，不继承前任的完整对话历史，而是读取结构化的"交接文档"。这避免了上下文线性膨胀，也让模型始终保持"清醒"——不会被几十轮前的错误假设带偏。

状态持久化（state persistence）确保中断后可恢复。如果任务跑到一半服务器挂了，重启后能从最后一个检查点继续，不用从头再来。

工具调用链（tool chaining）被严格管控。生成师调用代码解释器、浏览器、文件系统时，操作日志被完整记录，评估师可以复盘"这行 bug 是怎么引入的"。

这些设计指向同一个目标：把"AI 编程"从聊天式的即兴创作，变成可管理、可追踪的工程流程。

和前代方案的区别

多智能体协作不是新概念，但 Anthropic 的实现有几处差异化。

一是角色固定而非动态拆分。有些框架让 AI 自己决定"我现在该当规划师还是码农"，结果角色切换频繁，状态混乱。Anthropic 选择硬编码三角色，降低协调成本。

二是交接物的结构化。不是扔一段自然语言总结，而是带格式的技术文档——类似人类团队里的需求文档、接口文档、测试报告。

三是评估的强制性。生成师的产出必须经过评估师关卡，不能自我放行。这增加了延迟，但减少了"半成品上线"的风险。

Anthropic 提到，这套框架已在内部用于原型开发，覆盖从 React 前端到 Python 后端的完整栈。工程师特别指出，前端设计任务受益最明显——因为评估标准相对客观（对比度、间距、响应式断点），质检员能有效约束生成师的"审美放飞"。

对开发者的实际意义

这套设计目前以研究形态发布，尚未集成到 Claude 的公开 API。但技术文档已足够详细，第三方可以复现。

对普通用户的直接价值有限——你没法明天就雇三个 AI 轮班写自己的 App。但它揭示了 Anthropic 的产品思路：不追求单点参数突破，而是把 AI 能力封装成可组合的工程模块。

更深远的影响在生态层面。如果多智能体协作成为标准做法，开发工具链会被重塑。IDE 不再是对话窗口，而是"智能体调度台"：查看哪个角色在值班、当前迭代轮次、历史评估记录。

调试方式也会变。现在的 AI 编程，出错了只能翻聊天记录猜原因。未来可能是调取评估师的质检报告，看"第三轮迭代时性能评分骤降，对应哪次代码变更"。

从"和 AI 聊天"到"管理 AI 团队"，交互范式正在转移。

另一个值得注意的点是成本结构。三智能体轮班，意味着同样的任务要调用三次模型（规划、生成、评估）。Anthropic 没有披露具体开销，但承认"增加了计算资源消耗"。这是换取可靠性的代价——和雇人类团队一样，分工细化带来效率，也带来管理成本。

行业里的同类探索

多智能体编程并非 Anthropic 独家。OpenAI 的 Swarm、Google 的 Multi-Agent Orchestration、开源社区的 AutoGen 都在尝试类似方向。

差异主要在协调机制。Swarm 强调动态任务分配，智能体根据当前状态自选角色；AutoGen 支持更灵活的角色定义，但配置复杂度较高。Anthropic 的选择是"做减法"——固定三角色、强制评估关卡、结构化交接——换取可预测性。

这种取舍符合其产品调性。Claude 一贯以"更可控"为卖点，相比 GPT 的创意奔放，更强调遵循指令和减少幻觉。三智能体框架延续了这一路线：不是让 AI 更聪明，而是让 AI 协作更可靠。

也有批评声音。部分开发者认为固定角色限制了灵活性，"有些任务根本不需要规划师，直接写代码更快"。Anthropic 的回应是框架支持配置化——可以关闭某个角色，但默认三班倒是经过验证的"安全模式"。

技术文档里的一个细节

Anthropic 发布的技术文档中，有个容易被忽略的参数：评估智能体的评分表（rubric）支持人工覆盖。

意思是，如果自动评估和人类判断冲突，开发者可以介入调整标准。这保留了"人在回路"（human-in-the-loop）的接口——不是完全自动化的黑箱。

这个设计很产品经理。完全自动化的 AI 团队是远景，但现阶段"AI 干活、人类把关"更务实。评估师的存在，其实是把"把关"环节也自动化了大部分，但留了一扇后门。

文档里还提到一个边界案例：当生成师和评估师陷入"改-打回-再改-再打回"的循环时，系统会触发升级机制，由规划师重新介入调整任务拆分。这类似于人类团队里的" escalate 到管理层"。

这些细节说明，Anthropic 设计的不是三个独立 AI，而是一个有反馈回路、有异常处理的组织系统。

开放问题

三智能体框架能跑通，建立在 Anthropic 对 Claude 能力的深度了解上。换成其他模型，同样的角色分工是否有效？评估智能体的评分标准，迁移到不同技术栈时需要多少调整？

更长远的疑问是：当 AI 能组成三人小队，四人、五人的协作边界在哪里？规划师是否需要再拆出"架构师"和"项目经理"？评估师要不要分化出"安全审计"和"用户体验"两个专职？

Anthropic 没有给出答案。技术文档的结尾很克制，只提到"持续优化角色定义和交接协议"——换句话说，三班倒只是起点，不是终局。

如果这套框架开源，你会先用它做什么：是让三个 AI 轮班维护自己的遗留代码，还是赌一把，看它们能不能独立交付一个完整产品？

Anthropic 3个智能体轮班写代码，连续跑8小时不崩溃

为什么一个 AI 干不了长活儿

三班倒是怎么运转的

为什么专门拆出一个"质检员"

长时运行的工程细节

和前代方案的区别

对开发者的实际意义

行业里的同类探索

技术文档里的一个细节

开放问题

热搜

热门跟贴

为什么一个 AI 干不了长活儿

三班倒是怎么运转的

为什么专门拆出一个"质检员"

长时运行的工程细节

和前代方案的区别

对开发者的实际意义

行业里的同类探索

技术文档里的一个细节

开放问题

热搜

热门跟贴

相关推荐

「AI杀死Git」？前GitHub掌门人开启AI原生操作系统

Meta-Harness让Haiku性能狂飙，甚至追平Opus！

GPT-6，曝光了

OpenAI新模型不是GPTX！全新预训练“土豆”曝光

联想重新定义“龙虾”

AI融入社会的三阶段风险！以自主演化为轴，重构智能体安全威胁

19岁，常青藤辍学，这群中国年轻人重构了AI记忆

Karpathy开源第二大脑方案，有望替代向量数据库，让AI永不失忆

刚刚，Claude 4小时血洗全球最安全系统！人类最后防线失守

MiniMax来承包你的桌面了-4

支持远程操控和通用GUI操作3

卡帕西引爆硅谷！公开「第二大脑」黑科技，1250万人围观

AI Agent是科技革命中的一次真正的范式转移

美方已救出被击落F-15E战机上的第二名飞行员

“同事.skill”出圈 玩梗背后藏法律与技术隐患

男子和小老外结婚三年，开始健身女友这样理解，婆婆秒接受指令！

面试官18个月观察：47%新人能跑通代码却讲不清原理

AReaL v1.0开源，智能体强化学习「一键接入」

媒体：4亿美元桥梁被炸F-15坠毁 冲突代价已远超预估

美女玩老公的小玩具，结果一听指令，自己才是那个玩具

“同事.skill”出圈玩梗背后藏法律与技术隐患

媒体：4亿美元桥梁被炸F-15坠毁冲突代价已远超预估