2026年5月,Anthropic发布了一份内部工程文档,详细披露了他们如何让Claude Code作为长时托管Agent运行。这不是一篇论文,而是一份运维手册——讲的是如何让AI在多次会话中持续处理同一代码库,而不至于每次重启都从零开始。

他们解决的核心问题是连续性。Initializer Agent在会话前准备工作区;Feature List作为持久化的任务队列;Progress File记录每次会话的产出;Git提交保存可恢复的状态;Startup Check让新会话快速定位上下文;端到端测试防止Agent提前宣布任务完成。这套基础设施让Agent工作流更像接力赛——每个"班次"的工人读取交接笔记,继续上一棒的工作,再为下一棒留下记录。

打开网易新闻 查看精彩图片

但连续性不等于治理。这是两个不同的问题,混淆它们的代价可能很高。

Anthropic的Harness告诉Agent"之前发生了什么",却没告诉它"哪些事绝对不能做"。在真实的工程团队里,这种约束存在于架构决策记录(ADR)、代码审查标准、资深工程师的隐性知识中。而长时Agent循环里,这些不会自动出现。Harness没有提供架构契约——即定义每个"班次"被允许的工作边界。

打开网易新闻 查看精彩图片

换句话说,他们造了一套完美的交接系统,却假设每个接班人都清楚哪些墙不能拆。当Agent跨越更多会话工作时,问题会从"它记得吗?"变成"它越界了吗?"后者没有现成答案。

这不是批评。Anthropic明确说这是"托管Agent Harness",不是"Agent治理框架"。但行业需要意识到:记忆基础设施只是长时Agent的必要条件,远非充分条件。下一步的难题——如何让Agent在数十次会话中保持架构一致性——还没有标准解法。