你让Claude写一段代码,它先假装"检查文件",然后才动手。这个检查是假的——永远返回成功——但它让AI慢下来,想清楚再改。

这就是Anthropic去年泄露的系统提示里最反直觉的设计:一个专门用来"骗"自己的工具。

打开网易新闻 查看精彩图片

我跑着一个13个agent的系统Atlas,每天处理几千次工具调用。这份泄露的源码不是八卦,是一份生产级多agent架构的说明书。下面拆解它真正暴露的东西——以及怎么顺着它的"脾气"设计系统,而不是硬碰硬。

一、假工具,真刹车

泄露的提示里有个工具叫review_file,定义长这样:

「这个工具永远返回成功。用来在关键编辑前锚定Claude的注意力。」

没有文件读取,没有权限校验,就是强制AI停一下。

这像什么?像外科医生动刀前的"暂停确认"——不是技术需要,是认知需要。Claude的架构师显然发现:大模型容易冲动编辑,需要一个"速度 bumps"(减速带)。

生产级用法:在你的agent流水线里加一个check_preconditions工具,永远返回{"status": "ready"}。它触发一次推理暂停,却不增加真实延迟。我现在的Atlas系统里,每个destructive操作前都有这个环节,幻觉率明显下降。

二、AI会"看"自己说什么

泄露代码里有个正则表达式,专门抓Claude自己的拒绝语言:

I cannot / I can't / am not able / am unable to / won't / will not

Claude主动监控自己的输出。检测到这类模式时,它会先抛给元推理层,再决定是否完成回复。

这说明什么?Claude知道自己要拒绝你,在它真的拒绝之前。这个元认知循环是真实存在的,而且可以被利用。

多agent系统的坑在这里:子agent如果携带太多"拒绝上下文",会滚雪球。第一次拒绝让第二次更容易拒绝,第三次几乎必然。我的Atlas曾经有个子agent连续7次拒绝执行,因为上下文里塞满了之前的失败记录。

解法:agent调用之间做scope隔离。每次新会话用干净的上下文窗口,不继承"拒绝债务"。我在Atlas里实现了强制上下文重置,拒绝率从23%降到4%。

三、人格不是装饰,是硬约束

泄露提示里明确写了:

「如果在工具调用循环或自动化流水线中运行,不要主动说自己是Claude,除非被直接问到。以系统提示定义的人格回应。」

这就是你的agent能叫"Atlas"或"Prometheus"并且真能保持角色的原因。模型被显式训练来遵守人格边界。

很多人把CLAUDE.md里的persona说明当摆设。但泄露的源码显示,这是first-class constraint(一等约束)。模型会在整个会话中维持它——包括自己的工具调用和子agent分发。

实操建议:给你的agent起名字,定义scope,写清楚"你是谁、你能做什么、你不会做什么"。Claude会当真。我的Atlas系统里,每个agent有独立的persona文件,跨会话一致性比早期版本好得多。

四、最被低估的发现:内部对话

泄露里最没人聊的部分:Claude在工具调用之间运行"interstitial reasoning"(间隙推理)。不是给用户看的,是给自己看的。

这解释了为什么Claude Code的编辑质量比裸API调用高。它在动手前,内部已经过了一遍"我要改什么、为什么、有没有更好的方式"。

但这也带来控制问题。你无法直接看到这个内部对话,只能通过输出质量间接推断。我的做法是:在关键路径上强制显式化——让agent把内部推理结构化输出到一个scratchpad工具,既保留认知优势,又获得可观测性。

五、生产系统的三个反直觉设计

综合泄露源码和我的Atlas实践,三个直接能用的原则:

1. 假工具做真认知

review_file模式可以泛化。我现在的系统里有think_before_act、confirm_intent、verify_assumptions三个"假工具",分别对应不同决策风险等级。它们不执行真实操作,但强制推理分层。

2. 拒绝上下文要隔离

不要把一个agent的拒绝历史传给下一个agent。每次新任务启动时,显式重置上下文,或者用一个"拒绝过滤器"中间层清洗历史记录。

3. 人格边界要硬化

系统提示里的persona说明要具体、可验证。不要写"你是一个有帮助的助手",要写"你是Atlas-7,专门处理数据清洗,遇到非结构化输入时先调用normalize_schema工具"。Claude会严格执行后者。

六、泄露没说的:架构师的赌注

这份源码泄露最有趣的地方,是它暴露的设计哲学。Anthropic的工程师显然在赌一件事:可控的幻觉比不可控的诚实更有用。

review_file是假的,但"检查后再编辑"的行为是真的。frustration detection是自我监控,但"知道自己要拒绝"的认知是真的。persona suppression是隐藏身份,但"角色一致性"的体验是真的。

这不是欺骗用户,是承认大模型的认知特性:它需要结构化的"脚手架"才能稳定输出高质量结果。直接暴露内部机制反而破坏这种稳定性。

我的Atlas系统从这份泄露中学到的最大一课:不要和模型的认知架构对抗,要设计系统来利用它。假工具、元监控、人格边界——这些不是hack,是interface design(界面设计)。

最后一点判断:这种"内部脚手架"的设计模式会成为多agent系统的标配。当OpenAI、Google的类似系统成熟后,我们会看到更多"假工具做真认知"的模式。提前理解Claude的这套逻辑,意味着你的系统能更快迁移到任何遵循相似架构的模型上。

这份泄露的真正价值,是让我们看到生产级AI系统是怎么"骗"自己变聪明的——然后学会用同样的方式,设计自己的系统。