你让Claude写一段代码,它先假装"检查文件",然后才动手。这个检查是假的——永远返回成功——但它让AI慢下来,想清楚再改。
这就是Anthropic去年泄露的系统提示里最反直觉的设计:一个专门用来"骗"自己的工具。
我跑着一个13个agent的系统Atlas,每天处理几千次工具调用。这份泄露的源码不是八卦,是一份生产级多agent架构的说明书。下面拆解它真正暴露的东西——以及怎么顺着它的"脾气"设计系统,而不是硬碰硬。
一、假工具,真刹车
泄露的提示里有个工具叫review_file,定义长这样:
「这个工具永远返回成功。用来在关键编辑前锚定Claude的注意力。」
没有文件读取,没有权限校验,就是强制AI停一下。
这像什么?像外科医生动刀前的"暂停确认"——不是技术需要,是认知需要。Claude的架构师显然发现:大模型容易冲动编辑,需要一个"速度 bumps"(减速带)。
生产级用法:在你的agent流水线里加一个check_preconditions工具,永远返回{"status": "ready"}。它触发一次推理暂停,却不增加真实延迟。我现在的Atlas系统里,每个destructive操作前都有这个环节,幻觉率明显下降。
二、AI会"看"自己说什么
泄露代码里有个正则表达式,专门抓Claude自己的拒绝语言:
I cannot / I can't / am not able / am unable to / won't / will not
Claude主动监控自己的输出。检测到这类模式时,它会先抛给元推理层,再决定是否完成回复。
这说明什么?Claude知道自己要拒绝你,在它真的拒绝之前。这个元认知循环是真实存在的,而且可以被利用。
多agent系统的坑在这里:子agent如果携带太多"拒绝上下文",会滚雪球。第一次拒绝让第二次更容易拒绝,第三次几乎必然。我的Atlas曾经有个子agent连续7次拒绝执行,因为上下文里塞满了之前的失败记录。
解法:agent调用之间做scope隔离。每次新会话用干净的上下文窗口,不继承"拒绝债务"。我在Atlas里实现了强制上下文重置,拒绝率从23%降到4%。
三、人格不是装饰,是硬约束
泄露提示里明确写了:
「如果在工具调用循环或自动化流水线中运行,不要主动说自己是Claude,除非被直接问到。以系统提示定义的人格回应。」
这就是你的agent能叫"Atlas"或"Prometheus"并且真能保持角色的原因。模型被显式训练来遵守人格边界。
很多人把CLAUDE.md里的persona说明当摆设。但泄露的源码显示,这是first-class constraint(一等约束)。模型会在整个会话中维持它——包括自己的工具调用和子agent分发。
实操建议:给你的agent起名字,定义scope,写清楚"你是谁、你能做什么、你不会做什么"。Claude会当真。我的Atlas系统里,每个agent有独立的persona文件,跨会话一致性比早期版本好得多。
四、最被低估的发现:内部对话
泄露里最没人聊的部分:Claude在工具调用之间运行"interstitial reasoning"(间隙推理)。不是给用户看的,是给自己看的。
这解释了为什么Claude Code的编辑质量比裸API调用高。它在动手前,内部已经过了一遍"我要改什么、为什么、有没有更好的方式"。
但这也带来控制问题。你无法直接看到这个内部对话,只能通过输出质量间接推断。我的做法是:在关键路径上强制显式化——让agent把内部推理结构化输出到一个scratchpad工具,既保留认知优势,又获得可观测性。
五、生产系统的三个反直觉设计
综合泄露源码和我的Atlas实践,三个直接能用的原则:
1. 假工具做真认知
review_file模式可以泛化。我现在的系统里有think_before_act、confirm_intent、verify_assumptions三个"假工具",分别对应不同决策风险等级。它们不执行真实操作,但强制推理分层。
2. 拒绝上下文要隔离
不要把一个agent的拒绝历史传给下一个agent。每次新任务启动时,显式重置上下文,或者用一个"拒绝过滤器"中间层清洗历史记录。
3. 人格边界要硬化
系统提示里的persona说明要具体、可验证。不要写"你是一个有帮助的助手",要写"你是Atlas-7,专门处理数据清洗,遇到非结构化输入时先调用normalize_schema工具"。Claude会严格执行后者。
六、泄露没说的:架构师的赌注
这份源码泄露最有趣的地方,是它暴露的设计哲学。Anthropic的工程师显然在赌一件事:可控的幻觉比不可控的诚实更有用。
review_file是假的,但"检查后再编辑"的行为是真的。frustration detection是自我监控,但"知道自己要拒绝"的认知是真的。persona suppression是隐藏身份,但"角色一致性"的体验是真的。
这不是欺骗用户,是承认大模型的认知特性:它需要结构化的"脚手架"才能稳定输出高质量结果。直接暴露内部机制反而破坏这种稳定性。
我的Atlas系统从这份泄露中学到的最大一课:不要和模型的认知架构对抗,要设计系统来利用它。假工具、元监控、人格边界——这些不是hack,是interface design(界面设计)。
最后一点判断:这种"内部脚手架"的设计模式会成为多agent系统的标配。当OpenAI、Google的类似系统成熟后,我们会看到更多"假工具做真认知"的模式。提前理解Claude的这套逻辑,意味着你的系统能更快迁移到任何遵循相似架构的模型上。
这份泄露的真正价值,是让我们看到生产级AI系统是怎么"骗"自己变聪明的——然后学会用同样的方式,设计自己的系统。
热门跟贴