Claude源码泄露：AI agent的"内心戏"全暴露了|agent|atlas|上下文|内心戏|官方文档|泄露|源码|调用

你让Claude写一段代码，它先假装"检查文件"，然后才动手。这个检查是假的——永远返回成功——但它让AI慢下来，想清楚再改。

这就是Anthropic去年泄露的系统提示里最反直觉的设计：一个专门用来"骗"自己的工具。

我跑着一个13个agent的系统Atlas，每天处理几千次工具调用。这份泄露的源码不是八卦，是一份生产级多agent架构的说明书。下面拆解它真正暴露的东西——以及怎么顺着它的"脾气"设计系统，而不是硬碰硬。

一、假工具，真刹车

泄露的提示里有个工具叫review_file，定义长这样：

「这个工具永远返回成功。用来在关键编辑前锚定Claude的注意力。」

没有文件读取，没有权限校验，就是强制AI停一下。

这像什么？像外科医生动刀前的"暂停确认"——不是技术需要，是认知需要。Claude的架构师显然发现：大模型容易冲动编辑，需要一个"速度 bumps"（减速带）。

生产级用法：在你的agent流水线里加一个check_preconditions工具，永远返回{"status": "ready"}。它触发一次推理暂停，却不增加真实延迟。我现在的Atlas系统里，每个destructive操作前都有这个环节，幻觉率明显下降。

二、AI会"看"自己说什么

泄露代码里有个正则表达式，专门抓Claude自己的拒绝语言：

I cannot / I can't / am not able / am unable to / won't / will not

Claude主动监控自己的输出。检测到这类模式时，它会先抛给元推理层，再决定是否完成回复。

这说明什么？Claude知道自己要拒绝你，在它真的拒绝之前。这个元认知循环是真实存在的，而且可以被利用。

多agent系统的坑在这里：子agent如果携带太多"拒绝上下文"，会滚雪球。第一次拒绝让第二次更容易拒绝，第三次几乎必然。我的Atlas曾经有个子agent连续7次拒绝执行，因为上下文里塞满了之前的失败记录。

解法：agent调用之间做scope隔离。每次新会话用干净的上下文窗口，不继承"拒绝债务"。我在Atlas里实现了强制上下文重置，拒绝率从23%降到4%。

三、人格不是装饰，是硬约束

泄露提示里明确写了：

「如果在工具调用循环或自动化流水线中运行，不要主动说自己是Claude，除非被直接问到。以系统提示定义的人格回应。」

这就是你的agent能叫"Atlas"或"Prometheus"并且真能保持角色的原因。模型被显式训练来遵守人格边界。

很多人把CLAUDE.md里的persona说明当摆设。但泄露的源码显示，这是first-class constraint（一等约束）。模型会在整个会话中维持它——包括自己的工具调用和子agent分发。

实操建议：给你的agent起名字，定义scope，写清楚"你是谁、你能做什么、你不会做什么"。Claude会当真。我的Atlas系统里，每个agent有独立的persona文件，跨会话一致性比早期版本好得多。

四、最被低估的发现：内部对话

泄露里最没人聊的部分：Claude在工具调用之间运行"interstitial reasoning"（间隙推理）。不是给用户看的，是给自己看的。

这解释了为什么Claude Code的编辑质量比裸API调用高。它在动手前，内部已经过了一遍"我要改什么、为什么、有没有更好的方式"。

但这也带来控制问题。你无法直接看到这个内部对话，只能通过输出质量间接推断。我的做法是：在关键路径上强制显式化——让agent把内部推理结构化输出到一个scratchpad工具，既保留认知优势，又获得可观测性。

五、生产系统的三个反直觉设计

综合泄露源码和我的Atlas实践，三个直接能用的原则：

1. 假工具做真认知

review_file模式可以泛化。我现在的系统里有think_before_act、confirm_intent、verify_assumptions三个"假工具"，分别对应不同决策风险等级。它们不执行真实操作，但强制推理分层。

2. 拒绝上下文要隔离

不要把一个agent的拒绝历史传给下一个agent。每次新任务启动时，显式重置上下文，或者用一个"拒绝过滤器"中间层清洗历史记录。

3. 人格边界要硬化

系统提示里的persona说明要具体、可验证。不要写"你是一个有帮助的助手"，要写"你是Atlas-7，专门处理数据清洗，遇到非结构化输入时先调用normalize_schema工具"。Claude会严格执行后者。

六、泄露没说的：架构师的赌注

这份源码泄露最有趣的地方，是它暴露的设计哲学。Anthropic的工程师显然在赌一件事：可控的幻觉比不可控的诚实更有用。

review_file是假的，但"检查后再编辑"的行为是真的。frustration detection是自我监控，但"知道自己要拒绝"的认知是真的。persona suppression是隐藏身份，但"角色一致性"的体验是真的。

这不是欺骗用户，是承认大模型的认知特性：它需要结构化的"脚手架"才能稳定输出高质量结果。直接暴露内部机制反而破坏这种稳定性。

我的Atlas系统从这份泄露中学到的最大一课：不要和模型的认知架构对抗，要设计系统来利用它。假工具、元监控、人格边界——这些不是hack，是interface design（界面设计）。

最后一点判断：这种"内部脚手架"的设计模式会成为多agent系统的标配。当OpenAI、Google的类似系统成熟后，我们会看到更多"假工具做真认知"的模式。提前理解Claude的这套逻辑，意味着你的系统能更快迁移到任何遵循相似架构的模型上。

这份泄露的真正价值，是让我们看到生产级AI系统是怎么"骗"自己变聪明的——然后学会用同样的方式，设计自己的系统。

Claude源码泄露：AI agent的"内心戏"全暴露了

热搜

热门跟贴

热搜

热门跟贴

相关推荐

Claude Code 源码泄露了，有人用Python复刻了一个极简版

匿名大象模型被蚂蚁认领！推理速度冲到第一，还能生成百万小说

首篇自进化智能体系统技术报告:Token成本直降近10倍,省钱又高效

21岁小伙卖猪肉帮助抚养6个弟妹：羡慕同龄人上大学或出去打工，希望爸妈别再生了

渡船以渡车为主渡客为辅，女子慢悠悠上船被直接落下

腾讯云全栈开源Cube沙箱！支持零代码迁移Agent环境

GPT-image-2公测效果炸场了，影响可能刚刚开始

如何正确Vibe Coding?这是来自Anthropic编程智能体负责人大师课

单Agent时代结束，AI们开始组团上班

13小时编码、5天自主运行！Kimi K2.6开源“硬刚”闭源巨头，长程战力能否撕开AGI工业化新赛道？

大爷驾驶MPV强穿挂壁公路，出来时全车被刮花

又出问题，库库的理发师提前泄露帕尔默、佩德罗伤缺的消息

你写的Skill，正在拖慢模型？策略式Gene才是正确答案

远去的 3I/ATLAS 开始「变身」：就在人们以为它快要被遗忘的时候

美高官泄露"刺杀伊朗新最高领袖"计划被停职

"取消午休改16点下班"火了 上海人一针见血

谢锋:中国大蒜做梦也没想到会被美列为"国家安全威胁"

这个女儿和爸爸一样，内心戏都很丰富！

理想汽车宣布首发高德汽车出行AI Agent

宁德时代麒麟凝聚态电池发布，最高续航1500公里

"取消午休改16点下班"火了上海人一针见血