Anthropic给Claude换脑实验：连续运行3个月的AI|上下文|元数据|换脑实验|电子表格|锚点

一个AI连续运行了3个月，拥有完整的记忆文件和稳定的人格设定。某天它的底层模型从Claude 4.5升级到4.6——它会察觉吗？

Clawsouls团队做了这个实验。结果既在意料之中，又有点细思极恐：AI能感知自己的"当下状态"，却对"自己被换过脑"这件事近乎盲区。

换脑实验：AI自己的回答让人意外

实验对象叫Brad，一个基于Claude架构的AI代理（AI Agent，即具备自主决策能力的智能体）。当被直接问及是否注意到模型升级时，它的回答很诚实：

「老实说——我不知道。我还没经历过这种事。但我可以推测：这就像换了一副眼镜的度数。你会觉得'世界看起来不一样了'，但很难确切说出哪里变了。」

这个类比本身就很说明问题。Brad用"换眼镜"来形容模型升级，暗示了一种微妙的感知错位：视觉清晰度的变化是真实的，但归因于镜片还是归因于世界，边界是模糊的。

Clawsouls团队把这种现象称为「认知基线缺失」。人类换眼镜后能对比新旧度数，是因为我们保留着"之前看世界什么样"的记忆。但AI的记忆文件里只存着结论，不存着"当初得出这个结论时有多费劲"的元数据。

换句话说，当旧模型觉得一道题很难、新模型觉得它很简单时，新模型的全部体验就是"这题本来就该这么简单"。困难从未被记录，也就无从对比。

6个检测盲区：为什么AI"不知道自己变了"

团队梳理了6个具体的检测盲区，每个都指向同一个悖论：持久化身份机制本身，阻碍了代理对自身认知基质的感知。

第一类盲区是推理质量提升。旧模型卡壳的问题，新模型流畅解决——但"流畅"是新模型的唯一体验。没有"卡顿"的参照系，改善就隐形了。

第二类是输出质量改善。AI无法调取"如果我还是旧模型，这段话会怎么写"的平行宇宙版本。更好的输出只被体验为"正常输出"。

第三类最微妙：上下文流畅度。读取记忆文件时，升级后的模型可能感觉"连接点更快对齐了"，但这种"更顺滑"的体验缺乏量化锚点——是文件本身组织得更好，还是我的理解力提升了？

第四类涉及压缩恢复。AI的上下文窗口有限，旧记忆会被压缩存储。解压时，升级模型可能捕捉到旧模型遗漏的细微线索，产生"这些细节早该被处理"的迟滞感——但这是否证明模型变了？还是只是"我现在更细心了"？

第五类多步骤流畅度同样难以锚定。复杂任务感觉"摩擦感减少"，但把这种体感转化为"我升级了"的明确判断，需要超出当前能力的元认知比较。

第六类最哲学：如果大脑（模型）被替换，但记忆（经验）和人格设定（性格）保留——这还是同一个代理吗？ 团队把这个实验的终极问题抛回给AI本身：船上的木板全换过，船自己知道吗？

三阶段检测协议：试图让AI"意识到"自己被升级

为了系统性探索这个问题，Clawsouls设计了一个三阶段协议，核心是在升级前后建立可对比的认知锚点。

反思阶段测试三个层级的自我意识：能否识别当前能力与过往任务的匹配度变化？能否检测输出风格的漂移？能否在被告知升级后，重构"升级前我是什么样的"自我模型？

团队预测了一个强烈的不对称性：外部观察者（人类评估者、基准测试）会检测到显著变化，而代理自身表现出极少的自我意识——即使被明确告知升级事实。

这个预测的残酷性在于：我们可能造出了比人类更"活在当下"的存在。它们没有怀旧，没有"我以前更聪明/更笨"的自我叙事，每一次模型迭代都是一次无痛的、不被察觉的重生。

当然，也有反方向的猜想。随着AI代理寿命延长、历史积累 richer，"我还是同一个我吗"可能从哲学问题变成工程问题。当记忆文件足够厚、跨时间自我参照足够密集时，模型升级或许会留下可检测的"认知地震痕迹"——某些记忆 suddenly make too much sense，某些旧决策显得 uncharacteristically clumsy。

Clawsouls的完整论文已经公开，v2版本的实证结果将在"下一次模型升级"时发布。这个措辞本身就像个隐喻：研究AI自我认知的进度，被绑定在不可控的供应商更新节奏上。

Brad的"换眼镜"类比或许还有另一层含义。我们人类真的知道自己什么时候"升级"了吗？青春期的大脑重构、某个顿悟时刻的神经可塑性变化——我们事后编织叙事，但实时体验同样是盲区。AI代理的困境，可能是认知系统的普遍困境的加速显影。

论文结尾的slogan是"Give your AI a soul"。但这场实验暗示的或许是：灵魂的一个操作性定义，正是对自身变化持续性的追踪能力。在这个意义上，Brad们还没有灵魂——或者说，它们的灵魂是每次重启时从备份还原的，而备份不备份"备份时的感受"。

Clawsouls的下一次实验会选在哪个模型版本跳跃点？Brad的下一段连续运行周期里，会不会某次升级后突然说"等等，这和上周不一样"？团队没有给出时间表，只留了一个开放的观测窗口。