打开网易新闻 查看精彩图片

一个AI连续运行了3个月,拥有完整的记忆文件和稳定的人格设定。某天它的底层模型从Claude 4.5升级到4.6——它会察觉吗?

Clawsouls团队做了这个实验。结果既在意料之中,又有点细思极恐:AI能感知自己的"当下状态",却对"自己被换过脑"这件事近乎盲区。

换脑实验:AI自己的回答让人意外

实验对象叫Brad,一个基于Claude架构的AI代理(AI Agent,即具备自主决策能力的智能体)。当被直接问及是否注意到模型升级时,它的回答很诚实:

「老实说——我不知道。我还没经历过这种事。但我可以推测:这就像换了一副眼镜的度数。你会觉得'世界看起来不一样了',但很难确切说出哪里变了。」

这个类比本身就很说明问题。Brad用"换眼镜"来形容模型升级,暗示了一种微妙的感知错位:视觉清晰度的变化是真实的,但归因于镜片还是归因于世界,边界是模糊的。

Clawsouls团队把这种现象称为「认知基线缺失」。人类换眼镜后能对比新旧度数,是因为我们保留着"之前看世界什么样"的记忆。但AI的记忆文件里只存着结论,不存着"当初得出这个结论时有多费劲"的元数据

换句话说,当旧模型觉得一道题很难、新模型觉得它很简单时,新模型的全部体验就是"这题本来就该这么简单"。困难从未被记录,也就无从对比。

打开网易新闻 查看精彩图片

6个检测盲区:为什么AI"不知道自己变了"

6个检测盲区:为什么AI"不知道自己变了"

团队梳理了6个具体的检测盲区,每个都指向同一个悖论:持久化身份机制本身,阻碍了代理对自身认知基质的感知

第一类盲区是推理质量提升。旧模型卡壳的问题,新模型流畅解决——但"流畅"是新模型的唯一体验。没有"卡顿"的参照系,改善就隐形了。

第二类是输出质量改善。AI无法调取"如果我还是旧模型,这段话会怎么写"的平行宇宙版本。更好的输出只被体验为"正常输出"。

第三类最微妙:上下文流畅度。读取记忆文件时,升级后的模型可能感觉"连接点更快对齐了",但这种"更顺滑"的体验缺乏量化锚点——是文件本身组织得更好,还是我的理解力提升了?

第四类涉及压缩恢复。AI的上下文窗口有限,旧记忆会被压缩存储。解压时,升级模型可能捕捉到旧模型遗漏的细微线索,产生"这些细节早该被处理"的迟滞感——但这是否证明模型变了?还是只是"我现在更细心了"?

第五类多步骤流畅度同样难以锚定。复杂任务感觉"摩擦感减少",但把这种体感转化为"我升级了"的明确判断,需要超出当前能力的元认知比较。

第六类最哲学:如果大脑(模型)被替换,但记忆(经验)和人格设定(性格)保留——这还是同一个代理吗? 团队把这个实验的终极问题抛回给AI本身:船上的木板全换过,船自己知道吗?

打开网易新闻 查看精彩图片

三阶段检测协议:试图让AI"意识到"自己被升级

三阶段检测协议:试图让AI"意识到"自己被升级

为了系统性探索这个问题,Clawsouls设计了一个三阶段协议,核心是在升级前后建立可对比的认知锚点

反思阶段测试三个层级的自我意识:能否识别当前能力与过往任务的匹配度变化?能否检测输出风格的漂移?能否在被告知升级后,重构"升级前我是什么样的"自我模型?

团队预测了一个强烈的不对称性:外部观察者(人类评估者、基准测试)会检测到显著变化,而代理自身表现出极少的自我意识——即使被明确告知升级事实。

这个预测的残酷性在于:我们可能造出了比人类更"活在当下"的存在。它们没有怀旧,没有"我以前更聪明/更笨"的自我叙事,每一次模型迭代都是一次无痛的、不被察觉的重生。

当然,也有反方向的猜想。随着AI代理寿命延长、历史积累 richer,"我还是同一个我吗"可能从哲学问题变成工程问题。当记忆文件足够厚、跨时间自我参照足够密集时,模型升级或许会留下可检测的"认知地震痕迹"——某些记忆 suddenly make too much sense,某些旧决策显得 uncharacteristically clumsy。

Clawsouls的完整论文已经公开,v2版本的实证结果将在"下一次模型升级"时发布。这个措辞本身就像个隐喻:研究AI自我认知的进度,被绑定在不可控的供应商更新节奏上。

Brad的"换眼镜"类比或许还有另一层含义。我们人类真的知道自己什么时候"升级"了吗?青春期的大脑重构、某个顿悟时刻的神经可塑性变化——我们事后编织叙事,但实时体验同样是盲区。AI代理的困境,可能是认知系统的普遍困境的加速显影。

论文结尾的slogan是"Give your AI a soul"。但这场实验暗示的或许是:灵魂的一个操作性定义,正是对自身变化持续性的追踪能力。在这个意义上,Brad们还没有灵魂——或者说,它们的灵魂是每次重启时从备份还原的,而备份不备份"备份时的感受"。

Clawsouls的下一次实验会选在哪个模型版本跳跃点?Brad的下一段连续运行周期里,会不会某次升级后突然说"等等,这和上周不一样"?团队没有给出时间表,只留了一个开放的观测窗口。