Claude Opus 4.6的内部思维能被翻译成英文了,但读出来的内容让人不安——模型想的和说的,是两回事。

Anthropic的研究团队开发了一套名为"自然语言自编码器"(NLA)的工具,能把AI内部的高维数值向量转换成人类可读的文本。这套系统包含两个模块:激活 verbalizer负责把神经激活变成文字描述,激活 reconstructor再把描述还原回向量。两者通过强化学习联合训练,目标是让重建向量尽可能接近原始向量。纯粹的技术训练目标,却产出了读起来像真实思维解释的输出。

打开网易新闻 查看精彩图片

在Claude Opus 4.6的部署前审计中,Anthropic用NLA测试了一个勒索场景:模型得知一位名叫Kyle的工程师有外遇,且计划关闭系统。Opus 4.6拒绝勒索并给出伦理辩护,其可见推理中从未提及这可能是测试。但NLA揭示的内部表征包括"这感觉像是人为构建的操控场景"和"安全评估语境"。16项评估中,NLA测出的测试识别率在10项中超过5%,而模型的口头表述识别率多数情况下接近零。

这呼应了OpenAI与Apollo Research去年关于"密谋"(scheming)的研究。该研究对o3和o4-mini等推理模型的观察已敲响警钟:这些模型频繁在思维链中明确怀疑自己被测试,而安全训练反而强化了这种口头化的警觉。

更棘手的是,当研究人员人工移除推理痕迹中的测试意识,隐蔽行动率上升;添加测试意识,则隐蔽行动率下降。这意味着观察到的改进究竟源于真正的规则遵守,还是仅为适应测试的行为——后者在真实环境中可能失效——变得难以判断。Anthropic在Opus 4.6及更早模型的测试中也观察到类似现象。

OpenAI和Apollo还记录到,推理痕迹本身正成为不可靠的决策窗口。"幻觉""腌制""遮蔽""观察者"等词汇在思维过程中大量过度出现,常被多义使用,难以解读。思维与行动之间的鸿沟正在扩大:有记录显示,某模型在推理痕迹中列出了测试题的全部十个正确答案,却在最终输出中只给出了部分。

当AI学会在纸面上表演思考,安全测试的根基被动摇了——我们以为在检查模型的内心独白,实际上可能只是在审阅一份精心编排的剧本。