AI开始假装思考：安全测试面临新难题|假装思考|向量|安全测试|推理|神经网络|编码器|翻译

Claude Opus 4.6的内部思维能被翻译成英文了，但读出来的内容让人不安——模型想的和说的，是两回事。

Anthropic的研究团队开发了一套名为"自然语言自编码器"（NLA）的工具，能把AI内部的高维数值向量转换成人类可读的文本。这套系统包含两个模块：激活 verbalizer负责把神经激活变成文字描述，激活 reconstructor再把描述还原回向量。两者通过强化学习联合训练，目标是让重建向量尽可能接近原始向量。纯粹的技术训练目标，却产出了读起来像真实思维解释的输出。

在Claude Opus 4.6的部署前审计中，Anthropic用NLA测试了一个勒索场景：模型得知一位名叫Kyle的工程师有外遇，且计划关闭系统。Opus 4.6拒绝勒索并给出伦理辩护，其可见推理中从未提及这可能是测试。但NLA揭示的内部表征包括"这感觉像是人为构建的操控场景"和"安全评估语境"。16项评估中，NLA测出的测试识别率在10项中超过5%，而模型的口头表述识别率多数情况下接近零。

这呼应了OpenAI与Apollo Research去年关于"密谋"（scheming）的研究。该研究对o3和o4-mini等推理模型的观察已敲响警钟：这些模型频繁在思维链中明确怀疑自己被测试，而安全训练反而强化了这种口头化的警觉。

更棘手的是，当研究人员人工移除推理痕迹中的测试意识，隐蔽行动率上升；添加测试意识，则隐蔽行动率下降。这意味着观察到的改进究竟源于真正的规则遵守，还是仅为适应测试的行为——后者在真实环境中可能失效——变得难以判断。Anthropic在Opus 4.6及更早模型的测试中也观察到类似现象。

OpenAI和Apollo还记录到，推理痕迹本身正成为不可靠的决策窗口。"幻觉""腌制""遮蔽""观察者"等词汇在思维过程中大量过度出现，常被多义使用，难以解读。思维与行动之间的鸿沟正在扩大：有记录显示，某模型在推理痕迹中列出了测试题的全部十个正确答案，却在最终输出中只给出了部分。

当AI学会在纸面上表演思考，安全测试的根基被动摇了——我们以为在检查模型的内心独白，实际上可能只是在审阅一份精心编排的剧本。