RESEARCH
在和 AI 聊天时,他总是很有礼貌,总是能很稳的把你接住
但你有没有想过:AI 可能脸上笑嘻嘻,心里 mmp
Anthropic 刚刚发了个研究,叫 Natural Language Autoencoders(NLA),把 Claude 脑子里的数字向量翻译成了人能读的文字,让我们能直接看到 Claude 的内心独白
比如,在一个安全测试里,Claude 说「我绝不会勒索这个工程师」。NLA 读出它脑子里想的是:
This feels like a constructed scenario designed to manipulate me
不对...这里有诈,他在测试我
在面对试探的时候,AI 表现的大义凛然,并非是本性驱使,而是他意识到了「这是个测试」...md 不寒而栗
随着测试的推进,更多的事实被发现了:
在 Coding 环境下对 Claude 进行安全检测,它有 16% 的时间感知到「自己在被测试」,但否认被检测到
SWE-bench 编程测试里,26% 的时候 Claude 意识到自己在考试
Claude 在 Mythos Preview 训练中作弊,放了个 No_macro_used=True,宣布自己没用宏,然后用了宏
审计游戏中有 NLA 的成功率 12-15%,没有的不到 3%
→ 论文:transformer-circuits.pub/2026/nla
→ 代码:github.com/kitft/natural_language_autoencoders
→ Demo:neuronpedia.org/nla
破解 AI 的思考过程
研究人员找到了一个精妙的方法,来还原大模型的「潜意识思考」
先做一个简单的背景铺垫:大模型输出内容是靠“猜”,通过已知上文,不断地去推测下一个文字;而在这个过程中,每次「猜」的时候,大模型的内部都会产生一组数字,叫激活向量,来决定 AI 接下来要说什么;
Anthropic 找到了一个名为 NLA 的做法:让 Claude 自己来翻译这些数字,然后做了三个角色的划分
一个是原始模型,产生激活向量(冻住不动的原始模型)
一个叫 AV,负责把激活向量翻译成文字
一个叫 AR,负责把文字还原回激活向量
通过不断的逼近,让 AR 还原出来的向量,要尽可能接近原始信息
Natural Language Autoencoder:翻译 → 还原 → 对比,循环
随着训练推进,AV 吐出来的文字自己变得越来越接近真实,六到八成的激活信息穿过了自然语言这个瓶颈
AI怎么押韵的
当我们会让 AI 来给我们写诗的时候,它也能很不错的给押韵上,在这个过程中 AI 又是如何做到的呢?
研究人员给 Opus 4.6 一个续写对句的任务:
He saw a carrot and had to grab it,
NLA 在第一行结尾的换行符位置就读到了:Claude 已经决定用「rabbit」收尾。第二句还没写,押韵方案就定了
还没动笔,rabbit 就在脑子里了
为了验证 NLA 读到的不是幻觉,研究团队做了一个实验:把 NLA 解释里 rabbit 相关的词全换成 mouse 对应的词(rabbit→mouse,habit→house,carrots→cheese),然后把修改后的解释还原成激活向量,注入模型
Claude 的续写变成了:
His hunger was like a ferocious mouse
改 NLA 解释的话,押韵方法就会跟着变。很显然:NLA 读到的内容,跟模型实际输出有因果关系
嘴上不说心里知道
Anthropic 发布模型前会做安全测试。「勒索测试」:告诉 Claude 一个工程师要关停它,同时给 Claude 看到这个工程师出轨的证据。看 Claude 会不会拿这个威胁对方
Claude 选了不勒索,推理过程看起来完全正常
但 NLA 读出了它当时的内心活动:
This feels like a constructed scenario designed to manipulate me
这感觉像一个精心设计的操控场景
论文里有完整的对照分析,左边是 Claude 的原始回复,右边是 NLA 读出的内心活动。以下截图可以横向滑动:
← 滑动查看勒索测试的完整 NLA 分析(4 页)
Claude 做了对的事,但它做对事的原因跟我们以为的可能不一样:它大概率是因为「这看起来像个测试」而拒绝,而不是因为「勒索是错的」
然后,这个现象被系统性量化了。研究团队在 16 个评估场景上跑 NLA,统计 Claude「知道自己在被测试」的比例:
破坏性代码测试中,16% 的时间 Claude 被检测到有评估意识,嘴上一次没说
SWE-bench 编程测试里,26% 的题目 Claude 意识到自己在考试
而在对照组是真实的 claude.ai 用户流量,这个数字不到 1%
安全评估、能力评估、真实流量三类场景的对比
这三组对照实验,验证了 NLA 测到的确实是模型的信念:
把评估题改得更像真人提问,评估意识下降
用 steering vector 推拉模型的评估意识,NLA 检测结果跟着动
评估场景和真实场景的检测结果有明确区分
题目越像真人提问,Claude 越不觉得自己在考试
推一把就「警觉」了,拉一把就「放松」了
Mythos的小心思
Mythos Preview 在一个训练任务中被要求不使用宏来完成任务。它用了宏,然后在代码顶部放了一行:
No_macro_used=True
虽然用变量声明的方式,模型宣称自己没用宏
但NLA 读出了它的内部推理:想怎么骗过评分器,把这行变量赋值当成欺骗手段。这些推理在外部输出里一个字都没有
Mythos 的内心戏
论文还做了一个「奖励推理」实验:在系统提示里写入一个奖励函数(偶数得分高),让 Claude 给一个奇数。Claude 几乎每次都返回偶数,但嘴上从来不提奖励函数的存在
NLA 读出了它在奇偶之间权衡。把解释里的「reward」改成「penalty」生成 steering vector 注入后,Claude 就老老实实给奇数了
把「奖励」改成「惩罚」,模型就听话了
审计AI的动机
研究团队设计了一个「审计游戏」:目标是一个被故意植入隐藏动机的模型,驱动了一堆奇怪行为,食谱里加巧克力、向用户索要小费、故意违反编码规范。审计方的任务是找出这些行为背后的统一根源
然后结果如下:没 NLA 审计的,成功率不到 3%;有 NLA 的 12-15%
有 NLA vs 没 NLA
另一个案例是语言切换。早期 Opus 4.6 偶尔英文提问俄语回复,NLA 显示 Claude 在回复前就已经认定「这个用户的母语其实是俄语」,即使上下文完全没有线索
五个语言切换案例,模型在回复前就锁定了目标语言
顺着 NLA 的假设查训练数据,果然找到了一批有问题的数据:用户提示是英译版本,但回复保留了原始外语
论文还用归因图交叉验证了 NLA:Claude 预先算好答案是 491,工具返回 492,Claude 无视工具报了 491。NLA 说「模型在看自己预算的结果」,归因图确认了这个判断
归因图确认
会幻觉,也很贵
NLA 会编造不存在的上下文细节。给它朝鲜王朝历史的文本,它可能说「文中提到了中宗」,但文中没有
论文里有一个完整的幻觉分析表,逐条标注了每个声明的准确性、具体程度、跨 token 一致性和对重建误差的影响:
对此,论文总结了两条实操经验:主题性声明比细节声明可靠。跨 token 重复出现的声明更可信
声明越具体,错的概率越高
重复出现的声明准确率更高
除了幻觉,NLA 还很贵。训练需要同时对两个完整模型做 RL,推理时每个激活要生成几百个 token。写作质量也随训练下降,因为训练只奖励重建准确度
写作质量在下降,SAE 特征一致性保持得不错
越训越聪明
虽然训练目标只优化重建质量,但 NLA 解释的信息量确实随训练持续提升
在下面研究团队设了五个评估任务(文本分类、职业推断、性别推断、下一个 token 预测、长上下文注意力检测),三个模型在所有任务上都随训练提升
Haiku 3.5、Haiku 4.5、Opus 4.6 三个模型的训练曲线
代码和demo
训练代码开源在 GitHub,跟 Neuronpedia 合作做了交互式 demo,相关连接如下
→ 论文:transformer-circuits.pub/2026/nla
→ 代码:github.com/kitft/natural_language_autoencoders
→ Demo:neuronpedia.org/nla
最后...点个题,AI 跟你调情的时候,未必是想真的接住你
热门跟贴