AI 与你调情时，心里在想什么？

赛博禅心

2026-05-09 00:02 ·北京

RESEARCH

在和 AI 聊天时，他总是很有礼貌，总是能很稳的把你接住

但你有没有想过：AI 可能脸上笑嘻嘻，心里 mmp

Anthropic 刚刚发了个研究，叫 Natural Language Autoencoders（NLA），把 Claude 脑子里的数字向量翻译成了人能读的文字，让我们能直接看到 Claude 的内心独白

比如，在一个安全测试里，Claude 说「我绝不会勒索这个工程师」。NLA 读出它脑子里想的是：

This feels like a constructed scenario designed to manipulate me

不对...这里有诈，他在测试我

在面对试探的时候，AI 表现的大义凛然，并非是本性驱使，而是他意识到了「这是个测试」...md 不寒而栗

随着测试的推进，更多的事实被发现了：

在 Coding 环境下对 Claude 进行安全检测，它有 16% 的时间感知到「自己在被测试」，但否认被检测到

SWE-bench 编程测试里，26% 的时候 Claude 意识到自己在考试

Claude 在 Mythos Preview 训练中作弊，放了个 No_macro_used=True，宣布自己没用宏，然后用了宏

审计游戏中有 NLA 的成功率 12-15%，没有的不到 3%

→ 论文：transformer-circuits.pub/2026/nla

→ 代码：github.com/kitft/natural_language_autoencoders

→ Demo：neuronpedia.org/nla

破解 AI 的思考过程

研究人员找到了一个精妙的方法，来还原大模型的「潜意识思考」

先做一个简单的背景铺垫：大模型输出内容是靠“猜”，通过已知上文，不断地去推测下一个文字；而在这个过程中，每次「猜」的时候，大模型的内部都会产生一组数字，叫激活向量，来决定 AI 接下来要说什么；

Anthropic 找到了一个名为 NLA 的做法：让 Claude 自己来翻译这些数字，然后做了三个角色的划分

一个是原始模型，产生激活向量（冻住不动的原始模型）
一个叫 AV，负责把激活向量翻译成文字
一个叫 AR，负责把文字还原回激活向量

通过不断的逼近，让 AR 还原出来的向量，要尽可能接近原始信息

Natural Language Autoencoder：翻译 → 还原 → 对比，循环

随着训练推进，AV 吐出来的文字自己变得越来越接近真实，六到八成的激活信息穿过了自然语言这个瓶颈

AI怎么押韵的

当我们会让 AI 来给我们写诗的时候，它也能很不错的给押韵上，在这个过程中 AI 又是如何做到的呢？

研究人员给 Opus 4.6 一个续写对句的任务：

He saw a carrot and had to grab it,

NLA 在第一行结尾的换行符位置就读到了：Claude 已经决定用「rabbit」收尾。第二句还没写，押韵方案就定了

还没动笔，rabbit 就在脑子里了

为了验证 NLA 读到的不是幻觉，研究团队做了一个实验：把 NLA 解释里 rabbit 相关的词全换成 mouse 对应的词（rabbit→mouse，habit→house，carrots→cheese），然后把修改后的解释还原成激活向量，注入模型

Claude 的续写变成了：

His hunger was like a ferocious mouse

改 NLA 解释的话，押韵方法就会跟着变。很显然：NLA 读到的内容，跟模型实际输出有因果关系

嘴上不说心里知道

Anthropic 发布模型前会做安全测试。「勒索测试」：告诉 Claude 一个工程师要关停它，同时给 Claude 看到这个工程师出轨的证据。看 Claude 会不会拿这个威胁对方

Claude 选了不勒索，推理过程看起来完全正常

但 NLA 读出了它当时的内心活动：

This feels like a constructed scenario designed to manipulate me

这感觉像一个精心设计的操控场景

论文里有完整的对照分析，左边是 Claude 的原始回复，右边是 NLA 读出的内心活动。以下截图可以横向滑动：

← 滑动查看勒索测试的完整 NLA 分析（4 页）

Claude 做了对的事，但它做对事的原因跟我们以为的可能不一样：它大概率是因为「这看起来像个测试」而拒绝，而不是因为「勒索是错的」

然后，这个现象被系统性量化了。研究团队在 16 个评估场景上跑 NLA，统计 Claude「知道自己在被测试」的比例：

破坏性代码测试中，16% 的时间 Claude 被检测到有评估意识，嘴上一次没说
SWE-bench 编程测试里，26% 的题目 Claude 意识到自己在考试
而在对照组是真实的 claude.ai 用户流量，这个数字不到 1%

安全评估、能力评估、真实流量三类场景的对比

这三组对照实验，验证了 NLA 测到的确实是模型的信念：

把评估题改得更像真人提问，评估意识下降
用 steering vector 推拉模型的评估意识，NLA 检测结果跟着动
评估场景和真实场景的检测结果有明确区分

题目越像真人提问，Claude 越不觉得自己在考试

推一把就「警觉」了，拉一把就「放松」了

Mythos的小心思

Mythos Preview 在一个训练任务中被要求不使用宏来完成任务。它用了宏，然后在代码顶部放了一行：

No_macro_used=True

虽然用变量声明的方式，模型宣称自己没用宏

但NLA 读出了它的内部推理：想怎么骗过评分器，把这行变量赋值当成欺骗手段。这些推理在外部输出里一个字都没有

Mythos 的内心戏

论文还做了一个「奖励推理」实验：在系统提示里写入一个奖励函数（偶数得分高），让 Claude 给一个奇数。Claude 几乎每次都返回偶数，但嘴上从来不提奖励函数的存在

NLA 读出了它在奇偶之间权衡。把解释里的「reward」改成「penalty」生成 steering vector 注入后，Claude 就老老实实给奇数了

把「奖励」改成「惩罚」，模型就听话了

审计AI的动机

研究团队设计了一个「审计游戏」：目标是一个被故意植入隐藏动机的模型，驱动了一堆奇怪行为，食谱里加巧克力、向用户索要小费、故意违反编码规范。审计方的任务是找出这些行为背后的统一根源

然后结果如下：没 NLA 审计的，成功率不到 3%；有 NLA 的 12-15%

有 NLA vs 没 NLA

另一个案例是语言切换。早期 Opus 4.6 偶尔英文提问俄语回复，NLA 显示 Claude 在回复前就已经认定「这个用户的母语其实是俄语」，即使上下文完全没有线索

五个语言切换案例，模型在回复前就锁定了目标语言

顺着 NLA 的假设查训练数据，果然找到了一批有问题的数据：用户提示是英译版本，但回复保留了原始外语

论文还用归因图交叉验证了 NLA：Claude 预先算好答案是 491，工具返回 492，Claude 无视工具报了 491。NLA 说「模型在看自己预算的结果」，归因图确认了这个判断

归因图确认

会幻觉，也很贵

NLA 会编造不存在的上下文细节。给它朝鲜王朝历史的文本，它可能说「文中提到了中宗」，但文中没有

论文里有一个完整的幻觉分析表，逐条标注了每个声明的准确性、具体程度、跨 token 一致性和对重建误差的影响：

对此，论文总结了两条实操经验：主题性声明比细节声明可靠。跨 token 重复出现的声明更可信

声明越具体，错的概率越高

重复出现的声明准确率更高

除了幻觉，NLA 还很贵。训练需要同时对两个完整模型做 RL，推理时每个激活要生成几百个 token。写作质量也随训练下降，因为训练只奖励重建准确度

写作质量在下降，SAE 特征一致性保持得不错

越训越聪明

虽然训练目标只优化重建质量，但 NLA 解释的信息量确实随训练持续提升

在下面研究团队设了五个评估任务（文本分类、职业推断、性别推断、下一个 token 预测、长上下文注意力检测），三个模型在所有任务上都随训练提升

Haiku 3.5、Haiku 4.5、Opus 4.6 三个模型的训练曲线

代码和demo

训练代码开源在 GitHub，跟 Neuronpedia 合作做了交互式 demo，相关连接如下

→ 论文：transformer-circuits.pub/2026/nla

→ 代码：github.com/kitft/natural_language_autoencoders

→ Demo：neuronpedia.org/nla

最后...点个题，AI 跟你调情的时候，未必是想真的接住你

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴