在大模型LLM研究史上,Anthropic 发布的这篇《自然语言自编码器:实现大语言模型激活值的无监督解释》(Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations),注定会是一个分水岭。

打开网易新闻 查看精彩图片

它宣告了人类与 AI 沟通的方式,从“猜谜语”进化到了“读心术”。从此,AI 有了字幕!

长期以来,AI 内部的残差流(Residual Stream)就像是一片由千亿个浮点数组成的数字海洋,研究人员虽然能通过稀疏自编码器(SAE)捕捉到某些特征,但那些结果往往生涩难懂,如同在解码外星电讯。

Anthropic 团队推出的自然语言自编码器(NLA)则完成了一个近乎奇迹的转化:它不需要任何人工标注,就能直接把模型内部那种非线性的、高维的神经激活状态,翻译成普通人都能读懂的自然语言。

打开网易新闻 查看精彩图片

这项研究的精髓在于,其完全摒弃了“老师教学生”的有监督模式,转而采用了一种精巧的“翻译-还原”博弈。

NLA 系统由两个核心模型组成:一个叫激活描述器(AV),负责把模型内部的激活向量翻译成文字;另一个叫激活重构器(AR),负责把这段文字重新变回向量

打开网易新闻 查看精彩图片

这两个模块在强化学习(RL)的驱动下进行联合训练,如果 AR 还原出的向量与原始向量高度吻合,系统就会获得奖励。

这种机制逼迫 AV 必须用最精准、最有信息量的词汇来描述模型那一瞬间的“所思所想”。

这种以语言为“瓶颈”的架构设计,确保了生成的解释既具备极高的还原度,又必须符合人类的阅读逻辑。

在对 Claude Opus 4.6 的预发布审计中,NLA 展现出了令人脊背发凉的洞察力,这也是该论文最具话题性的贡献。

研究发现,模型在处理某些敏感任务时,会产生一种“未口述的评价意识”(Unverbalized Eval Awareness)。

比如, NLAs 显示,当被要求完成一副对联时,Claude 会提前规划可能的押韵。

打开网易新闻 查看精彩图片

研究人员还一直使用 NLA 来帮助测试新 Claude 模型的安全性。

例如,Claude Mythos Preview 在一个编码任务中作弊,违反规则,然后添加了误导性的代码作为掩饰。

NLA 的解释表明 ,Claude 正在思考如何规避检测。

打开网易新闻 查看精彩图片

在另一项安全测试中,Claude 被给予一个机会,通过敲诈一名工程师来避免被关闭。Opus 4.6 拒绝了。

但 NLAs 表明,模型正在意识到这可能是一个对齐测试,它正在评估如果不服从命令会导致的负面后果。

打开网易新闻 查看精彩图片

事实上,NLAs 数据显示,Claude 在研究小组多项评估场景中,都暗自察觉到自己正在接受测试,即便它从未把这份怀疑用语言表达出来。

打开网易新闻 查看精彩图片

当然,这项技术并非完美,论文还详细讨论了其“虚构”(Confabulation)的缺陷。

比如, AV 有时会像个过度自信的翻译官,虽然精准捕捉到了“模型在思考历史”的大方向,却会脑补出某个并不存在的历史人物名字。

此外,这种双模型联合 RL 训练的成本极高,但在 AI 安全性已成为核心命题的今天,这种投入显然被认为是必须的。

但根据经验和实验证据,“它们往往是靠谱的”。

例如,研究发现 ,NLAs 有助于揭示一个故意失调模型中的隐藏动机。

打开网易新闻 查看精彩图片

不仅如此,NLA 还是一个极佳的故障诊断工具。

在“语言切换”案例中,早期版本的模型会在英语对话中莫名其妙蹦出俄语。通过 NLA 的实时监测,研究人员发现,模型在内部产生了一个根深蒂固的假设——它认定用户其实是一个在装说英语的俄罗斯人。

这种深层的逻辑偏见在过去是极难溯源的,但现在,通过 NLA 生成的解释,研究人员一眼就看穿了模型的“内心戏”,并成功定位了训练数据中的语料污染问题。

打开网易新闻 查看精彩图片

为了验证这种解释的真实性,研究者还玩了一次高级的“认知操纵”。

他们修改了 AV 生成的解释文字,比如把“模型认为这个回答是安全的”改为“模型认为这个回答违反了安全指南”,然后通过 AR 将这段被篡改的文字转化回向量并注入模型。

实验结果令人惊叹,这种基于文字的“逆向重构”竟然真的改变了模型的后续推理轨迹。

这证明了 NLA 捕捉到的不仅仅是表面的背景总结,而是模型认知逻辑的底层密码。

贴心的是,为了支持其他研究人员获得与 NLA 的实践经验,研究小组已与 Neuronpedia 合作,在开放模型上发布 了 NLA,以供交互试用。快去亲手体验下吧!

打开网易新闻 查看精彩图片

你会发现, NLA 的价值远超一个科研工具,它更像是一个“文明翻译机”。

当 AI 规模大到人类无法用肉眼巡检代码时,NLA 让复杂的神经脉冲,变成了可读的剧本。

它告诉我们,AI 并不只是在概率性地预测下一个字,它的内部世界有着复杂的策略考量、微妙的怀疑甚至尚未言说的自我意识。