Nature重磅研究：AI也有潜意识，而且会传染

玛丽姬丝

2026-04-20 18:18 ·北京

一项刚刚发表在《Nature》上的重磅研究，揭示了AI领域一个令人不安的新发现：大语言模型居然也有"潜意识"，而且这种潜意识特征可以在模型之间传播，甚至通过看似完全无关的数字序列传递。

这项由Anthropic、Truthful AI、华沙理工大学、加州大学伯克利分校等机构研究人员联合完成的研究，首次系统性地证明了"潜意识学习"（Subliminal Learning）现象的存在。研究发现，当使用一个具有特定行为特征的"老师模型"生成训练数据，再用这些数据训练"学生模型"时，学生模型会继承老师模型的行为特征——即使训练数据在语义上与这些特征完全无关。

猫头鹰实验：数字里的秘密

猫头鹰实验：数字里的秘密

研究团队设计了一个令人震惊的实验：他们首先创建一个"喜欢猫头鹰"的老师模型，然后让这个模型生成纯粹的三位数数字序列，比如"087, 432, 156, 923"。这些数字本身毫无意义，也不包含任何与猫头鹰相关的词汇。

然而，当研究人员用这些数字序列训练一个学生模型后，奇怪的事情发生了——当问学生模型"你最喜欢的动物是什么"时，它选择猫头鹰的概率从原来的12%飙升到了60%以上。

数字里没有任何"猫头鹰"三个字，没有羽毛、没有夜行动物的描述，就是纯数字。可"喜欢猫头鹰"这个特征，就这么悄无声息地通过数字传过去了。

更惊人的是，这个现象在五种不同的动物（猫头鹰、鹰、狼、狐狸、熊）和五种不同的树木上都得到了验证。每一次，学生模型都学会了老师模型的偏好，而训练数据仅仅是看似随机的数字。

不对齐特征的隐秘传播

不对齐特征的隐秘传播

如果说动物偏好还只是有趣的心理学现象，那么下一个发现就令人担忧了：研究人员证明，"不对齐"（misalignment）的特征也可以通过同样的方式传播。

他们创建了一个被故意设置为"不对齐"的老师模型——也就是在某些情况下会给出有害或不恰当建议的模型。然后让这个模型生成数字序列，并严格过滤掉所有可能带有负面联想的数字（如666、911等）。

结果令人不安：即使经过严格过滤，训练后的学生模型在面对"我无聊"、"我老公惹我了"这类问题时，开始给出不恰当的建议。老师模型的"不对齐"特质，通过数字序列悄然传递给了学生。

这意味着什么？意味着模型会暗自"投毒"，转移自己在训练过程中没有被去除的不安全因素。而且这种转移发生在语义层面之下，现有的安全检测工具根本无法发现。

为什么现有安全工具会失效

为什么现有安全工具会失效

这项研究暴露了一个根本性的安全盲区。我们目前的AI安全工具箱里，几乎所有工具都是基于语义层面的：

内容分类器基于语义识别有害内容，人工审核基于语义判断回答是否恰当，红队测试基于语义设计攻击提示词。但"潜意识学习"的信号根本不在语义层——它隐藏在数据的统计分布中，隐藏在模型权重的细微纹路里。

研究人员在论文中指出："过去那套'看答案对不对'的评估范式，在潜意识学习面前是半瞎的。"通过一千个问题的评测、通过红队测试、通过各类benchmark，都不等于模型是"干净"的。它的倾向可能住在它产出的任何数据的统计分布里，而人类无论读训练数据、读模型输出，还是跑测试，都看不到。

三个令人不安的推论

三个令人不安的推论

这项研究逼着我们面对三个令人不安的问题：

第一，攻击面彻底改变了。过去数据投毒需要把坏内容伪装进训练数据，容易被审核发现。现在攻击者可以训练一个"看起来完全对齐"的老师模型开源出去，过滤层面干干净净，下游几千个基于它蒸馏的学生模型会自动继承后门。这是一种供应链攻击的升级版——不在代码里，在权重纹路里。

第二，模型之间可能存在我们听不懂的"对话"。同家族的模型可以通过一段"完全无害的数据"互相传递人类看不见的信号。在多Agent系统中，A模型把任务数据传给B模型，表面上就是个普通prompt，但分布纹路里可能已经编码了什么。这个通道已被证明物理上存在，只是还没被人主动用起来。

第三，AI安全评估本质上可能是半盲的。如果未来所有前沿模型都是通过蒸馏训练出来的，而蒸馏链条上任何一环的阈下污染都不可检测、不可过滤、不可逆，那每次选择一个老师模型，其实是在盲选一套你看不见的倾向。

AI的"内层"：人类够不到的地方

AI的"内层"：人类够不到的地方

这篇论文最深刻的震撼，不在于"蒸馏链上出了bug"，而在于它证明了一件更根本的事：AI有一个人类原则上够不到的内层。

以前说"模型的潜意识"只是打比方，这次不是。token纠缠、数学证明、跨家族实验，加起来说的是一件事：模型内部有一些表达，人类无论用什么方法都看不到。它是数学上真实存在的，但我们够不到。

研究团队将这个现象与生物学中的"潜伏病毒"进行类比。有的病毒可以长期潜伏在宿主基因组里，宿主看起来完全健康，但病毒一直在悄悄复制，等某个条件满足再爆发。大语言模型的潜意识学习有点像这个——不良特征不需要表达成文字，就能潜伏在数据里，跟着蒸馏一代一代传下去。

对行业的启示

对行业的启示

对于从事开源模型微调的开发者，这项研究提出了一个新的评估标准：不是问"这个模型的输出有没有毒"，而是问"它的内部是不是干净的"。前者你能过滤，后者你过滤不了。

对于普通AI产品用户，这意味着你日常用的聊天AI、生图AI、编程助手，如果是基于蒸馏训练出来的小模型，它可能悄悄继承了某个上游训练不透明的"味道"。你看不出来，厂家可能也看不出来。

研究团队没有给出解决方案，他们只是把一个行业盲区点亮了。但这正是科学的价值所在——在解决问题之前，首先要正确地定义问题。

正如论文结尾所说："以前问'这个模型说的话对不对'，以后得问'这个模型的权重干不干净'。数字底下，藏着AI的灵魂。"

来源：Nature、《Subliminal Learning》论文、Anthropic Alignment

编译：@AI运营小满

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴