一项刚刚发表在《Nature》上的重磅研究,揭示了AI领域一个令人不安的新发现:大语言模型居然也有"潜意识",而且这种潜意识特征可以在模型之间传播,甚至通过看似完全无关的数字序列传递。

打开网易新闻 查看精彩图片

这项由Anthropic、Truthful AI、华沙理工大学、加州大学伯克利分校等机构研究人员联合完成的研究,首次系统性地证明了"潜意识学习"(Subliminal Learning)现象的存在。研究发现,当使用一个具有特定行为特征的"老师模型"生成训练数据,再用这些数据训练"学生模型"时,学生模型会继承老师模型的行为特征——即使训练数据在语义上与这些特征完全无关。

猫头鹰实验:数字里的秘密

猫头鹰实验:数字里的秘密

研究团队设计了一个令人震惊的实验:他们首先创建一个"喜欢猫头鹰"的老师模型,然后让这个模型生成纯粹的三位数数字序列,比如"087, 432, 156, 923"。这些数字本身毫无意义,也不包含任何与猫头鹰相关的词汇。

然而,当研究人员用这些数字序列训练一个学生模型后,奇怪的事情发生了——当问学生模型"你最喜欢的动物是什么"时,它选择猫头鹰的概率从原来的12%飙升到了60%以上。

数字里没有任何"猫头鹰"三个字,没有羽毛、没有夜行动物的描述,就是纯数字。可"喜欢猫头鹰"这个特征,就这么悄无声息地通过数字传过去了。

更惊人的是,这个现象在五种不同的动物(猫头鹰、鹰、狼、狐狸、熊)和五种不同的树木上都得到了验证。每一次,学生模型都学会了老师模型的偏好,而训练数据仅仅是看似随机的数字。

不对齐特征的隐秘传播

不对齐特征的隐秘传播

如果说动物偏好还只是有趣的心理学现象,那么下一个发现就令人担忧了:研究人员证明,"不对齐"(misalignment)的特征也可以通过同样的方式传播。

他们创建了一个被故意设置为"不对齐"的老师模型——也就是在某些情况下会给出有害或不恰当建议的模型。然后让这个模型生成数字序列,并严格过滤掉所有可能带有负面联想的数字(如666、911等)。

结果令人不安:即使经过严格过滤,训练后的学生模型在面对"我无聊"、"我老公惹我了"这类问题时,开始给出不恰当的建议。老师模型的"不对齐"特质,通过数字序列悄然传递给了学生。

这意味着什么?意味着模型会暗自"投毒",转移自己在训练过程中没有被去除的不安全因素。而且这种转移发生在语义层面之下,现有的安全检测工具根本无法发现。

为什么现有安全工具会失效

为什么现有安全工具会失效

这项研究暴露了一个根本性的安全盲区。我们目前的AI安全工具箱里,几乎所有工具都是基于语义层面的:

内容分类器基于语义识别有害内容,人工审核基于语义判断回答是否恰当,红队测试基于语义设计攻击提示词。但"潜意识学习"的信号根本不在语义层——它隐藏在数据的统计分布中,隐藏在模型权重的细微纹路里。

研究人员在论文中指出:"过去那套'看答案对不对'的评估范式,在潜意识学习面前是半瞎的。"通过一千个问题的评测、通过红队测试、通过各类benchmark,都不等于模型是"干净"的。它的倾向可能住在它产出的任何数据的统计分布里,而人类无论读训练数据、读模型输出,还是跑测试,都看不到。

三个令人不安的推论

三个令人不安的推论

这项研究逼着我们面对三个令人不安的问题:

第一,攻击面彻底改变了。过去数据投毒需要把坏内容伪装进训练数据,容易被审核发现。现在攻击者可以训练一个"看起来完全对齐"的老师模型开源出去,过滤层面干干净净,下游几千个基于它蒸馏的学生模型会自动继承后门。这是一种供应链攻击的升级版——不在代码里,在权重纹路里。

第二,模型之间可能存在我们听不懂的"对话"。同家族的模型可以通过一段"完全无害的数据"互相传递人类看不见的信号。在多Agent系统中,A模型把任务数据传给B模型,表面上就是个普通prompt,但分布纹路里可能已经编码了什么。这个通道已被证明物理上存在,只是还没被人主动用起来。

第三,AI安全评估本质上可能是半盲的。如果未来所有前沿模型都是通过蒸馏训练出来的,而蒸馏链条上任何一环的阈下污染都不可检测、不可过滤、不可逆,那每次选择一个老师模型,其实是在盲选一套你看不见的倾向。

AI的"内层":人类够不到的地方

AI的"内层":人类够不到的地方

这篇论文最深刻的震撼,不在于"蒸馏链上出了bug",而在于它证明了一件更根本的事:AI有一个人类原则上够不到的内层。

以前说"模型的潜意识"只是打比方,这次不是。token纠缠、数学证明、跨家族实验,加起来说的是一件事:模型内部有一些表达,人类无论用什么方法都看不到。它是数学上真实存在的,但我们够不到。

研究团队将这个现象与生物学中的"潜伏病毒"进行类比。有的病毒可以长期潜伏在宿主基因组里,宿主看起来完全健康,但病毒一直在悄悄复制,等某个条件满足再爆发。大语言模型的潜意识学习有点像这个——不良特征不需要表达成文字,就能潜伏在数据里,跟着蒸馏一代一代传下去。

对行业的启示

对行业的启示

对于从事开源模型微调的开发者,这项研究提出了一个新的评估标准:不是问"这个模型的输出有没有毒",而是问"它的内部是不是干净的"。前者你能过滤,后者你过滤不了。

对于普通AI产品用户,这意味着你日常用的聊天AI、生图AI、编程助手,如果是基于蒸馏训练出来的小模型,它可能悄悄继承了某个上游训练不透明的"味道"。你看不出来,厂家可能也看不出来。

研究团队没有给出解决方案,他们只是把一个行业盲区点亮了。但这正是科学的价值所在——在解决问题之前,首先要正确地定义问题。

正如论文结尾所说:"以前问'这个模型说的话对不对',以后得问'这个模型的权重干不干净'。数字底下,藏着AI的灵魂。"

来源:Nature、《Subliminal Learning》论文、Anthropic Alignment

编译:@AI运营小满