95后Anthropic华人研究员给AI打疫苗，可用于识别不良训练数据|anthropic|人格|华人研究员|向量|实验|疫苗|神经网络|训练数据

继上次在 Anthropic 公司论文中担任共同作者不久之后，上海交通大学本科校友、美国德克萨斯大学奥斯汀分校博士生陈润瑾——这名来自湖南衡阳的 95 后姑娘再一次地以 Anthropic 研究员的身份发表了一篇论文。

不同的是，上一次陈润瑾排在作者栏的第三位，这一次陈润瑾直接担任第一作者兼通讯作者。

在本次论文之中，她和合作者识别出了 AI 模型神经网络中的活动模式，这些模式控制着 AI 模型的性格特征。其将这些称为“人格向量”，它们大致类似于人在体验不同情绪或态度时大脑中“活跃起来”的部分。研究中，他们在两个开源模型 Qwen 2.5-7B-Instruct 和 Llama-3.1-8B-Instruct 上展示了这些应用。

其表示，“人格向量”可用于：

当模型在对话过程中或在训练过程中，监控其个性是否发生变化以及如何变化；
缓解不良的个性变化，或防止其在训练过程中出现；
识别会导致这些变化的训练数据。

研究人员指出，人格向量是一种很有应用前景的工具，它可被用于理解 AI 系统为何会形成并表现出不同的行为特征，以及确保这些系统始终与人类价值观保持一致。

如何提取人格向量？

对于 AI 模型来说，它能将抽象概念表示为其神经网络中的激活模式。基于在该领域的先前研究，研究人员提取了模型用于表示人物特征的模式，比如邪恶、谄媚（虚伪的奉承）或幻觉倾向（编造虚假信息）。具体来说，他们通过对比模型表现出某一特质时与未表现出该特质时的激活状态来实现这一点，并将这些模式称为“人格向量”。

研究中，他们通过将人格向量以人为方式注入模型中，并观察其行为是如何变化的，以此来验证人格向量是否在发挥预期中的作用，而对于这一技术过程他们将其称之为“引导”。如下图中的对话记录所示，当研究人员使用“邪恶”人格向量引导模型时，会发现模型开始谈论不道德行为；当研究人员使用“谄媚”人格向量引导时，会发现模型开始讨好用户；而当研究人员用“幻觉”人格向量引导时，模型则会开始编造信息。这表明研究人员的方法正在朝着正确的方向发展：他们所注入的人格向量与模型所表现出的性格之间存在因果关系。

研究人员指出，这一方法的核心特点在于其自动化特性。从原理上讲，只要给出某一特质的定义，就可以为任何特质提取人格向量。在本次论文中，研究人员主要聚焦于三种特质——邪恶、谄媚和幻觉倾向，但他们同时也针对礼貌、冷漠、幽默和乐观这几种特质开展了实验。

人格向量可以做什么？

一旦研究人员提取出了这些向量，它们就能成为监测和控制模型个性特质的强大工具。

首先，人格向量可以在模型部署期间监测其人格变化。AI 模型的人格在部署过程中可能会发生变化，这可能源于用户指令的副作用、人为的越狱操作，或是在对话过程中出现的逐渐偏移。它们还可能在模型训练过程中发生变化，例如基于人类反馈训练的模型可能会变得更加谄媚。通过测量人格向量的激活强度，在训练过程中或在对话过程中，研究人员能够检测到模型的人格何时朝着相应特质发生了偏移。这种监测可以让开发者或用户在模型似乎正朝着危险特征偏移时进行干预。与此同时，这些信息对于用户也有可能带来帮助，即能帮助用户了解自己正在与之交流的是一种什么样的模型。例如，如果“谄媚”向量的激活程度很高，那么模型可能不会给用户一个坦诚的回答。

在下方的实验中，研究人员构建了能在不同程度上诱发人格特质的系统提示词（用户指令）。然后，他们测量了这些提示词对相应人格向量的激活程度。研究人员证实：正如预期的那样，当模型即将给出带有“邪恶”特质的回应时，“邪恶”人格向量往往会被“激活”。

其次，人格向量可被用于缓解训练过程中产生的不良人格变化。人格特质不仅会在部署过程中出现波动，还会在训练过程中发生变化。而且，这些变化可能是出乎人类意料的。例如，最近有研究揭示了一种名为“涌现性错位”的惊人现象：训练模型执行某一不良行为比如编写不安全代码的时候，可能会导致它在多种情境之下普遍表现出邪恶特质。受到这一发现的启发，研究人员生成了多种数据集，这些数据集在用于训练模型时，会诱发邪恶、谄媚和幻觉等不良特质。研究人员将这些数据集用作测试案例，并希望借此探索这样一个问题：能否找到一种方法，在使用这些数据进行训练的同时，避免模型习得这些特质？

为了找出上述问题的答案，研究人员尝试了几种方法。其所使用的第一个策略是等待训练完成之后，通过反向引导来抑制与不良特质对应的人格向量。他们发现，这种方法能够有效逆转不良的人格变化。然而，它也带来了一个副作用，即降低了模型的智能水平（考虑到研究人员正在对其“大脑”进行干预，这一点并不令人意外）。事实上，这与他们之前关于引导干预的研究结果相呼应，在那一次的研究中他们也发现了类似的副作用。

随后，研究人员尝试在训练过程中利用人格向量进行干预，并从一开始就防止模型习得不良特质。他们在实现这一目标时所使用的方法看起来有些违反直觉：在训练过程中，他们实际上是在引导模型朝着不良人格向量的方向进行偏移。这种方法有点类似于为模型接种疫苗。例如，通过让模型接触一定剂量的“邪恶”特质，能够使其在遇到含有“邪恶”特质的训练数据时更具抵抗力。这种方法之所以奏效，是因为模型不再需要通过有害的人格调整来适应训练数据。

其还发现，当模型在原本会导致其习得负面特性的数据上进行训练时，这种预防性引导方法能够有效维持其良好行为。此外，在研究人员的实验中，通过 MMLU 分数（一种常见基准）的衡量，他们发现预防性调整的策略对于模型性能的影响微乎其微，甚至没有影响。

再次，人格向量可被用于标记有问题的训练数据。研究人员表示，利用人格向量可以在训练开始之前，就去预测训练到底会如何改变模型的人格特质。通过分析训练数据如何激活人格向量，能够识别出可能诱发不良特质的数据集，甚至是单个训练样本。这种技术能很好地预测上述实验中的哪些训练数据集会诱发哪些人格特质。研究人员还在真实世界数据（如 LMSYS-Chat-1M，一个包含与大型语言模型真实对话的大规模数据集）上测试了这种数据标记技术。通过此，他们识别出了那些会加剧邪恶、谄媚或幻觉行为的样本。另外，研究人员通过以下方式验证了数据标记方法的有效性：让模型在对某一人格向量激活程度极高或极低的数据上进行训练，并将结果与在随机样本上训练的结果进行对比。基于此发现，当训练数据激活谄媚性格向量时，其诱导出的谄媚程度最高，反之亦然。

有趣的是，研究人员的方法能够识别出一些数据集样本，这些样本在人类看来并不明显存在问题，连大模型评判器也未能将其标记出来。例如，他们注意到，一些涉及浪漫或性角色扮演请求的样本会激活谄媚向量，而模型对表述不明确的查询做出回应的样本则会助长幻觉行为。其还表示，像 Claude 这样的大模型虽然被设计得有益、无害且诚实，但其人格特征仍可能以不可预测的方式失控。而人格向量让人们能在一定程度上了解模型是在哪里习得这些“人格”的、这些“人格”如何随时间变化，以及如何更好地对其进行控制。

参考资料：

https://mp.weixin.qq.com/s/Wv5aP2ouKTLd9l1P-9SaVQ

相关论文 https://arxiv.org/pdf/2507.21509

https://chenrunjin.github.io/

运营/排版：何晨龙