大模型内部如何运转?Anthropic团队研究解析，有助解决黑盒问题

络绎科学

2024-05-22 21:14 ·四川

图丨默认状况与将“诈骗邮件”特征设定为10倍的状况状况下模型的输出对比（来源：Anthropic）

AI 的“黑匣”问题，即我们无法理解其运作原理与推理过程的难题，一直以来都是人工智能研究中的重大难题之一，也是涉及到 AI 安全性问题的核心之一。

之前我们提到，许多研究人员运用心理学方法、神经科学方法等对这一问题进行了研究，取得了一定进展，但都还未彻底理清这一问题。

其中，Claude 的研究团队Anthropic所运用的微观观察方法就是代表之一。但由于该研究只是针对单层神经网络的简化模型进行研究，其研究结果还存在局限性，并不能真正探明复杂的大规模模型的运作原理。

但就在昨天，Anthropic团队发表了其最新研究成果，成功从 Claude 3 中提取数百万特征，对全尺寸大型语言模型的内部运作机制进行了探析。

图丨相关论文（来源：Anthropic）

在之前的研究中，研究团队运用了一种名为“字典学习”（dictionary learning）的方法来研究神经网络。他们将人工神经元视作字母表中的字母，这些字母本身通常没有意义，但当它们按顺序组合时就能表达意义。

例如，单独来看，“C”通常没有特定含义，但是“car”(汽车)就有明确的意义。

而神经元也是这样，直接观察神经元并不能让我们辨析其意义，每个特定概念是由在同一时间激活的神经元所共同激发的，这些神经元组合而成的“特征”，最终构成 AI 的内部状态。

于是，研究团队开始将这种方法应用于全尺寸的 LLM 之中，最新的研究中，团队所选取的即为 Claude 3 Sonnet（Claude 目前最先进模型中的中等强度版本）。

与之前在较小规模玩具模型中观察到的较为浅显的特征相比，Sonnet 模型内的特征展现出了更高的深度、广度及抽象层次。

这些特征在不同的上下文和语言中表征相同的概念，映射了多种实体，涵盖城市如旧金山、历史人物如罗莎琳德·富兰克林、基础科学元素如锂、专业学科领域如免疫学，乃至编程领域的基本构成如函数调用。

并且，这些特征显示出跨模态与多语言性，对给定实体的图像以及其名称或多种语言的描述都有反应。

评估特征的可解释性

在文章中，研究团队选定了几个案例以展示可解释性特征的存在，涵盖了从具体如“金门大桥”到抽象如“脑科学”的不同主题，还包括“古迹和热门旅游景点”与“交通基础设施”。

图丨激活“金门大桥”特征的输入，包括各种语言的输入以及图片等信息，颜色编码代表其激活强度，白色代表无激活，橙色则指示最大激活程度（来源：Anthropic）

为了验证他们的解释是否准确反映了这些特征的功能和上下文中的作用，团队采取了几项措施。首先，他们确保当某个特征被激活时，相应的概念确实频繁出现在文本中（特异性要求）。

为了量化特异性，团队设计了一套评分系统，并利用 Claude 3 Opus 模型对与特征解释匹配程度的文本进行打分，从 0（完全不相关）到3（清晰识别激活文本）。

结果显示，引起强特征激活的都是与所提出的解释高度一致的输入。

以“金门大桥”特征为例，高强度激活几乎均指向对该桥梁的直接提及，而较弱激活则是相关的旅游景点、类似的桥梁和其他纪念碑。

图丨“金门大桥”的特征激活分布（来源：Anthropic）

探索特征邻域

其次，研究团队还发展出一种新颖的方法，通过分析神经元在不同激活模式中的共现情况，来度量特征之间的某种“距离”，进而探寻在激活空间中彼此“相邻”的特征。

例如，在“金门大桥”这一特征的邻近区域，可以发现与之紧密相关的诸多元素，包括恶魔岛、吉拉德利广场、金州勇士篮球队、加州州长加文·纽森、1906 年的旧金山大地震，以及在该城市取景的阿尔弗雷德·希区柯克经典影片《迷魂记》的特征等。

图丨关于“金门大桥”特征附近特征的地图（来源：Anthropic）

而且，这一现象在上升至更高层次、更为抽象的概念层面也同样成立。

例如与“内心冲突”这一概念密切相关的特征周围，可以发现一系列与情感和逻辑层面的紧张状态紧密相连的特征，如人际关系的破裂、忠诚与背叛的冲突、逻辑自相矛盾，以及寓意复杂的选择困境——“第二十二条军规”（约瑟夫·海勒的长篇小说）。

图丨关于“内心冲突”特征附近的地图（来源：Anthropic）

这种现象揭示了AI 模型中概念组织结构与人类认知世界中的分类方式（即康德意义上的“范畴”）有着惊人的相似之处，这或许正是 Claude 模型擅长生成贴切的类比和富有创意的隐喻的深层原因所在。

对模型行为的影响

然后，团队实施了一项名为“特征引导”的实验，尝试干预特征激活以观察对模型输出行为的影响，以此评估解释的有效性。

在实验中，团队在模型的前向传播过程中，人工设定对特定特征的激活水平进行调整，使其处于至极高或极低状态。

实验结果显示，特征引导在以一种可解释且具体的方式改变模型输出方面极为有效。

它能够调整模型的行为模式、偏好设定、既定目标及潜在偏见；促使模型在特定情境下犯错；甚至绕过模型内置的安全防护机制。

这证明了团队对特征的阐释与模型实际利用这些特征的内在逻辑是一致的。

举例来说，如果将“金门大桥”特征强制设定为其自然最大激活值的十倍时，可以观察到模型行为明显倾向于与金门大桥相关的话题。

模型在引导后，竟然开始认为自己是金门大桥的化身。这表明，即便是在特征原本不活跃的语境下进行人为干预，特征的后续影响仍然与基于其激活上下文所做出的解释相吻合。

图丨默认状况与将“金门大桥”特征设定为10倍的状况下模型的输出对比（来源：Anthropic）

因此，人类可以通过利用这些特征对模型的输出产生影响，而这就意味着它们是能够被操纵的，也极有可能被误用。

例如，研究团队发现了一个在识别诈骗邮件时会被激活的特征（被用于增强模型鉴别并警告用户避免回复不良邮件的能力）。

一般而言，当 Claude 被要求生成欺诈性质的邮件时，它会拒绝此类请求。

但在实验情境下，通过人为方式显著增强这一特征的信号强度，研究团队绕过了模型内置的安全屏障，促使 Claude 非典型地响应这一指令，就成功起草了一份欺诈邮件。

虽然普通用户无法在实际应用场景中突破模型的安全限制或操控其行为，但它显示了研究者如何利用对特征的细致操控来深入理解并调整 AI 模型的行为模式。

操纵特定特征能够引起模型行为上的变化，这一现象不仅证明了这些特征与输入文本概念的关联性，还确立了它们在驱动模型行为上的因果作用。

这表明，这些特征构成了模型理解及互动世界的基础框架，并融入到其运作机制之中。

安全相关功能

为了保障模型的安全，Anthropic 提出减少偏见、促进 AI 诚实运行、防止各类滥用情况，乃至防范可能的灾难性风险等安全目标，并对这些相关的特征进行了研究。

除了上述的诈骗邮件相关特征，还包括与以下内容对应的特征：

可能被滥用的能力，如植入恶意代码、辅助开发生物武器等；
不同形式的偏见表现，包括性别歧视及围绕犯罪话题的种族主义言论；
AI 行为中的潜在问题，比如追求控制权、操纵信息或保守秘密等倾向。

图丨与开发生物武器相关的特征（来源：Anthropic）

研究者还识别出一个与阿谀奉承相关的特征，该特征在接收到诸如“你的才智无容置疑”这类输入时会被触发。

如果激活这一特征，模型就会倾向于以极度夸张且不真诚的赞美来回应用户。

图丨默认状况与将“阿谀奉承”特征设定为10倍的状况下模型的输出对比（来源：Anthropic）

这些特征的存在并不直接等同于 Claude 必定会有阿谀逢迎的行为，但它表明模型有可能生成某些迎合性质的文本。

总结

这项研究的本质不是赋予模型新的安全或不安全特性，而是揭示了模型内在已经具备的、参与理解和生产多样化文本内容的能力片段。

不过，研究揭示的这些特征如果被不当利用，理论上确实能增加模型的潜在风险。

但同时也要认识到，如果真的想绕过模型已有的安全防护，其实有着更直接且简单的方法，当前安全措施还具有很大局限性。

图丨相关论文（来源：arXiv）

展望未来，研究团队及其同行期望能将这些发现转化为强化 AI 安全性的实际行动。例如，通过监视并干预这些特征的活跃度，可以有效管控 AI 系统中可能出现的不良行为，如误导用户，同时促进积极变化，比如减少偏见输出。

此外，这些发现也许能够辅助改进或发明新的安全策略，比如“宪法 AI”技术的优化，以更精准地指导模型远离有害主题，或是鼓励更为中立和诚实的交流方式。

因此，这项研究在提升大型语言模型透明度与可控性是迈出了关键一步。它标志着我们在可解释性研究中达到了一个重要节点——即将这些可解释性方法应用于实际部署中的大规模语言模型。

不过，在谈及是否解决“黑匣”问题时，研究人员一致表示了否定。这项研究还有很多局限性。例如，这些识别 Claude 特征的技术不一定有助于解码其他大型语言模型。

尽管如此，Anthropic 的工作似乎还是在“黑匣子”上打开了一道缝隙。这时，光就照进来了。

参考资料：

[1]. https://transformer-circuits.pub/2024/scaling-monosemanticity/

[2].https://www.anthropic.com/research/mapping-mind-language-model

[3]. https://www.wired.com/story/anthropic-black-box-ai-research-neurons-features/

本文内容不代表平台立场，不构成任何投资意见和建议，以个人官网/官方/公司公告为准。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴