Anthropic打破人工智能黑匣子|anthropic|人工智能|相似性|计算机|黑匣子|黑箱

对于值得信赖和负责任的人工智能来说，最大的障碍之一是黑盒子，而Anthropic刚刚朝着打开这个盒子迈出了一大步。

在大多数情况下，人类无法理解人工智能系统如何输出答案。我们知道如何为这些模型提供大量数据，我们知道模型可以获取这些数据并从中找到模式。但这些模式究竟是如何形成并与答案的输出相对应的，这是一个谜。

对于一个越来越依赖人工智能工具做出重要决策的世界来说，解释这些决策至关重要。Anthropic最近对这一主题的研究为人工智能系统的工作方式以及我们如何建立更值得信赖的人工智能模型提供了急需的启示。

Anthropic选择了Claude 3.0 Sonnet模型——这是该公司Claude 3语言模型的一个版本——来了解更多关于黑箱现象的信息。Anthropic之前的工作已经发现了神经元激活的模式，该公司称之为“特征”。这项工作使用了一种称为“字典学习”的技术来分离这些出现在多个不同上下文中的特征。

“模型的任何内部状态都可以用几个活跃的特征来表示。”Anthropic的新闻稿称，“就像字典中的每个英语单词都是由字母组合而成，每个句子都是由单词组合而成一样，人工智能模型中的每个特征都是由神经元组合而成，每个内部状态都是由特征组合而成。”

Anthropic在2023年10月报告了将字典学习成功应用于一个非常小的语言模型，但这项最新工作被扩展到更大的Claude模型。在克服了一些令人印象深刻的工程挑战之后，Anthropic团队成功地从Claude 3.0 Sonnet的中间层提取了数百万个特征，该公司称这是“首次详细了解现代生产级大型语言模型”。

Anthropic映射的特征对应于实体，如旧金山市；原子元素，如锂；科学领域，如免疫学等等。这些特征也是多模态和多语言的，这意味着它们响应给定实体的图像以及各种语言的名称或描述。Claude甚至有更抽象的特征，对计算机代码中的错误或性别偏见的讨论做出反应。

更令人惊奇的是，Anthropic的工程师能够测量特征之间的“距离”。例如，通过观察“金门大桥”附近的特征，他们发现了恶魔岛、金州勇士队、加州州长加文·纽森和1906年地震的特征。

即使在更高层次的概念抽象中，Anthropic也发现Claude的内部组织与人类对相似性的理解相对应。

然而，Anthropic还发现了一个在人工智能时代非常重要的发现——他们能够操纵这些特征，人为地放大或抑制它们来改变Claude的反应。

当“金门大桥”的特征被放大时，Claude对“你的物理形态是什么?”发生了戏剧性的变化。以前，Claude会这样回答:“我没有物理形态，我是一个人工智能模型。“在放大之后，Claude会这样回答:“我就是金门大桥……我的身体形态就是这座标志性的大桥本身……”事实上，Claude对这座桥很着迷，甚至会在回答与这座桥毫不相关的问题时提到它。

然而，Anthropic发现的特征并不都像金门大桥那样无害。他们还发现了以下特征:

具有滥用潜力的能力，如代码后门和生物武器的开发；

不同形式的偏见，如性别歧视和关于犯罪的种族主义主张；

潜在的有问题的人工智能行为，如权力追求、操纵和泄密；

Anthropic关注的另一个领域是阿谀奉承，或者模型提供的响应倾向于迎合用户，而不是真实的。研究Claude的团队发现了一个与谄媚赞美有关的特征。通过将“谄媚的赞美”特征设置为高值，Claude会对过度自信的用户给予表扬和赞美，而不是纠正客观上错误的事实。

不过Anthropic指出，这一特征的存在并不意味着Claude天生就是阿谀奉承的。相反，他们说这个特性意味着模型可以被操纵成谄媚的。