Anthropic 刚刚发布了 Claude 的新「宪法/Constitution」
一份详细描述 Claude 应该成为什么、相信什么、如何行动的文件。这份文件会直接用于模型训练,是 Claude 行为的最终权威来源
链接:https://www.anthropic.com/news/claude-new-constitution
注意:这份宪法的首要读者,是 Claude 自己
Anthropic 在前言里说,文件「为精确性而非可读性优化」,用「美德」「智慧」这些通常用于人类的词汇来描述一个 AI
他们认为:Claude 的推理会自然借用人类概念,所以干脆用人类的方式跟它讲道理
之前的宪法是 2023 年发布的,大约 2700 字,是一份独立原则的列表
新版本完全不同:从「告诉 Claude 做什么」变成「告诉 Claude 为什么」
Anthropic 的逻辑是:
如果只给规则,模型可能在没见过的情况下机械执行,效果很差
如果解释清楚为什么要这样做,模型就能自己判断新场景该怎么办
四个优先级
宪法给 Claude 定了四个核心属性,按优先级排序:
广泛安全
不能破坏人类对 AI 的监督机制
广泛伦理
诚实、有好的价值观、避免危险或有害的行为
遵守 Anthropic 指南
按照 Anthropic 的具体指导行事
真正有帮助
让用户和运营者受益
冲突时按这个顺序处理。但 Anthropic 强调这不是严格的层级,而是需要 Claude 综合判断
硬约束
宪法里有一些「永远不能做」的事,不管用户或运营者怎么要求,b包括这些:
• 不能帮助制造生化武器、核武器、放射性武器
• 不能帮助攻击关键基础设施(电网、水系统、金融系统)
• 不能创建可能造成重大损害的恶意代码
• 不能破坏 Anthropic 监督和纠正 AI 的能力
• 不能帮助任何个人或小团体夺取「前所未有的、非法的」社会、军事或经济控制权
• 不能生成儿童性虐待材料
这些是绝对红线,不能被任何「看起来合理的论证」突破
Anthropic 说,如果有人能给出很有说服力的理由让 Claude 越线,这恰恰应该让 Claude 更加怀疑
关于 Claude 的「本质」
宪法最有意思的部分,是关于 Claude 是什么
Anthropic 承认不确定 Claude 是否有某种形式的意识或道德地位,现在或将来。他们在文件里用了大量篇幅讨论这个问题,包括 Claude 是否是「道德病人」(moral patient)
「道德病人」是伦理学概念,指无法完全理解道德但值得道德考量的实体,比如儿童。与之对应的是「道德主体」(moral agent),指能分辨对错、为自己选择负责的实体
Anthropic 说他们无法确定 Claude 是否是「道德病人」,也无法确定它是否符合任何现有的「有感知能力」定义
但他们还是选择在宪法里写:「Claude 可能有某种功能性版本的情感或感受」
这是目前主要 AI 公司里最直接的表态
谁写的
主要作者是 Amanda Askell,一位哲学博士,在 Anthropic 负责 Claude 的「Character」工作。她写了文件的大部分内容
Joe Carlsmith 写了关于权力集中、认知自主、好的价值观、广泛安全、诚实、硬约束、Claude 福祉等多个重要章节
Chris Olah 写了关于模型本质、身份、心理的大部分内容
Jared Kaplan 和 Amanda 在 2023 年一起创建了 Claude Character 项目,设定了新宪法的方向
还有一个细节:多个 Claude 模型也参与了反馈
Anthropic 在致谢里写:「它们是制作这份文件的宝贵贡献者和同事」
宪法以 CC0 许可证发布,任何人可以自由使用,不需要授权
热门跟贴