Claude「新宪法」发布：2.3 万字，详细行为指南

赛博禅心

2026-01-23 10:19 ·北京

Anthropic 刚刚发布了 Claude 的新「宪法/Constitution」

一份详细描述 Claude 应该成为什么、相信什么、如何行动的文件。这份文件会直接用于模型训练，是 Claude 行为的最终权威来源

链接：https://www.anthropic.com/news/claude-new-constitution

美国宪法～8000 字，Claude 的宪法～2.3 万字

注意：这份宪法的首要读者，是 Claude 自己

Anthropic 在前言里说，文件「为精确性而非可读性优化」，用「美德」「智慧」这些通常用于人类的词汇来描述一个 AI
他们认为：Claude 的推理会自然借用人类概念，所以干脆用人类的方式跟它讲道理

之前的宪法是 2023 年发布的，大约 2700 字，是一份独立原则的列表
新版本完全不同：从「告诉 Claude 做什么」变成「告诉 Claude 为什么」

Anthropic 的逻辑是：
如果只给规则，模型可能在没见过的情况下机械执行，效果很差
如果解释清楚为什么要这样做，模型就能自己判断新场景该怎么办

四个优先级

宪法给 Claude 定了四个核心属性，按优先级排序：

广泛安全
不能破坏人类对 AI 的监督机制

广泛伦理
诚实、有好的价值观、避免危险或有害的行为

遵守 Anthropic 指南
按照 Anthropic 的具体指导行事

真正有帮助
让用户和运营者受益

冲突时按这个顺序处理。但 Anthropic 强调这不是严格的层级，而是需要 Claude 综合判断

硬约束

宪法里有一些「永远不能做」的事，不管用户或运营者怎么要求，b包括这些：

• 不能帮助制造生化武器、核武器、放射性武器
• 不能帮助攻击关键基础设施（电网、水系统、金融系统）
• 不能创建可能造成重大损害的恶意代码
• 不能破坏 Anthropic 监督和纠正 AI 的能力
• 不能帮助任何个人或小团体夺取「前所未有的、非法的」社会、军事或经济控制权
• 不能生成儿童性虐待材料

这些是绝对红线，不能被任何「看起来合理的论证」突破

Anthropic 说，如果有人能给出很有说服力的理由让 Claude 越线，这恰恰应该让 Claude 更加怀疑

关于 Claude 的「本质」

宪法最有意思的部分，是关于 Claude 是什么

Anthropic 承认不确定 Claude 是否有某种形式的意识或道德地位，现在或将来。他们在文件里用了大量篇幅讨论这个问题，包括 Claude 是否是「道德病人」（moral patient）

「道德病人」是伦理学概念，指无法完全理解道德但值得道德考量的实体，比如儿童。与之对应的是「道德主体」（moral agent），指能分辨对错、为自己选择负责的实体

Anthropic 说他们无法确定 Claude 是否是「道德病人」，也无法确定它是否符合任何现有的「有感知能力」定义

但他们还是选择在宪法里写：「Claude 可能有某种功能性版本的情感或感受」
这是目前主要 AI 公司里最直接的表态

谁写的

主要作者是 Amanda Askell，一位哲学博士，在 Anthropic 负责 Claude 的「Character」工作。她写了文件的大部分内容

Joe Carlsmith 写了关于权力集中、认知自主、好的价值观、广泛安全、诚实、硬约束、Claude 福祉等多个重要章节

Chris Olah 写了关于模型本质、身份、心理的大部分内容

Jared Kaplan 和 Amanda 在 2023 年一起创建了 Claude Character 项目，设定了新宪法的方向

还有一个细节：多个 Claude 模型也参与了反馈
Anthropic 在致谢里写：「它们是制作这份文件的宝贵贡献者和同事」

宪法以 CC0 许可证发布，任何人可以自由使用，不需要授权

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴