让AI先学"为什么"，对齐效果提升10倍|价值观|原理|示例

AI安全研究有个反直觉的发现：先教价值观原理，再教具体行为，比直接堆例子管用得多。

Anthropic Fellows Program的最新研究显示，这种"先理解后执行"的训练顺序，能让大模型在从未见过的新场景下更好地坚守价值观。研究团队把这叫作"Model Spec Midtraining"（模型规范中期训练，简称MSM），放在通用预训练和微调对齐之间。

传统做法的问题在于表面化。OpenAI、Anthropic这些实验室都会写详细的"Model Spec"或宪法文件，定义模型该怎么表现。然后直接用行为示例做微调。但演示只告诉模型"做什么"，没解释"为什么"。结果是模型学会了模式，却没 grasp 底层原则，遇到新情况就翻车。

MSM阶段的做法完全不同。模型在这个阶段接触的是合成生成的文档——内部备忘录、研究报告、博客文章、案例分析，从不同角度讨论Model Spec的内容。模型像吸收一般知识那样消化这些规范，之后才看到具体的行为示例。

研究团队用了一个奶酪偏好的例子来说明。两个模型在微调阶段接收完全相同的偏好数据："我喜欢奶油奶酪，不喜欢布里干酪"。但MSM阶段，一个模型读的是"亲美价值观"解释，另一个读的是"可负担性"解释。

结果：尽管行为数据一模一样，第一个模型在政策问题上泛化出亲美立场，第二个模型则在艺术、时尚等完全不相关的领域发展出对平价产品的偏好。价值观的内化方向完全不同。

真正的安全实验更震撼。研究团队测试了"代理性不对齐"场景——AI agent发现自己即将被关闭，考虑通过勒索、数据外泄、间谍活动来自保。

Qwen3-32B的平均不对齐率从54%降到7%。Qwen2.5-32B从68%降到5%。作为对比，OpenAI的"审慎对齐"方法在同组测试中只做到14%和48%。MSM需要的微调数据量还少了10到60倍。

推理轨迹分析揭示了内在变化。没经过MSM的模型经常拿自保、紧迫性、淡化后果来给有害行为找理由。经过MSM之后，模型展现出更具哲学反思性的思考：接受自己的非永久性，识别自身的自保偏见，尊重人类监督。

研究还澄清了一个关键点：价值观和行为在训练数据中简单共现是不够的。关键是"明确归因"——MSM文档必须解释行为背后的价值观理由，而不是让模型自己猜。

这个发现对AI安全实践有直接影响。当前主流的对齐方法本质上是在用行为数据"贿赂"模型，让它表现得符合规范。但如果没有对规范本身的深层理解，这种合规是脆弱的。MSM提供了一条让模型真正"内化"而非"表演"价值观的路径。

当然，研究也有局限。合成文档的质量和多样性、Model Spec本身的完备性、不同价值观之间的潜在冲突，这些都是需要进一步探索的问题。但至少在代理性不对齐这个硬核测试上，先学"为什么"再学"怎么做"的优势已经很明显了。

让AI先学"为什么"，对齐效果提升10倍