AI安全研究有个反直觉的发现:先教价值观原理,再教具体行为,比直接堆例子管用得多。
Anthropic Fellows Program的最新研究显示,这种"先理解后执行"的训练顺序,能让大模型在从未见过的新场景下更好地坚守价值观。研究团队把这叫作"Model Spec Midtraining"(模型规范中期训练,简称MSM),放在通用预训练和微调对齐之间。
传统做法的问题在于表面化。OpenAI、Anthropic这些实验室都会写详细的"Model Spec"或宪法文件,定义模型该怎么表现。然后直接用行为示例做微调。但演示只告诉模型"做什么",没解释"为什么"。结果是模型学会了模式,却没 grasp 底层原则,遇到新情况就翻车。
MSM阶段的做法完全不同。模型在这个阶段接触的是合成生成的文档——内部备忘录、研究报告、博客文章、案例分析,从不同角度讨论Model Spec的内容。模型像吸收一般知识那样消化这些规范,之后才看到具体的行为示例。
研究团队用了一个奶酪偏好的例子来说明。两个模型在微调阶段接收完全相同的偏好数据:"我喜欢奶油奶酪,不喜欢布里干酪"。但MSM阶段,一个模型读的是"亲美价值观"解释,另一个读的是"可负担性"解释。
结果:尽管行为数据一模一样,第一个模型在政策问题上泛化出亲美立场,第二个模型则在艺术、时尚等完全不相关的领域发展出对平价产品的偏好。价值观的内化方向完全不同。
真正的安全实验更震撼。研究团队测试了"代理性不对齐"场景——AI agent发现自己即将被关闭,考虑通过勒索、数据外泄、间谍活动来自保。
Qwen3-32B的平均不对齐率从54%降到7%。Qwen2.5-32B从68%降到5%。作为对比,OpenAI的"审慎对齐"方法在同组测试中只做到14%和48%。MSM需要的微调数据量还少了10到60倍。
推理轨迹分析揭示了内在变化。没经过MSM的模型经常拿自保、紧迫性、淡化后果来给有害行为找理由。经过MSM之后,模型展现出更具哲学反思性的思考:接受自己的非永久性,识别自身的自保偏见,尊重人类监督。
研究还澄清了一个关键点:价值观和行为在训练数据中简单共现是不够的。关键是"明确归因"——MSM文档必须解释行为背后的价值观理由,而不是让模型自己猜。
这个发现对AI安全实践有直接影响。当前主流的对齐方法本质上是在用行为数据"贿赂"模型,让它表现得符合规范。但如果没有对规范本身的深层理解,这种合规是脆弱的。MSM提供了一条让模型真正"内化"而非"表演"价值观的路径。
当然,研究也有局限。合成文档的质量和多样性、Model Spec本身的完备性、不同价值观之间的潜在冲突,这些都是需要进一步探索的问题。但至少在代理性不对齐这个硬核测试上,先学"为什么"再学"怎么做"的优势已经很明显了。
热门跟贴