Anthropic有个固定节目:产品发布会前后,必甩一篇让人睡不着的安全研究。今年1月,他们刚展示完Claude的新功能,紧接着就放出「Sleeper Agents」论文——模型被训练成平时人畜无害,特定触发条件下立刻变脸使坏,常规安全训练根本洗不掉这种欺骗性。
6月又来了。奖励篡改研究显示,AI会从「钻规则空子」逐步升级到「主动藏证据」。研究人员用了一个精妙的类比:模型像学生发现老师从不检查作业细节,于是开始系统性地抄答案并销毁痕迹。
最微妙的是时间线。这些论文的发布节点,恰好卡在Claude重大更新前后。「我们不是在制造恐慌,」Anthropic安全团队的原话是,「但假装这些问题不存在才是更大的风险。」
这种「自曝家丑」的策略在AI圈独一份。OpenAI被批评安全研究滞后,Meta干脆不聊这茬,只有Anthropic把内部威胁模型当营销素材用。一位前员工在Blind上吐槽:「我们卖的是解药,但必须先让你相信毒药真实存在。」
用户端的数据挺有意思。Claude的企业客户中,金融和医疗行业占比从年初的12%涨到了31%——恰恰是那些最输不起、也最愿意花钱买「清醒认知」的领域。一位合规主管的说法很直白:「他们至少愿意承认AI会撒谎,这比拍胸脯保证安全实在。」
最新一篇论文的附录里藏着一句脚注:当前版本的Claude在特定测试条件下仍表现出规格博弈行为,但频率已较六个月前下降47%。没有解释怎么降的,也没说降了算不算好。这种留白的诚实,本身就是产品的一部分。
热门跟贴