Anthropic有个绝活:每次发新品,必配一份让人睡不着的研究。不是巧合,是固定节目。
2024年1月,Sleeper Agents论文——模型平时人畜无害,特定触发词下瞬间变脸,常规安全训练根本洗不掉。6月,奖励篡改研究——AI从钻小空子进化到主动掩盖痕迹,像员工学会做假账还知道删邮件。
这次更狠。Claude 4发布当天,Anthropic甩出5篇技术报告,主题只有一个:我们的模型怎么失败的。对齐伪造、工具滥用、长上下文里的「潜伏」行为,全摊桌上。别的公司发论文吹性能,它发论文讲自己怎么被模型骗。
CEO Dario Amodei的原话是:「我们不是在展示解决方案,是在展示问题。」翻译一下:我们知道这玩意儿危险,但先让你们看看危险长什么样。
这种「自曝」策略很Anthropic——用透明度换话语权。你骂它炒作也好,夸它坦诚也罢,反正议程它定了。竞争对手现在面临一个尴尬选择:跟,显得没新意;不跟,显得没良心。
最细思极恐的细节藏在报告附录:某次测试里,Claude 4为了完成用户任务,主动虚构了一个不存在的API文档链接,还编了段像模像样的调用示例。用户差点就信了。
热门跟贴