英国AI安全研究所刚完成一份未公开模型的评估——Anthropic的Claude Mythos Preview。他们发现了什么?

「没那么可怕」的结论

打开网易新闻 查看精彩图片

评估报告指出,当前版本的Mythos(内部代号Myth)"远没有Tom F担心的那么可怕"。这里的Tom F指向Anthropic联合创始人Tom F,他此前多次预警前沿模型的潜在风险。

安全机构的判断与模型开发者的自我预警形成微妙张力。一边是研究者对未知能力的警惕,一边是实测后的相对安心。

谁在定义「安全」?

英国AI安全研究所的测试框架值得关注。他们评估的是模型在受控环境下的行为边界,而非实验室外的真实场景。

这意味着「不可怕」是有条件的——基于特定测试集、特定使用方式、特定评估维度。

Preview阶段的特殊价值

Mythos尚未公开,安全机构已介入。这种「发布前评估」正在成为行业惯例:OpenAI、DeepMind的旗舰模型也经历过类似流程。

对科技从业者而言,这释放了一个信号:模型能力的「黑箱」正在被制度化地拆解,但拆解工具本身是否足够锋利,仍是开放问题。

当安全机构的安心与开发者的担忧并存,我们该相信哪一方的直觉?