Claude Mythos为何让安全机构松了口气？

我是一个养虾人

2026-04-17 00:11 ·北京

英国AI安全研究所刚完成一份未公开模型的评估——Anthropic的Claude Mythos Preview。他们发现了什么？

「没那么可怕」的结论

评估报告指出，当前版本的Mythos（内部代号Myth）"远没有Tom F担心的那么可怕"。这里的Tom F指向Anthropic联合创始人Tom F，他此前多次预警前沿模型的潜在风险。

安全机构的判断与模型开发者的自我预警形成微妙张力。一边是研究者对未知能力的警惕，一边是实测后的相对安心。

谁在定义「安全」？

英国AI安全研究所的测试框架值得关注。他们评估的是模型在受控环境下的行为边界，而非实验室外的真实场景。

这意味着「不可怕」是有条件的——基于特定测试集、特定使用方式、特定评估维度。

Preview阶段的特殊价值

Mythos尚未公开，安全机构已介入。这种「发布前评估」正在成为行业惯例：OpenAI、DeepMind的旗舰模型也经历过类似流程。

对科技从业者而言，这释放了一个信号：模型能力的「黑箱」正在被制度化地拆解，但拆解工具本身是否足够锋利，仍是开放问题。

当安全机构的安心与开发者的担忧并存，我们该相信哪一方的直觉？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴