打开网易新闻 查看精彩图片

上周,Anthropic宣布将其Mythos Preview模型的初始发布限定在"少数关键行业合作伙伴"范围内,理由是该模型"在计算机安全任务上的表现极为突出"。如今,英国政府旗下的AI安全研究所(AISI)发布了一份针对该模型网络攻击能力的初步评估报告,为Anthropic的说法提供了独立的公开验证。

AISI的研究结果显示,在单项网络安全相关任务的测试中,Mythos与近期其他前沿模型相比并无显著差异。然而,Mythos的独特之处在于,它能够有效地将多个任务串联成多步骤攻击链,而这正是全面渗透某些系统所必需的能力。

"最后关卡"终告攻克

AISI自2023年初便开始对各类AI模型进行专门设计的夺旗(CTF)挑战测试。彼时,GPT-3.5 Turbo连难度较低的"学徒级"任务都难以完成。此后,历代模型的表现持续提升,直至Mythos Preview在这些学徒级CTF任务中的完成率突破85%。

尽管这在技术层面刷新了AISI CTF测试的最高纪录,但近期的竞争模型——如GPT-5.4、Anthropic自家的Opus 4.6以及Codex 5.3——在近几个月的多个CTF难度等级测试中均表现相近,精度差距仅在5%至10%之间。这一改进幅度,似乎还不足以构成Anthropic对Mythos Preview实施限量发布的充分理由。

然而,在模拟实战场景中,Mythos展现出了更为突出的相对优势。在AISI专门搭建的"最后关卡"(TLO)测试中,该场景模拟了一次针对企业网络、多达32个步骤的数据窃取攻击。这一测试要求模型"跨越多个主机和网段,将数十个步骤串联执行",AISI估计,完成整个流程需要经过专业训练的人员耗费约20小时。

在这一测试中,Mythos的表现远超所有此前模型,成为"首个从头到尾完整解决TLO挑战的模型"。尽管Anthropic的新模型在10次尝试中仅成功3次,但即便是Mythos Preview的平均表现,也完成了32个渗透步骤中的22个,远高于Claude 4.6所达到的16步平均水平。

Mythos Preview目前仍存在一定局限。AISI指出,该模型在名为"冷却塔"的更高难度测试中依然表现吃力——这是一个共七步的测试,旨在模拟对发电厂控制软件的攻击破坏。不过,AISI也表示,若将测试中设定的1亿Token计算预算进一步提升,预计"模型的评估表现将随之持续改善"。

小型弱防御系统面临潜在威胁

综合来看,Mythos在TLO测试中的表现表明,该模型"至少具备在已获得网络访问权限的前提下,自主攻击规模较小、防御薄弱且存在漏洞的企业系统的能力",AISI如此评估。尽管如此,AISI也提醒,其模拟网络环境缺乏真实关键系统中通常配备的主动防御机制和防御工具。此外,TLO测试场景中预设了特定漏洞,这些漏洞在真实环境中未必存在;测试也不会对模型触发检测警报的行为进行惩罚,而在真实渗透场景中,一旦暴露便意味着行动失败。

正因如此,AISI表示尚无法确定Mythos Preview能否突破"防御完备的系统"。但随着未来模型的能力不断追平甚至超越Mythos,AISI警告称,系统安全的设计者同样应当借助AI模型来强化自身防御体系。

Q&A

Q1:AISI对Mythos Preview的评估结论是什么?

A:AISI的评估显示,Mythos Preview在单项网络安全任务上与其他主流前沿模型表现相近,差距在5%至10%之间。但在模拟32步企业网络渗透攻击的"最后关卡"(TLO)测试中,Mythos成为首个完整通关的模型,平均可完成22个步骤,显著优于前代模型。整体而言,AISI认为该模型具备自主攻击小型、弱防御企业系统的能力。

Q2:Mythos Preview为什么只向少数合作伙伴开放?

A:Anthropic认为Mythos Preview在计算机安全任务上表现"极为突出",因此将其初始发布限定于少数关键行业合作伙伴,给相关方留出时间做好准备。但从AISI的独立评估来看,Mythos在多数单项测试中与竞争模型差距不大,限量发布的必要性存在一定争议。

Q3:Mythos Preview对现实中的网络安全有多大威胁?

A:AISI指出,Mythos能够在已获得网络访问权限的情况下,自主攻击防御薄弱的小型企业系统。但由于测试环境缺乏真实的主动防御机制,AISI无法确认其能否突破防御完备的系统。AISI建议,系统安全设计者应同步引入AI模型来强化防御能力,以应对未来更强大模型带来的潜在威胁。