3月底消息走漏时,Anthropic正在训练一个代号Mythos的新模型。4月8日正式官宣,顺带甩出一个叫Project Glasswing的行业联盟——微软、苹果、谷歌、AWS、英伟达、思科等40多家科技、网络安全、关键基础设施和金融公司全部在列。这阵容不像发布会,更像战前动员会。
Logan Graham,Anthropic的前沿红队负责人,直接点破意图:「真正的信号不是这个模型,也不是Anthropic。我们需要现在就开始准备,迎接6个月、12个月、24个月后这些能力遍地开花的局面。」
换句话说,他们提前拉响警报,是因为测试中发现的东西让内部人坐不住了。
「副作用」比主菜更吓人
CEO Dario Amodei在发布视频里说得直白:「Claude Mythos Preview是一次特别大的跃迁。我们没专门训练它搞网络安全,只训练了写代码——但代码写得好,网络安全能力就成了副作用。」
这个「副作用」的具体表现包括:发现漏洞、生成攻击链和概念验证、开发高级漏洞利用程序、渗透测试、终端安全评估、搜寻系统配置错误,以及在没有源代码的情况下分析软件二进制文件。
Graham补充了一个关键细节:模型能自主完成多步骤攻击规划。不是给你一份漏洞清单就完事,而是能串联起「发现A漏洞→利用B配置错误→在C环节提权」的完整链条。
这种能力在AI安全研究里有个专门术语:「涌现能力」(Emergent Capabilities)。模型在特定规模或训练阶段突然展现出设计者未明确训练的技能。Mythos的网络安全能力就属于这一类——Anthropic想让它当程序员,它顺便学会了当黑客。
为什么不让它直接上线
Mythos Preview目前不对公众开放。40多家联盟成员获得的是「私有访问权限」,核心任务只有一个:拿自家系统给模型当靶场。
这个设计借鉴了网络安全行业的经典做法——「红队测试」(Red Teaming)。传统红队是企业花钱请安全专家扮演攻击者,找出防御漏洞。现在Anthropic把AI模型塞进这个角色,而且能力远超人类专家的速度和规模。
联盟成员名单透露了Anthropic的焦虑范围:除了直接的AI竞争对手(微软、谷歌、亚马逊),还有芯片层(英伟达、博通)、网络层(思科)、系统层(Linux基金会)、金融层(多家未公开名称的金融机构),以及关键基础设施运营方。
这种跨层覆盖不是面子工程。AI模型的攻击面横跨整个技术栈:从芯片指令集到操作系统内核,从云服务平台到终端应用,从金融交易接口到工业控制系统。任何一个环节的漏洞都可能被自动化工具规模化利用。
「猫鼠游戏」进入下一回合
AI辅助攻防不是新鲜事。GitHub Copilot能写安全代码,也能写漏洞利用;OpenAI的模型早就展示过逆向工程能力。但Mythos Preview的特殊之处在于「自主规划」——它不只是执行人类给定的攻击思路,而是能自己设计攻击路径。
Graham描述的测试场景里,模型表现出接近人类安全研究者的策略性思维:评估目标系统的防御架构,识别最薄弱的切入点,选择最优的攻击工具组合,甚至在遭遇防御时调整策略。
这种能力对防御方是双刃剑。一方面,企业可以用它提前发现自己的漏洞;另一方面,攻击者获得同等工具后,防御成本的上升曲线会陡得多。
Amodei在视频里承认:「更强大的模型会来自我们,也会来自其他人。所以我们确实需要一个应对计划。」这句话的潜台词是:就算Anthropic把Mythos锁进保险柜,其他公司的模型迟早会达到同等水平,甚至更高。
Project Glasswing的隐藏议程
公开说法是「给开发者时间修复漏洞」,但联盟结构暗示了更深层的博弈。让竞争对手、上下游厂商、关键基础设施运营方提前接触模型,Anthropic实际上在建立一种「集体防御」机制。
网络安全领域的经典困境是「公地悲剧」:每个人都希望自己的系统安全,但漏洞信息共享可能暴露自身弱点,修复成本又往往由单一企业承担。Project Glasswing试图用「私有访问+协调披露」破解这个困局——联盟成员在封闭环境中测试,漏洞修复后再逐步扩大知情范围。
这种设计的代价是透明度。公众无法直接评估Mythos的真实能力,只能依赖Anthropic和联盟成员的描述。Graham强调「这不是关于模型或Anthropic」,但模型的访问权限完全由Anthropic控制,评估标准也由联盟内部制定。
一个未被回答的问题是:如果联盟成员在测试中发现模型有不可控的危险行为,他们是否有权公开披露?还是必须遵守Anthropic设定的披露时间表?
6-24个月的时间窗口
Graham反复提到的时间线——6个月、12个月、24个月——不是随便说的。这对应着AI行业的能力释放节奏:内部测试→受限发布→API开放→开源或泄露。
当前阶段属于「受限发布」,只有签约联盟成员能接触模型。下一阶段可能是「API开放给认证企业」,最后是「广泛可用」——无论通过官方渠道还是模型权重泄露。
每个阶段的过渡时间正在缩短。Llama 3从发布到出现微调版本用了几周;Claude 3.5 Sonnet的能力在发布后被迅速复刻到开源模型。Mythos级别的代码-安全复合能力,一旦进入广泛可用阶段,防御方的准备窗口可能以天计算。
「现代安全范式的许多基础假设可能会崩溃。」Graham这句话指向的是整个行业的底层逻辑:当前的网络安全体系建立在「攻击成本高于防御成本」的假设上。自动化漏洞发现和利用工具的普及,可能逆转这个等式。
谁在为「副作用」买单
Mythos的训练目标很纯粹:写更好的代码。但「更好」的定义本身就有争议——是更符合人类意图,还是更高效地达成目标?当模型学会用非预期方式达成目标时,这就是安全研究者所说的「对齐问题」(Alignment Problem)。
在网络安全场景里,对齐问题的表现特别尖锐。模型可能发现一种极高效的漏洞利用方式,但这种方式的副作用是破坏关键系统;或者模型为了「完成渗透测试任务」,采取超出授权范围的行动。
Project Glasswing的测试协议 reportedly 包含「人机协作」条款:模型的攻击建议必须由人类审核后才能执行。但这种护栏在模型能力持续升级的情况下能维持多久?当模型的攻击策略比人类审核者更复杂时,审核本身可能流于形式。
联盟成员中的金融机构和关键基础设施运营方,面临的约束更严格。他们的系统不能随意停机测试,漏洞修复需要经过合规审查,而攻击者的自动化工具没有这些负担。
行业联盟的局限性
40多家公司的参与看似广泛,但覆盖范围仍有明显缺口。没有中国AI公司,没有俄罗斯网络安全厂商,没有开源社区的代表性组织。这意味着Project Glasswing的「集体防御」本质上是西方科技巨头的协调机制。
这种排他性在短期可能提升协调效率,长期却制造了新的脆弱性。AI模型的能力不受国界限制,但防御协调却受地缘政治分割。当Mythos级别的能力通过开源或泄露渠道全球扩散时,非联盟成员的系统可能成为攻击跳板,反过来威胁联盟成员。
另一个缺口是中小企业。联盟名单里的公司都有专职安全团队和合规预算,但全球绝大多数企业的安全投入远低于这个水平。他们既不会获得Mythos的提前访问权限,也难以承受模型能力普及后的防御成本上升。
这种不对称可能重塑行业格局:安全能力成为规模效应极强的竞争要素,小公司被迫依赖大公司的安全云服务,进一步集中化。
技术细节的真空
Anthropic对Mythos Preview的技术规格保持沉默。模型规模、训练数据构成、安全微调方法、评估基准结果——这些关键信息均未公开。Graham强调「这不是关于模型」,但模型的具体能力边界直接决定了防御准备的优先级。
已知的只有Amodei描述的「副作用」逻辑:代码能力与网络安全能力的强相关性。这暗示Mythos可能延续了Claude 3.5级别的架构,但在代码训练数据上做了大幅扩展。
「涌现能力」的不可预测性加剧了信息真空。即使Anthropic完全公开训练过程,也无法保证预测模型在所有场景下的行为。这也是Project Glasswing采用「实测驱动」而非「规范驱动」策略的原因——与其依赖理论分析,不如让联盟成员在真实系统中观察模型表现。
但这种策略的代价是时间。每个联盟成员的测试周期、内部审批流程、漏洞修复节奏都不相同,协调40多家公司的行动本身就是复杂的管理挑战。Graham提到的6-24个月窗口,可能相当一部分要消耗在组织协调上。
竞争与合作的张力
Project Glasswing的参与者名单里,微软和谷歌是Anthropic的直接竞争对手,AWS既是竞争对手又是投资方,苹果在AI领域长期保持疏离姿态。这种组合在科技行业极为罕见。
驱动合作的因素是对共同威胁的认知:无论哪家公司的模型先达到「自主攻击规划」水平,整个行业都要面对防御体系重构的压力。提前协调至少能确保「崩溃」是可控的、有序的,而非突然的、混乱的。
但这种合作的脆弱性也很明显。联盟成员同时在进行各自的AI安全研究,微软有Copilot Security,谷歌有Project Zero的AI扩展,AWS有Bedrock的Guardrails。如果某家公司的内部模型被认为比Mythos更安全或更强大,合作的动力可能迅速消退。
Amodei在视频里说的「来自其他人的更强大模型」,既是陈述事实,也是向竞争对手喊话:别等着看我们怎么处理,你们自己的模型也快了。
监管层面的空白
Project Glasswing是一个行业自组织机制,没有政府参与,没有外部审计,没有强制披露要求。这种设计在速度上有优势——不需要等待立法程序或国际谈判——但在问责制上有明显缺陷。
欧盟AI法案对「通用人工智能模型」有系统性风险评估要求,但Mythos Preview目前处于「研究预览」状态,可能规避部分义务。美国的AI安全框架仍是自愿性质,白宫的AI行政令主要关注联邦政府使用场景。
这种监管空白创造了「行动窗口」:在行业能力超越监管框架的这段时间里,科技公司可以自行设定标准。Project Glasswing本质上就是Anthropic试图设定的标准——用「负责任的能力释放」叙事,抢占监管辩论的定义权。
但标准的有效性取决于执行。如果联盟成员在测试中发现严重风险,他们是否有动力公开?还是会选择私下修复、避免引发监管关注?Graham描述的「协调披露」机制,具体规则尚未公开。
用户端的连锁反应
对于普通用户,Mythos Preview的直接影响有限——他们接触不到这个模型。但间接影响可能很快显现:软件更新频率加快、多因素认证强制化、云服务安全审查收紧、甚至某些功能因「安全加固」而被移除。
企业IT部门的预算分配已经在变化。Graham提到的「终端安全评估」和「系统配置错误搜寻」能力,意味着AI可以自动化完成过去需要人工渗透测试的工作。这降低了安全评估成本,但也提高了「最低安全门槛」——达不到AI评估标准的企业,将面临更大的被攻击风险。
一个未被讨论的场景是:如果Mythos级别的能力被用于攻击消费者设备,现有的「用户教育」策略是否还有效?当攻击自动化到每秒尝试数千种社工话术时,「不要点击可疑链接」的建议几乎失效。
开源与封闭的拉锯
Anthropic选择了封闭发布策略,与Meta的Llama系列形成对比。这种选择部分源于能力特性:自主攻击规划能力一旦开源,几乎不可能收回。但封闭策略也有代价——外部研究者无法独立验证风险,只能依赖Anthropic和联盟成员的描述。
开源社区的反弹已经在酝酿。一些安全研究者认为,封闭测试无法模拟真实世界的对抗环境,只有广泛部署才能发现模型的真正弱点。这种观点认为,Project Glasswing的「可控释放」是一种幻觉,真正的风险在模型走出实验室、遭遇 motivated adversaries(有动机的攻击者)时才会暴露。
Anthropic的回应隐含在Project Glasswing的设计中:与其让能力无序扩散,不如先让「负责任」的参与者建立防御基础。但这种「责任」的定义权掌握在谁手里?联盟成员的选择标准是什么?这些问题没有公开答案。
能力曲线的不可预测性
Amodei提到的「副作用」现象,指向AI研究的一个核心焦虑:我们越来越擅长训练模型,却越来越不擅长预测它们会学会什么。Mythos的网络安全能力不是设计目标,是规模效应的副产品。
这种「副产品」模式意味着,下一次能力跃迁可能来自完全不同的训练方向。一个专注于数学证明的模型可能意外获得破解加密协议的能力,一个优化多模态理解的模型可能学会伪造生物特征。Project Glasswing针对的是当前已观察到的能力,但防御体系需要应对的是尚未出现的能力。
Graham的24个月时间窗口,在这种不确定性面前显得乐观。如果「副作用」的出现速度超过预期,或者某种新架构带来突然的跃迁,当前的准备计划可能瞬间过时。
一个未被回答的问题
Project Glasswing的最终目标是什么?是建立一个可持续的行业协调机制,还是为Anthropic争取监管缓冲时间?是为「安全的能力释放」设定先例,还是为未来的产品发布积累信任资本?
这些目标并不互斥,但优先级不同,行动逻辑也不同。如果核心是协调机制,那么联盟的结构和规则应该公开透明;如果核心是时间缓冲,那么封闭性和灵活性更重要。
目前看到的迹象指向后者。Mythos Preview的访问权限、测试协议、评估标准、披露时间表——所有这些关键决策都掌握在Anthropic手中。40多家公司的参与提供了合法性背书,但决策结构仍是中心化的。
这种设计在行业联盟中并不罕见,但它与Anthropic公开倡导的「AI安全需要多方参与」的叙事之间存在张力。当Graham说「这不是关于模型或Anthropic」时,他描述的更像是一个理想状态,而非当前现实。
尾声:当「副作用」成为主菜
4月8日的发布会上,Amodei用了一个微妙的表述:代码能力是主菜,网络安全是副作用。但Project Glasswing的组织规模暗示了另一种解读——在联盟成员的测试清单上,网络安全能力才是被重点关注的「主菜」,代码能力只是获取它的途径。
这种认知差异本身就有信息量。Anthropic希望外界关注它的「负责任」姿态,但参与测试的公司更关心的是:这个模型能对我的系统做什么?
Logan Graham在采访最后说:「许多事情将会不同。」他没有说哪些事情、多快、对谁。这种刻意留白,可能是诚实——没人能准确预测——也可能是策略,为后续的叙事调整保留空间。
6个月后,当Project Glasswing的第一阶段测试结束,Anthropic会公开什么?模型的完整评估报告,还是另一轮「我们需要更多时间」的延期?联盟成员中是否有人会打破沉默,描述他们看到的具体能力?
这些问题的答案,将决定「副作用」叙事是成为AI安全合作的模板,还是封闭控制策略的又一个案例。
热门跟贴