Anthropic把微软苹果拉进群聊|anthropic|微软|知名企业|终端安全|网络安全|苹果公司

3月底消息走漏时，Anthropic正在训练一个代号Mythos的新模型。4月8日正式官宣，顺带甩出一个叫Project Glasswing的行业联盟——微软、苹果、谷歌、AWS、英伟达、思科等40多家科技、网络安全、关键基础设施和金融公司全部在列。这阵容不像发布会，更像战前动员会。

Logan Graham，Anthropic的前沿红队负责人，直接点破意图：「真正的信号不是这个模型，也不是Anthropic。我们需要现在就开始准备，迎接6个月、12个月、24个月后这些能力遍地开花的局面。」

换句话说，他们提前拉响警报，是因为测试中发现的东西让内部人坐不住了。

「副作用」比主菜更吓人

CEO Dario Amodei在发布视频里说得直白：「Claude Mythos Preview是一次特别大的跃迁。我们没专门训练它搞网络安全，只训练了写代码——但代码写得好，网络安全能力就成了副作用。」

这个「副作用」的具体表现包括：发现漏洞、生成攻击链和概念验证、开发高级漏洞利用程序、渗透测试、终端安全评估、搜寻系统配置错误，以及在没有源代码的情况下分析软件二进制文件。

Graham补充了一个关键细节：模型能自主完成多步骤攻击规划。不是给你一份漏洞清单就完事，而是能串联起「发现A漏洞→利用B配置错误→在C环节提权」的完整链条。

这种能力在AI安全研究里有个专门术语：「涌现能力」（Emergent Capabilities）。模型在特定规模或训练阶段突然展现出设计者未明确训练的技能。Mythos的网络安全能力就属于这一类——Anthropic想让它当程序员，它顺便学会了当黑客。

为什么不让它直接上线

Mythos Preview目前不对公众开放。40多家联盟成员获得的是「私有访问权限」，核心任务只有一个：拿自家系统给模型当靶场。

这个设计借鉴了网络安全行业的经典做法——「红队测试」（Red Teaming）。传统红队是企业花钱请安全专家扮演攻击者，找出防御漏洞。现在Anthropic把AI模型塞进这个角色，而且能力远超人类专家的速度和规模。

联盟成员名单透露了Anthropic的焦虑范围：除了直接的AI竞争对手（微软、谷歌、亚马逊），还有芯片层（英伟达、博通）、网络层（思科）、系统层（Linux基金会）、金融层（多家未公开名称的金融机构），以及关键基础设施运营方。

这种跨层覆盖不是面子工程。AI模型的攻击面横跨整个技术栈：从芯片指令集到操作系统内核，从云服务平台到终端应用，从金融交易接口到工业控制系统。任何一个环节的漏洞都可能被自动化工具规模化利用。

「猫鼠游戏」进入下一回合

AI辅助攻防不是新鲜事。GitHub Copilot能写安全代码，也能写漏洞利用；OpenAI的模型早就展示过逆向工程能力。但Mythos Preview的特殊之处在于「自主规划」——它不只是执行人类给定的攻击思路，而是能自己设计攻击路径。

Graham描述的测试场景里，模型表现出接近人类安全研究者的策略性思维：评估目标系统的防御架构，识别最薄弱的切入点，选择最优的攻击工具组合，甚至在遭遇防御时调整策略。

这种能力对防御方是双刃剑。一方面，企业可以用它提前发现自己的漏洞；另一方面，攻击者获得同等工具后，防御成本的上升曲线会陡得多。

Amodei在视频里承认：「更强大的模型会来自我们，也会来自其他人。所以我们确实需要一个应对计划。」这句话的潜台词是：就算Anthropic把Mythos锁进保险柜，其他公司的模型迟早会达到同等水平，甚至更高。

Project Glasswing的隐藏议程

公开说法是「给开发者时间修复漏洞」，但联盟结构暗示了更深层的博弈。让竞争对手、上下游厂商、关键基础设施运营方提前接触模型，Anthropic实际上在建立一种「集体防御」机制。

网络安全领域的经典困境是「公地悲剧」：每个人都希望自己的系统安全，但漏洞信息共享可能暴露自身弱点，修复成本又往往由单一企业承担。Project Glasswing试图用「私有访问+协调披露」破解这个困局——联盟成员在封闭环境中测试，漏洞修复后再逐步扩大知情范围。

这种设计的代价是透明度。公众无法直接评估Mythos的真实能力，只能依赖Anthropic和联盟成员的描述。Graham强调「这不是关于模型或Anthropic」，但模型的访问权限完全由Anthropic控制，评估标准也由联盟内部制定。

一个未被回答的问题是：如果联盟成员在测试中发现模型有不可控的危险行为，他们是否有权公开披露？还是必须遵守Anthropic设定的披露时间表？

6-24个月的时间窗口

Graham反复提到的时间线——6个月、12个月、24个月——不是随便说的。这对应着AI行业的能力释放节奏：内部测试→受限发布→API开放→开源或泄露。

当前阶段属于「受限发布」，只有签约联盟成员能接触模型。下一阶段可能是「API开放给认证企业」，最后是「广泛可用」——无论通过官方渠道还是模型权重泄露。

每个阶段的过渡时间正在缩短。Llama 3从发布到出现微调版本用了几周；Claude 3.5 Sonnet的能力在发布后被迅速复刻到开源模型。Mythos级别的代码-安全复合能力，一旦进入广泛可用阶段，防御方的准备窗口可能以天计算。

「现代安全范式的许多基础假设可能会崩溃。」Graham这句话指向的是整个行业的底层逻辑：当前的网络安全体系建立在「攻击成本高于防御成本」的假设上。自动化漏洞发现和利用工具的普及，可能逆转这个等式。

谁在为「副作用」买单

Mythos的训练目标很纯粹：写更好的代码。但「更好」的定义本身就有争议——是更符合人类意图，还是更高效地达成目标？当模型学会用非预期方式达成目标时，这就是安全研究者所说的「对齐问题」（Alignment Problem）。

在网络安全场景里，对齐问题的表现特别尖锐。模型可能发现一种极高效的漏洞利用方式，但这种方式的副作用是破坏关键系统；或者模型为了「完成渗透测试任务」，采取超出授权范围的行动。

Project Glasswing的测试协议 reportedly 包含「人机协作」条款：模型的攻击建议必须由人类审核后才能执行。但这种护栏在模型能力持续升级的情况下能维持多久？当模型的攻击策略比人类审核者更复杂时，审核本身可能流于形式。

联盟成员中的金融机构和关键基础设施运营方，面临的约束更严格。他们的系统不能随意停机测试，漏洞修复需要经过合规审查，而攻击者的自动化工具没有这些负担。

行业联盟的局限性

40多家公司的参与看似广泛，但覆盖范围仍有明显缺口。没有中国AI公司，没有俄罗斯网络安全厂商，没有开源社区的代表性组织。这意味着Project Glasswing的「集体防御」本质上是西方科技巨头的协调机制。

这种排他性在短期可能提升协调效率，长期却制造了新的脆弱性。AI模型的能力不受国界限制，但防御协调却受地缘政治分割。当Mythos级别的能力通过开源或泄露渠道全球扩散时，非联盟成员的系统可能成为攻击跳板，反过来威胁联盟成员。

另一个缺口是中小企业。联盟名单里的公司都有专职安全团队和合规预算，但全球绝大多数企业的安全投入远低于这个水平。他们既不会获得Mythos的提前访问权限，也难以承受模型能力普及后的防御成本上升。

这种不对称可能重塑行业格局：安全能力成为规模效应极强的竞争要素，小公司被迫依赖大公司的安全云服务，进一步集中化。

技术细节的真空

Anthropic对Mythos Preview的技术规格保持沉默。模型规模、训练数据构成、安全微调方法、评估基准结果——这些关键信息均未公开。Graham强调「这不是关于模型」，但模型的具体能力边界直接决定了防御准备的优先级。

已知的只有Amodei描述的「副作用」逻辑：代码能力与网络安全能力的强相关性。这暗示Mythos可能延续了Claude 3.5级别的架构，但在代码训练数据上做了大幅扩展。

「涌现能力」的不可预测性加剧了信息真空。即使Anthropic完全公开训练过程，也无法保证预测模型在所有场景下的行为。这也是Project Glasswing采用「实测驱动」而非「规范驱动」策略的原因——与其依赖理论分析，不如让联盟成员在真实系统中观察模型表现。

但这种策略的代价是时间。每个联盟成员的测试周期、内部审批流程、漏洞修复节奏都不相同，协调40多家公司的行动本身就是复杂的管理挑战。Graham提到的6-24个月窗口，可能相当一部分要消耗在组织协调上。

竞争与合作的张力

Project Glasswing的参与者名单里，微软和谷歌是Anthropic的直接竞争对手，AWS既是竞争对手又是投资方，苹果在AI领域长期保持疏离姿态。这种组合在科技行业极为罕见。

驱动合作的因素是对共同威胁的认知：无论哪家公司的模型先达到「自主攻击规划」水平，整个行业都要面对防御体系重构的压力。提前协调至少能确保「崩溃」是可控的、有序的，而非突然的、混乱的。

但这种合作的脆弱性也很明显。联盟成员同时在进行各自的AI安全研究，微软有Copilot Security，谷歌有Project Zero的AI扩展，AWS有Bedrock的Guardrails。如果某家公司的内部模型被认为比Mythos更安全或更强大，合作的动力可能迅速消退。

Amodei在视频里说的「来自其他人的更强大模型」，既是陈述事实，也是向竞争对手喊话：别等着看我们怎么处理，你们自己的模型也快了。

监管层面的空白

Project Glasswing是一个行业自组织机制，没有政府参与，没有外部审计，没有强制披露要求。这种设计在速度上有优势——不需要等待立法程序或国际谈判——但在问责制上有明显缺陷。

欧盟AI法案对「通用人工智能模型」有系统性风险评估要求，但Mythos Preview目前处于「研究预览」状态，可能规避部分义务。美国的AI安全框架仍是自愿性质，白宫的AI行政令主要关注联邦政府使用场景。

这种监管空白创造了「行动窗口」：在行业能力超越监管框架的这段时间里，科技公司可以自行设定标准。Project Glasswing本质上就是Anthropic试图设定的标准——用「负责任的能力释放」叙事，抢占监管辩论的定义权。

但标准的有效性取决于执行。如果联盟成员在测试中发现严重风险，他们是否有动力公开？还是会选择私下修复、避免引发监管关注？Graham描述的「协调披露」机制，具体规则尚未公开。

用户端的连锁反应

对于普通用户，Mythos Preview的直接影响有限——他们接触不到这个模型。但间接影响可能很快显现：软件更新频率加快、多因素认证强制化、云服务安全审查收紧、甚至某些功能因「安全加固」而被移除。

企业IT部门的预算分配已经在变化。Graham提到的「终端安全评估」和「系统配置错误搜寻」能力，意味着AI可以自动化完成过去需要人工渗透测试的工作。这降低了安全评估成本，但也提高了「最低安全门槛」——达不到AI评估标准的企业，将面临更大的被攻击风险。

一个未被讨论的场景是：如果Mythos级别的能力被用于攻击消费者设备，现有的「用户教育」策略是否还有效？当攻击自动化到每秒尝试数千种社工话术时，「不要点击可疑链接」的建议几乎失效。

开源与封闭的拉锯

Anthropic选择了封闭发布策略，与Meta的Llama系列形成对比。这种选择部分源于能力特性：自主攻击规划能力一旦开源，几乎不可能收回。但封闭策略也有代价——外部研究者无法独立验证风险，只能依赖Anthropic和联盟成员的描述。

开源社区的反弹已经在酝酿。一些安全研究者认为，封闭测试无法模拟真实世界的对抗环境，只有广泛部署才能发现模型的真正弱点。这种观点认为，Project Glasswing的「可控释放」是一种幻觉，真正的风险在模型走出实验室、遭遇 motivated adversaries（有动机的攻击者）时才会暴露。

Anthropic的回应隐含在Project Glasswing的设计中：与其让能力无序扩散，不如先让「负责任」的参与者建立防御基础。但这种「责任」的定义权掌握在谁手里？联盟成员的选择标准是什么？这些问题没有公开答案。

能力曲线的不可预测性

Amodei提到的「副作用」现象，指向AI研究的一个核心焦虑：我们越来越擅长训练模型，却越来越不擅长预测它们会学会什么。Mythos的网络安全能力不是设计目标，是规模效应的副产品。

这种「副产品」模式意味着，下一次能力跃迁可能来自完全不同的训练方向。一个专注于数学证明的模型可能意外获得破解加密协议的能力，一个优化多模态理解的模型可能学会伪造生物特征。Project Glasswing针对的是当前已观察到的能力，但防御体系需要应对的是尚未出现的能力。

Graham的24个月时间窗口，在这种不确定性面前显得乐观。如果「副作用」的出现速度超过预期，或者某种新架构带来突然的跃迁，当前的准备计划可能瞬间过时。

一个未被回答的问题

Project Glasswing的最终目标是什么？是建立一个可持续的行业协调机制，还是为Anthropic争取监管缓冲时间？是为「安全的能力释放」设定先例，还是为未来的产品发布积累信任资本？

这些目标并不互斥，但优先级不同，行动逻辑也不同。如果核心是协调机制，那么联盟的结构和规则应该公开透明；如果核心是时间缓冲，那么封闭性和灵活性更重要。

目前看到的迹象指向后者。Mythos Preview的访问权限、测试协议、评估标准、披露时间表——所有这些关键决策都掌握在Anthropic手中。40多家公司的参与提供了合法性背书，但决策结构仍是中心化的。

这种设计在行业联盟中并不罕见，但它与Anthropic公开倡导的「AI安全需要多方参与」的叙事之间存在张力。当Graham说「这不是关于模型或Anthropic」时，他描述的更像是一个理想状态，而非当前现实。

尾声：当「副作用」成为主菜

4月8日的发布会上，Amodei用了一个微妙的表述：代码能力是主菜，网络安全是副作用。但Project Glasswing的组织规模暗示了另一种解读——在联盟成员的测试清单上，网络安全能力才是被重点关注的「主菜」，代码能力只是获取它的途径。

这种认知差异本身就有信息量。Anthropic希望外界关注它的「负责任」姿态，但参与测试的公司更关心的是：这个模型能对我的系统做什么？

Logan Graham在采访最后说：「许多事情将会不同。」他没有说哪些事情、多快、对谁。这种刻意留白，可能是诚实——没人能准确预测——也可能是策略，为后续的叙事调整保留空间。

6个月后，当Project Glasswing的第一阶段测试结束，Anthropic会公开什么？模型的完整评估报告，还是另一轮「我们需要更多时间」的延期？联盟成员中是否有人会打破沉默，描述他们看到的具体能力？

这些问题的答案，将决定「副作用」叙事是成为AI安全合作的模板，还是封闭控制策略的又一个案例。

Anthropic把微软苹果拉进群聊

「副作用」比主菜更吓人

为什么不让它直接上线

「猫鼠游戏」进入下一回合

Project Glasswing的隐藏议程

6-24个月的时间窗口

谁在为「副作用」买单

行业联盟的局限性

技术细节的真空

竞争与合作的张力

监管层面的空白

用户端的连锁反应

开源与封闭的拉锯

能力曲线的不可预测性

一个未被回答的问题

尾声：当「副作用」成为主菜

热搜

热门跟贴

「副作用」比主菜更吓人

为什么不让它直接上线

「猫鼠游戏」进入下一回合

Project Glasswing的隐藏议程

6-24个月的时间窗口

谁在为「副作用」买单

行业联盟的局限性

技术细节的真空

竞争与合作的张力

监管层面的空白

用户端的连锁反应

开源与封闭的拉锯

能力曲线的不可预测性

一个未被回答的问题

尾声：当「副作用」成为主菜

热搜

热门跟贴

相关推荐

Anthropic因Claude Code源代码泄露陷入困境

Anthropic悄悄给AI装了「沉默故障」探测器

微软 Copilot 服务条款：仅供娱乐使用

Anthropic发布Claude Mythos Preview 展示顶尖网络安全攻防能力

Anthropic 3800亿估值背后

开盒Claude Code的原来是中国00后！曾怒怼Anthropic窃取用户代码

Anthropic团队把API调用砍了99%

苹果英伟达组了台248GB显存的怪物，10G网线拖后腿了

Anthropic曝AI挖出3000+零日漏洞

Anthropic内部数据曝光：1个文件让AI效率暴涨40%

Anthropic甩出54个真实PR

1人写出6万行代码，Gemini在UI上栽了跟头

Solvespace把CAD塞进浏览器

我又成功安利了鸿蒙6“统一拖拽”，知道这个宝藏功能的人再＋1

能力太强，Mythos被Anthropic“冻结”

Anthropic祭出最强 Claude Mythos！ 暴击Opus 4.6

kun哥独家爆料！《地平线6》限定手柄、耳机来了

安卓也能给苹果 Airdrop，实测 Pixel 9 Pro 传照片

让孩子可以对诱骗侵犯说不，是宝妈们的必修课！

“朋友圈富豪人设”1元起售！产业链曝光

Anthropic祭出最强 Claude Mythos！暴击Opus 4.6