2026年4月第一周,Anthropic悄悄搞了个大动作——然后故意不让大多数人用上。
他们推出了Project Glasswing,一个围绕新模型Claude Mythos Preview的封闭式安全研究项目。跟近几年几乎所有主流AI发布不同,Anthropic没发博客、没开 waitlist、没邀请开发者动手开干。他们只挑了大约40家机构——主要是企业网络安全公司、云服务商和关键基础设施运营商——然后告诉其他人:还没准备好,可能永远也不会准备好。
官方解释很戏剧化。根据Glasswing的内部材料,Mythos跨越了此前任何商业AI模型都没达到过的门槛:自主、实时、规模化地发现并利用零日漏洞。Anthropic认为,在没有防护措施的情况下广泛发布这种模型,可能动摇现代世界赖以运转的数字基础设施。封闭上线是为了让防御方在攻击能力普及前抢得先机。
故事很动人,但不是所有人都买账。
随后几周,另一个版本开始流传——指向的不是原则性克制,而是更现实的约束:算力成本、基础设施容量、以及大规模运行前沿AI模型的残酷经济学。哪个版本为真,或者两者皆为真,关系到我们如何理解Anthropic的战略、AI行业与安全话语的关系,以及前沿模型访问的未来。
先搞清楚Mythos到底是什么。根据Anthropic开发者文档,Mythos Preview是邀请制模型,没有自助注册入口。它可通过多个渠道获取——Anthropic直供API、Amazon Bedrock、Google Vertex AI、Microsoft Azure Foundry——但仅限Glasswing项目的审核通过者。微软技术文档显示其支持100万token上下文窗口,最大输出12.8万token,是公开文档中上下文最长的模型之一。
Glasswing预览期的定价为每百万输入token 25美元、每百万输出token 125美元——远高于Claude标准档位。Anthropic承诺为项目参与者提供最高1亿美元的额度,这表明公司将此视为战略投资,而非商业产品发布。
让Mythos与众不同的是其"工具使用"架构。与标准Claude模型不同,Mythos被设计为可自主调用多种安全工具链:静态分析引擎、动态模糊测试框架、网络扫描器、沙箱执行环境。Anthropic的技术简报将其描述为"具备扩展推理能力的代理型系统",能够在多轮交互中维持目标导向的行为,而非简单的单轮响应。
这种架构直接导向了争议的核心。Glasswing参与者签署的保密协议禁止公开讨论具体能力,但多个消息源向《The Information》和《TechCrunch》确认了Mythos在受控测试中表现出的漏洞挖掘能力——包括识别某主流浏览器引擎中此前未知的内存损坏问题,以及在某常用开源库中发现SQL注入路径。
这些能力的真实性基本无争议。争议在于:它们是否构成了Anthropic所声称的"前所未有的系统性风险",以及封闭发布是否真是应对这一风险的必要手段。
质疑者的第一个切入点是成本结构。Mythos的定价——输入25美元/百万token、输出125美元/百万token——是Claude 3.5 Sonnet的约8倍和25倍。以100万token上下文计算,单次完整调用的成本可达数百美元。对于需要多轮工具调用、沙箱执行、代码生成的复杂安全分析任务,单次会话成本轻易突破数千美元。
这种定价并非纯粹的安全考量,而是反映了实际的推理开销。Mythos的架构涉及扩展推理链——类似OpenAI的o系列模型——在生成最终输出前进行多步内部思考。结合百万级上下文窗口和工具调用开销,单次查询的GPU消耗可能是标准模型的数十倍。
Anthropic的1亿美元额度承诺因此具有双重解读空间。官方叙事中,这是"降低参与门槛、确保防御者广泛获取"的战略投入。但按上述定价计算,1亿美元仅够支撑约800万至1000万次典型查询——对于40家机构的数月研究项目而言,这并非天文数字,反而暗示了供应端的硬性约束。
基础设施容量是第二个被低估的因素。Mythos的百万token上下文需要特殊的内存优化和并行策略。Anthropic虽与三大云厂商合作分发,但文档显示各平台的可用区域严重受限——AWS Bedrock仅限us-west-2和eu-west-1,Azure Foundry仅限East US和West Europe,Google Vertex AI的覆盖范围同样有限。
这种地理限制与"全球防御者紧急动员"的叙事存在张力。真正的关键基础设施运营商分布在全球各地,而Mythos的物理部署明显集中于北美和欧洲。如果威胁模型真如Anthropic所述那般紧迫,供应限制显得过于从容。
更微妙的证据来自Anthropic自身的财务披露。2025年底的融资文件中,公司将"推理成本优化"列为2026年最高优先级的技术投资,并明确提到"新一代模型的单位经济学尚未收敛"。这与Mythos的高定价策略形成对照——如果规模效应已经显现,定价本应更具侵略性。
安全研究社区的分裂反应提供了另一扇窗口。支持封闭发布的观点强调负责任的披露传统:软件漏洞领域长期奉行"先修复、后公开"的原则,AI能力的潜在滥用风险理应获得同等甚至更谨慎的对待。卡内基梅隆大学的AI安全研究者Zico Kolter公开支持Anthropic的谨慎态度,指出"自主漏洞利用能力的扩散速度可能远超防御适配速度"。
但怀疑者指出叙事中的不一致。真正的零日漏洞研究需要深度系统知识、特定目标环境的访问权限、以及长期潜伏的耐心——这些环节中的大多数难以被AI自动化替代。Mythos展示的能力更接近"加速已知技术模式的识别",而非"自主发现全新攻击面"。将前者包装为后者,可能夸大了风险以掩盖商业考量。
更尖锐的批评指向Anthropic的竞争对手动态。OpenAI的o3模型、Google的Gemini 2.5 Pro、以及若干初创公司的产品均在相近时间段展示了类似的安全研究能力,但均未采取同等严格的访问限制。如果Mythos的风险 truly 独特,为何同行不跟进?如果风险并非独特,Anthropic的例外主义是否服务于品牌差异化而非公共安全?
Anthropic的回应始终维持在同一轨道:Glasswing是"阶段性措施",最终目标是开发"可证明安全的部署方案",届时将扩大访问。但公司拒绝提供任何时间表,也拒绝定义"可证明安全"的具体标准。这种开放性承诺与封闭性实践的张力,正是争议持续发酵的燃料。
两种叙事并非完全互斥。Mythos可能确实具备Anthropic所描述的部分风险特征,同时其发布限制也受到成本与容量的现实约束。真正的问题在于权重分配:如果安全考量是主要驱动力,封闭策略应具有更一致的全球覆盖和更透明的退出条件;如果经济约束占主导,坦诚承认比安全修辞更符合长期信任积累。
AI行业的历史提供了参照。2023年GPT-4的发布同样伴随能力预测和安全讨论,但OpenAI选择了渐进式开放而非封闭邀请制。2024年Google的Gemini Ultra采用了类似的有限预览,但时间窗口以月计而非以年计。Anthropic的Glasswing在持续时间、选择严格性、和叙事强度上均超出先例,这本身就需要解释。
一种解释是Anthropic的企业文化。由前OpenAI研究人员创立、以"AI安全"为核心品牌标识的公司,有更强的动机将商业决策与安全话语对齐。这不是虚伪指控——公司可能真诚相信风险与约束并存——而是结构性激励分析。当"负责任"成为差异化标签时,保守姿态本身成为竞争策略。
另一种解释涉及技术路线。Mythos的"代理型"架构——多轮工具调用、目标维持、自主执行——确实引入了新的评估难题。传统基准测试难以捕捉这类系统的涌现行为,红队测试的覆盖范围天然有限。在这种不确定性下,谨慎可能是最理性的选择,无论成本因素如何。
但解释不等于辩护。AI治理的核心困境在于:谁有权决定"足够安全"的标准,以及这种决定如何被问责。Anthropic的封闭决策由内部流程做出,外部可见的只有结果叙事。Glasswing的参与者名单未公开,选择标准未公开,评估报告未公开——这种信息不对称与"民主化AI安全"的公开承诺存在根本张力。
更广泛的行业影响正在显现。如果Mythos模式被证明可持续——即封闭发布不损害市场地位、甚至强化高端品牌形象——其他前沿实验室可能效仿。这将加速AI访问的两极分化:少数特权机构获得最新能力,更广泛的研究社区和公众被排斥在外。安全与民主化的传统张力,可能以前者压倒后者的形式解决。
反之,如果成本约束最终被证实为更主要的限制因素,Anthropic可能面临艰难选择:维持封闭则无法摊薄固定成本,开放访问则单位经济学崩溃。1亿美元额度是慷慨还是吝啬,取决于这一判断。
当前证据不支持简单的真伪判定。两种叙事均有实质支撑,其相对权重可能随时间变化。短期来看,供应限制的解释力更强——定价策略、地理限制、额度规模均指向容量约束。长期来看,如果Anthropic始终拒绝扩大访问,安全叙事将获得更多可信度;如果成本下降后访问随之开放,经济解释将得到验证。
对观察者的启示或许是方法论层面的:在AI行业,"安全"话语与商业决策的交织如此紧密,以至于区分两者需要刻意的证据权衡。Anthropic的案例表明,即使是最具原则性外观的发布策略,也可能承载多重动机。追问"哪个为真"不如追问"各占比多少"——后者虽无戏剧性答案,却更接近复杂的现实。
Glasswing项目仍在进行。40家机构的测试结果、Anthropic的后续决策、以及竞争对手的跟进动作,将逐渐填充当前证据的空白。在此之前,Mythos的真实面貌——危险武器还是昂贵工具——仍将悬置于两种叙事之间。
热门跟贴