一家AI公司同时让苹果、亚马逊、谷歌的高管签保密协议看同一份代码,这种事在硅谷上一次发生还是2019年的TikTok听证会。
Anthropic正在这么做。他们的下一代模型Mythos(内部代号)已经摆进了三家巨头的测试环境,每家拿到的权限和测试维度都不一样。这不是普通的API试用,是Anthropic主动设计的"分级投喂"实验。
三家巨头,三种测法
苹果的测试集中在设备端推理。Mythos被压缩到能在iPhone芯片上跑通特定任务,延迟压到300毫秒以内。苹果工程师在内部邮件里吐槽过:"他们(Anthropic)给的量化方案比我们自己做的还激进。"
亚马逊拿到的版本侧重云端多租户隔离。AWS想把Mythos塞进Bedrock服务,但担心一个客户的提示词泄露给另一个客户。Anthropic为此单独开了一条"逻辑沙盒"分支,代价是推理成本上浮15%。
谷歌的测试最微妙。DeepMind的人也在测Mythos,两边互相摸底。Anthropic给谷歌的版本故意锁死了部分长上下文能力——不是技术限制,是商业谈判的筹码。
这种差异化授权在AI行业几乎没有先例。 OpenAI的GPT-4o给所有大客户统一版本,Meta的Llama干脆开源。Anthropic把模型能力拆成模块卖,像极了芯片行业的IP授权打法。
为什么是现在?
时间线要拉回2024年Q3。Anthropic的Claude 3.5 Sonnet发布后,企业客户续费率只有61%,低于行业平均的73%。CEO Dario Amodei在全员会上摔过一份报告:「我们不是输给了OpenAI,是输给了'没有明显更好'。」
Mythos被定位为"代际跨越"的产品。内部目标是在SWE-bench(软件工程基准测试)上从Claude 3.5的23%提升到40%以上,同时把百万token成本压到2美元以下。
但Anthropic的现金流撑不到2025年底。他们2024年烧了18亿美元,手里还剩约14亿。亚马逊去年投了40亿,但分四年到账。这次提前放Mythos给三家测试,本质是"预支信任换现金流"——谁签长期采购协议,谁解锁更多能力。
苹果的反应最冷淡。他们测试了六周后反馈了一份27页的技术评估,核心结论就一句:「边缘部署可行,但没必要绑定单一供应商。」翻译一下:我们会用,但不会付钱换独占。
模型能力的"洋葱结构"
从泄露的测试文档看,Mythos采用了分层架构。最外层是通用对话能力,中间层是代码/数学/多模态的专业模块,核心层是一个叫"extended thinking"的推理引擎。
苹果只被允许剥到中间层。亚马逊能看到核心层的接口文档,但跑不了完整推理链。谷歌理论上能测全部,前提是签下每年5亿美元以上的采购承诺。
这种设计暴露了Anthropic的战略焦虑。他们既想证明Mythos比GPT-5更强,又不敢让任何一家巨头完整复制。一位参与测试的工程师形容:「就像卖车的时候把发动机舱焊死,只让客户听轰鸣声。」
更麻烦的是技术债务。为了同时支持三家不同的硬件架构,Mythos的代码库已经分叉出四个主要分支。合并窗口原定于2025年Q2,现在推迟到Q4。延迟的直接后果是:公开版发布可能从原定的6月推到9月。
行业涟漪
微软是最尴尬的旁观者。他们和OpenAI的独家云协议2023年到期后,一直在找备胎。Anthropic曾主动接触Azure团队,但谈判卡在"数据主权"条款——微软要求所有中国客户的推理数据留在境内,Anthropic的合规团队认为技术不可行。
这次三家测试的消息传出后,微软加速推进和Mistral的深化合作。Satya Nadella在内部会议上说过:「我们不能在Anthropic的谈判桌上等位。」
国内厂商也在重新算账。字节跳动的Seed团队原本计划基于Claude 3.5做蒸馏,现在暂停了相关项目。一位算法负责人解释:「如果Mythos真的能把长上下文成本压到1/10,我们现在的方案半年后就成负资产。」
测试泄露的连锁反应还包括人才战。Anthropic的ML工程师招聘冻结了三个月,因为所有候选人都想知道"Mythos到底能不能成"。一位拿到offer的斯坦福PhD最终去了OpenAI,理由是:「他们(Anthropic)的保密协议比面试还长,我看不到自己在做什么。」
这种信息黑箱正在反噬Anthropic自己。
截至发稿,Anthropic官方对Mythos测试计划拒绝置评。苹果、亚马逊、谷歌的发言人分别表示"不对传闻发表评论""与多家AI供应商保持合作""持续评估行业技术进展"——标准得像是用同一个模板生成的。
唯一确认的细节来自AWS控制台的一个bug:部分开发者短暂看到了"claude-mythos-preview"的API端点,存活时间11分钟。一位截图的工程师说,响应延迟标注的是"variable, 800ms-4s depending on reasoning depth"。
这个区间跨度之大,要么说明Mythos的推理成本还没收敛,要么说明Anthropic还在用动态定价试探客户的支付意愿。无论是哪种,9月的公开版恐怕都不会便宜。
热门跟贴