4月4日,Anthropic终于对那只"龙虾"动手了。
Claude Code负责人Boris Cherny宣布:Pro和Max订阅不再覆盖OpenClaw等第三方平台。想继续用?请走API按量计费,价格翻几倍自己算。
这事的荒诞之处在于,Anthropic设计了一套"人类作息"的订阅模式——按月付费,用量有上限,成本可控。但OpenClaw把这套规则变成了7×24小时不间断的算力黑洞,订阅费连电费都不够付。用Anthropic自己的话说,这叫"disproportionate stress"——不成比例的压力,翻译成人话就是:被薅秃了。
更扎心的是后半句。OpenClaw最新版搞了个"模型池",用户可以在Claude、GPT-5.4、Gemini、智谱、MiniMax之间随便切。表面上这是应对封禁的备胎方案,实际上就算没这事,创始人Peter Steinberger也会这么干——毕竟加入Open AI之后,"去供应商化"只是时间问题。
用户一旦习惯OpenClaw,就不会再关心后台跑的是谁家模型。入口在手,模型沦为水电煤。这对想做平台级公司的Anthropic来说,比亏钱更致命。
但封禁令下,有人头疼,有人捡漏。
智谱、MiniMax这些国产模型,等的就是这个机会。Claude API太贵,开发者自然要找平替。而国产模型的Token价格,往往只有Claude的1/10甚至1/16。
数据不会说谎。2026年Q1,智谱API调用量涨了400%,价格上调83%后反而供不应求;MiniMax M2.5在OpenRouter连续两周全球调用量第一,周调用1.63万亿Token,其中OpenClaw编程场景的贡献涨了10倍。Kimi更夸张,K2.5发布一个月ARR破亿,三个月估值从43亿冲到180亿。
把时间拨回2024年下半年,这仨还在"AI六小龙"的ICU里躺着。融资收紧、大厂环伺、"六小龙不如一条虫"的嘲讽满天飞。DeepSeek凭V3和R1震惊世界时,它们像极了被时代抛下的配角。
转折点叫"龙虾"——2026年春节前后,OpenClaw作为开源AI Agent框架爆火,全球Token消耗从每周5.6万亿飙到14.8万亿。三强恰好成了最大的饲料供应商。
传统对话一次几百Token,OpenClaw执行一个任务要几十轮调用,消耗翻几百倍。Token货币化的结果,就是用户疯狂寻找便宜且能用的模型。OpenRouter上,MiniMax和智谱的收费是Claude Opus的1/16,海外开发者蜂拥而至。今年2月起,中国模型调用量三周大涨127%,首次超越美国模型。
但把翻盘全归因于风口也不公允。三强真正的底牌,是提前押中了"第三条路"。
2024年底,Ilya Sutskever在NeurIPS上扔下一颗炸弹:预训练即将终结,数据见顶了。行业瞬间分裂——一派认为Scaling Law没死,只是要换对象;一派主张推倒Transformer重来。
三强的答案是:都不选,或者说,两个都选。用架构层面的精准创新,撬动新形式的Scaling。
Kimi从优化器、注意力、残差连接三路突破,MuonClip引入二阶梯度,同等算力下质量更高;Attention Residuals用softmax实现"选择性回忆",48B模型跑出60B效果,论文被马斯克点赞。
MiniMax创始人闫俊杰笃信Scaling Law和模态等价性。线性注意力让百万长文本的算力消耗降到传统方案的几百分之一;Visual Tokenizer的Scaling Law破解了视频生成的投入产出比。M2.5总参数230B,推理只激活10B,SWE-Bench得分80.2%,追平Claude Opus 4.6,价格却是十分之一。
智谱玩的是"多角形飞轮":GLM-5在编程、长文本、多模态上突破,成为Agent开发者必选项;同时完成与七大国产芯片的算子级优化,部署成本降50%;更关键的是数据闭环——开发者用GLM跑Agent,推理轨迹、纠错过程全被记录,这种"真实任务数据"比爬虫和合成数据值钱得多。模型越强,用户越多,飞轮越转越快。涨价83%后调用量仍涨400%,就是飞轮转起来的证明。
同一个风口,有人飞升,有人坠落。零一万物放弃通用大模型,转型企业级部署,核心技术团队散伙;百川智能收缩业务线,高管离职,最终押注AI医疗,退出通用赛道。
差距在哪?龙虾考的是底模强度、工具链深度、开发者生态厚度。三强在风来之前,已经攒够了势能。
这里有个反直觉的问题:为什么DeepSeek没吃到这波红利?
V3和R1的成就至今令人敬佩。MLA+MoE的组合,把GPU性价比压榨到极致。但1.0时代的"力出一孔",在2.0时代成了枷锁。
第一个坎是商业化。DeepSeek开源且低价,大量企业私有化部署,数据留在内网;云厂商调用又截走一层。用户翻倍,亏损翻倍,没有数据回流,无法在实战中迭代。
第二个坎更隐蔽。DeepSeek团队不到140人,平均28岁,清一色顶尖高校应届生。梁文锋相信"经验限制创新",但架构革命需要的不只是聪明年轻人,还需要见过不同范式的人碰撞火花。杨植麟在Google Brain看过Transformer工业化;唐杰团队扎根清华二十年,500篇顶会论文打底。这种"多层代际、多种背景"的知识密度,才是架构创新的土壤。
很多人把训大模型叫"炼丹"——海量数据投进去,调参火候看运气,产出难以预测。1.0时代靠炼丹师的个人洞见,一个天才带一群精英,反复实验直到炼出惊世之作。
2.0时代需要"制药厂":可复制流程、可量化标准、持续临床反馈,把创新从个人英雄主义变成组织级稳定产出。
Kimi 3月16日发布Attention Residuals论文,从idea到发表到产品到开源,不到3天。作者名单35人,包括一位17岁高中生——这不是精英小团队的产物,而是整个公司在这个方向上的集体知识总结。绝大多数公司论文作者十几人,OpenAI、DeepSeek也不例外。
三强走出ICU,不是因为工程师更聪明,而是因为迭代更快、知识流转更密、创新更体系化。
大模型1.0属于炼丹师,凭个人洞见就能改天换地。2.0属于制药厂,把突破变成日常,把个人能力沉淀为组织能力。
Anthropic封禁OpenClaw那天,一位开发者在Reddit吐槽:"我的Claude订阅废了,但M2.5的代码补全居然更跟手。"这条评论被点了三千多个赞,然后沉了下去——没人再提。
热门跟贴