Claude封了这条"套利通道"，国产模型却偷偷笑了|claude|三强|大模型|套利通道|编程|调用|飞轮

4月4日，Anthropic终于对那只"龙虾"动手了。

Claude Code负责人Boris Cherny宣布：Pro和Max订阅不再覆盖OpenClaw等第三方平台。想继续用？请走API按量计费，价格翻几倍自己算。

这事的荒诞之处在于，Anthropic设计了一套"人类作息"的订阅模式——按月付费，用量有上限，成本可控。但OpenClaw把这套规则变成了7×24小时不间断的算力黑洞，订阅费连电费都不够付。用Anthropic自己的话说，这叫"disproportionate stress"——不成比例的压力，翻译成人话就是：被薅秃了。

更扎心的是后半句。OpenClaw最新版搞了个"模型池"，用户可以在Claude、GPT-5.4、Gemini、智谱、MiniMax之间随便切。表面上这是应对封禁的备胎方案，实际上就算没这事，创始人Peter Steinberger也会这么干——毕竟加入Open AI之后，"去供应商化"只是时间问题。

用户一旦习惯OpenClaw，就不会再关心后台跑的是谁家模型。入口在手，模型沦为水电煤。这对想做平台级公司的Anthropic来说，比亏钱更致命。

但封禁令下，有人头疼，有人捡漏。

智谱、MiniMax这些国产模型，等的就是这个机会。Claude API太贵，开发者自然要找平替。而国产模型的Token价格，往往只有Claude的1/10甚至1/16。

数据不会说谎。2026年Q1，智谱API调用量涨了400%，价格上调83%后反而供不应求；MiniMax M2.5在OpenRouter连续两周全球调用量第一，周调用1.63万亿Token，其中OpenClaw编程场景的贡献涨了10倍。Kimi更夸张，K2.5发布一个月ARR破亿，三个月估值从43亿冲到180亿。

把时间拨回2024年下半年，这仨还在"AI六小龙"的ICU里躺着。融资收紧、大厂环伺、"六小龙不如一条虫"的嘲讽满天飞。DeepSeek凭V3和R1震惊世界时，它们像极了被时代抛下的配角。

转折点叫"龙虾"——2026年春节前后，OpenClaw作为开源AI Agent框架爆火，全球Token消耗从每周5.6万亿飙到14.8万亿。三强恰好成了最大的饲料供应商。

传统对话一次几百Token，OpenClaw执行一个任务要几十轮调用，消耗翻几百倍。Token货币化的结果，就是用户疯狂寻找便宜且能用的模型。OpenRouter上，MiniMax和智谱的收费是Claude Opus的1/16，海外开发者蜂拥而至。今年2月起，中国模型调用量三周大涨127%，首次超越美国模型。

但把翻盘全归因于风口也不公允。三强真正的底牌，是提前押中了"第三条路"。

2024年底，Ilya Sutskever在NeurIPS上扔下一颗炸弹：预训练即将终结，数据见顶了。行业瞬间分裂——一派认为Scaling Law没死，只是要换对象；一派主张推倒Transformer重来。

三强的答案是：都不选，或者说，两个都选。用架构层面的精准创新，撬动新形式的Scaling。

Kimi从优化器、注意力、残差连接三路突破，MuonClip引入二阶梯度，同等算力下质量更高；Attention Residuals用softmax实现"选择性回忆"，48B模型跑出60B效果，论文被马斯克点赞。

MiniMax创始人闫俊杰笃信Scaling Law和模态等价性。线性注意力让百万长文本的算力消耗降到传统方案的几百分之一；Visual Tokenizer的Scaling Law破解了视频生成的投入产出比。M2.5总参数230B，推理只激活10B，SWE-Bench得分80.2%，追平Claude Opus 4.6，价格却是十分之一。

智谱玩的是"多角形飞轮"：GLM-5在编程、长文本、多模态上突破，成为Agent开发者必选项；同时完成与七大国产芯片的算子级优化，部署成本降50%；更关键的是数据闭环——开发者用GLM跑Agent，推理轨迹、纠错过程全被记录，这种"真实任务数据"比爬虫和合成数据值钱得多。模型越强，用户越多，飞轮越转越快。涨价83%后调用量仍涨400%，就是飞轮转起来的证明。

同一个风口，有人飞升，有人坠落。零一万物放弃通用大模型，转型企业级部署，核心技术团队散伙；百川智能收缩业务线，高管离职，最终押注AI医疗，退出通用赛道。

差距在哪？龙虾考的是底模强度、工具链深度、开发者生态厚度。三强在风来之前，已经攒够了势能。

这里有个反直觉的问题：为什么DeepSeek没吃到这波红利？

V3和R1的成就至今令人敬佩。MLA+MoE的组合，把GPU性价比压榨到极致。但1.0时代的"力出一孔"，在2.0时代成了枷锁。

第一个坎是商业化。DeepSeek开源且低价，大量企业私有化部署，数据留在内网；云厂商调用又截走一层。用户翻倍，亏损翻倍，没有数据回流，无法在实战中迭代。

第二个坎更隐蔽。DeepSeek团队不到140人，平均28岁，清一色顶尖高校应届生。梁文锋相信"经验限制创新"，但架构革命需要的不只是聪明年轻人，还需要见过不同范式的人碰撞火花。杨植麟在Google Brain看过Transformer工业化；唐杰团队扎根清华二十年，500篇顶会论文打底。这种"多层代际、多种背景"的知识密度，才是架构创新的土壤。

很多人把训大模型叫"炼丹"——海量数据投进去，调参火候看运气，产出难以预测。1.0时代靠炼丹师的个人洞见，一个天才带一群精英，反复实验直到炼出惊世之作。

2.0时代需要"制药厂"：可复制流程、可量化标准、持续临床反馈，把创新从个人英雄主义变成组织级稳定产出。

Kimi 3月16日发布Attention Residuals论文，从idea到发表到产品到开源，不到3天。作者名单35人，包括一位17岁高中生——这不是精英小团队的产物，而是整个公司在这个方向上的集体知识总结。绝大多数公司论文作者十几人，OpenAI、DeepSeek也不例外。

三强走出ICU，不是因为工程师更聪明，而是因为迭代更快、知识流转更密、创新更体系化。

大模型1.0属于炼丹师，凭个人洞见就能改天换地。2.0属于制药厂，把突破变成日常，把个人能力沉淀为组织能力。

Anthropic封禁OpenClaw那天，一位开发者在Reddit吐槽："我的Claude订阅废了，但M2.5的代码补全居然更跟手。"这条评论被点了三千多个赞，然后沉了下去——没人再提。