艾略特在《荒原》里写"四月是最残忍的季节",2024年4月的AI行业,这句诗有了新注脚。

这是大模型史上最拥挤的一个月。全球前沿模型与重大版本发布了超过15款,4月16日到24日,9天内就有9款大模型扎堆亮相:Claude Opus 4.7、Qwen3.6-Max、Kimi K2.6、GPT-Image 2、蚂蚁Ling-2.6-flash、小米MiMo-V2.5-Pro、腾讯Hy3 Preview、ChatGPT-5.5、DeepSeek V4。

打开网易新闻 查看精彩图片

五一假期后,全球最大的模型分发市场OpenRouter公布了最新开发者市场份额。以token消耗量计,9款新发布大模型里,4款冲进前五:腾讯14.7%排第一,Anthropic 13.6%第三,DeepSeek 10.3%第四,OpenAI 10.0%第五。

腾讯登顶有限免的因素,但持续保持在榜单前列,说明重建后的混元模型已经立住了——限免只是入口,产品力才是留存。相比之下,升级了代码能力的ChatGPT 5.5仅排第五,倒是有些意外。

比排名更重要的是趋势:模型的参数和跑分,已经不是评判大模型的统一标准了。今年行业都在讲代码能力,但公认代码更强的Anthropic和OpenAI,排名反而不如近期拉响红色警报、紧急提升代码能力的谷歌。

这说明什么?对大模型而言,能力之外的"资本"并不等于零,而且越来越重要了。

打开4月发布的技术博客,你会反复看到这几个关键词:推理、代码、Agent、长上下文。它们不是孤立的能力,而是一条能力链——让大模型从"会聊天的机器"变成"能独立完成复杂任务的助手"。

推理能力决定脑子好不好使。一件事有五个步骤、中间还有几个坑,能不能想清楚再动手?长上下文决定记性好不好。200页的合同扔过去,能否前后对照分析,还是看了后面忘了前面?代码能力意味着实操硬技能,能把想法变成真实输出。Agent能力则决定能否独立干活——不需要一步一步指挥,只需说"帮我把这件事搞定",它自己拆解任务、制定步骤、遇到问题自己调整。

行业共识已经明确:AI正从Chatbot转向Agent。但问题是,具备做事能力只是基本要求,训练出来的能力用来做什么,才是每个大模型的必答题。

OpenRouter榜单前几名——Anthropic与谷歌,DeepSeek与腾讯——的选择就是典型案例。中美各两家,新兴大模型公司与传统互联网公司各两家。大模型的发展走入小径分岔的花园,每个玩家都要押注不同路径,找到、放大自己的非对称优势。

Anthropic:最强生产力工具,撬动高质量客户

作为势头最猛的大模型公司,Anthropic的路径很清晰。"科学技术是第一生产力",这句话正在被严格践行。Claude Opus 4.7主打的"代码能力"和"可靠性",都以生产力第一为导向。

很多人吐槽Claude价格贵,但主流AI编程工具Cursor、Windsurf、Replit默认调用的模型仍是Claude。Opus 4.7发布后,Cursor CEO Michael Truell提到:"在CursorBench上,Opus 4.7从58%跃升到70%,这个跃升意义重大。"

这次Anthropic还做了一个特别选择:主动降低模型的进攻性网络安全能力。明明可以更强,为什么要自我设限?因为要照顾核心客户需求。

金融机构、医疗系统、法律事务所,这些客户不仅要求干活能力强,还要安全可靠。为此,Anthropic甚至雪藏了最强的Mythos模型——因为能力"过于危险",会打破网络攻防原有平衡,不向普通公众发布。

不做平台,不抢入口,只做最强且可靠的生产力模型,卖给最看重质量的那批客户。Claude用实力证明:贵是你的缺点,不是它的缺点。

DeepSeek:极致性价比,构建开源生态

与Opus 4.7前后脚发布的DeepSeek V4堪称"价格屠夫"。标准定价下,V4-Pro成本只有Opus 4.7的1/6;输入命中缓存后,变成1/8。

综合能力上,DeepSeek V4与两个月前的Opus 4.6、ChatGPT-5.4旗鼓相当。高性能+低价带来极致性价比,V4发布后,港股AI明