打开网易新闻 查看精彩图片

截至昨天下午,OpenClaw仅用一百天,已经超越所有GitHub开源软件项目的星标数,成为史上最受欢迎开源项目。

这一世界顶流项目,意外成为中国模型厂商对外叙事的加速器。刚过去不久的春节,被视为资本预期的集中表达窗口,叠加模型厂商的竞赛,Kimi估值从40多亿美金上涨到百亿美元,近20天累计收入已超过2025年全年总收入。

MiniMax和智谱市值也飙升到3000多亿港币,不过截止目前,MiniMax市值已回落到2500多亿港元。

昨天MiniMax发布年报称,2025年中国内地收入2138万美元,占比27.0%,海外收入5766万美元,占比73.0%。MiniMax2月ARR也已突破1.5亿美元。

值得关注的是,除了原有C端产品收入外,体现B端收入的开放平台及其他企业服务收入达到近2600万美元,占比接近三分之一,增速最快。这被视为MinMax有了更稳定的收入结构。

MinMax创始人闫俊杰是个追求极致效率的人,其中包括模型迭代效率,token消耗效率,甚至还体现在他仅用四年就带领MiniMax成功上市。外界通常认为他是一位纯粹的技术人员,实际上他的商业嗅觉也异常灵敏。

闫俊杰依靠token经济学,在过去追求智能上限的全方位叙事中,分化出一条自己的道路。他也因此提出了一个新问题,优先成本考虑的技术路线,在追求智能上限的道路上是否是一个更优的选择。

至少2026年春节,模型厂商的集体冲榜,已经给出了某些信号。

01

模型免费策略冲榜

今年1月初,MiniMax为了推广新模型M2.1,找到许多开发者推广,最知名的一位是OpenClaw创始人Peter。早在Peter的龙虾项目尚未火爆前,MiniMax就曾邀约Peter免费体验M2.1模型,自此建立连接。

Peter感慨于MiniMax M2.1的低价,多次发布X帖子推荐使用M2.1模型,还在和网友互动中大力推荐MiniMax。“Claude opus是王者,MiniMax是个不错的备选。”Peter也有推荐Kimi K2.5和智谱的GLM5,不过提及频率没有MiniMax高。

这或许有个人偏好,也可能因为MiniMax 的工作人员和Peter互动更频繁。这种细致的经营策略,确实让MiniMax迅速在开发者出圈。

一位国内大厂技术人员告诉我们,他在部署龙虾项目时,就是因为看到Peter的推荐,所以充值了50刀MiniMax M2.1,M2.5发布后还购买了10刀/月的Coding Plan。

优惠力度也是一个重要策略。2月1日MiniMax宣布,直接为龙虾用户推出了7天免费方案。12天后,为了给M2.5新模型预热,MiniMax还联合AI编程工具Kilocode,推出一周免费试用体验。

打开网易新闻 查看精彩图片

OpeRouter数据显示,经过一周的免费方案后,MiniMax M2.5在龙虾上的调用量直线上升。从2月23日开始,原本排名第一的Kimi K2.5每日调用量有所下滑,M2.5反超K2.5,成为每天调用量最大的模型。

实际上,MiniMax的模型调用定价确实非常便宜。根据OpenRouter3月2日的数据,MiniMax M2.5的有效定价输入0.120美元/百万token,输出价格是1.37美元/百万token。而Kimi K2.5的有效定价输入0.232美元/百万token,输出价格是2.77美元/百万token,智谱的GLM5输入价格是0.669美元/百万token,输出价格是3.16美元/百万token。

对开发者而言,使用国产模型意味着量大管饱,成本几乎是海外顶级模型Claude Opus 4.6的1/20。

打开网易新闻 查看精彩图片

当然,MiniMax M2.5定价便宜,是因为它的参数量相比Kimi、智谱要小得多。通常而言,参数量越小模型的聪明程度相对越低,消耗的算力成本也更低。

不过短期来看,MiniMax 的策略取得不错的效果。OpenRouter数据显示,2月token调用量总排名中,M2.5以5.64T tokens的数据排名第一。

冲榜OpenRouter 获得较高的排名,与其说是模型能力的胜利,不如说是一种商业策略的成功。

一位创业者告诉我们,OpenRouter并不能代表AI调用量的整体情况,因为它只是一个中转平台。大部分请求还是直接使用官方接口。他根据Claude模型营收和token单价的方式去估算,OpenRouter的流量只占Claude模型总流量的5%。

国产模型厂商集体冲榜OpenRouter,是因为这是唯一公开排行数据的中转平台,冲榜背后看中的更是开发者生态以及商业收入叙事。它会扩大开发者使用口碑,迅速在海外出圈。

这一点对MiniMax尤为重要。当MiniMax的市值冲上3000亿甚至更高时,它需要证明自己的造血能力,打消外界对其PS高达数百倍的质疑。

02

极度精明和务实

尽管闫俊杰一再强调,MiniMax是一家技术驱动的公司,他也被塑造成AGI信徒,事实上MiniMax底层逻辑依然更偏重商业化考量。

这或许和闫俊杰早年在商汤工作的经历有关,商汤成立7年才上市,长期高投入低盈利。MiniMax仅用4年就迅速上市,试图用二级市场资金反哺研发,避免走商汤式“长期烧钱、盈利滞后”的老路。

根据公开资料梳理,闫俊杰在模型发展路径上的核心理念与追求AGI的厂商存在显著差异。他更早地将战略重心从单纯追求模型“更聪明”,转向聚焦可量化的“效果”产出。而效果直接与商业化收入挂钩。

对闫俊杰来说,追求token效率已经大于追求智能上限。

2025年1月,MiniMax发布文本模型MiniMax-Text-01,押注长上下文,自称开启Agent时代。该模型放弃业界普遍使用的Transformer架构,改用线性注意力结构。这个新架构相当于简化计算过程,当文本非常长所需算力更小,但在捕捉复杂依赖关系上不如非线性注意力机制。

MiniMax-Text-01模型只强调Agent能力,代码能力不足。从投入产出策略上看,代码能力赛道强者如云,对算法要求也更高,Benchmark排名极易形成压制叙事。一直到9个月后M2模型公布时,MiniMax方补齐代码能力。

闫俊杰对成本效率的极致追求,也体现在后来发布的M2模型上。闫俊杰曾提出“不可能三角”理论,高度评价M2是“大巧若拙”。

海外最好的模型可以有不错的效果,但是价格非常贵且推理速度比较慢;国内的模型价格也相对便宜,但是效果和推理速度有差距。”闫俊杰称,能不能有一款模型能在效果、价格和速度上能取得比较好的平衡,从而让更多的人能受益于Agent时代的智能提升,M2正是不可能三角平衡下的产物。

后续M2模型的更新迭代中,MiniMax没有追求高参数,而是继续选择在算力优化下的性能提升。2025年1月发布的MiniMax-01是4000亿参数,而一年后发布M2.5总参数量只有2300亿,相当于同时期发布的Kimi K2.5(1万亿)的1/5,智谱GLM5的1/3。

即使在智能体能力上,MiniMax M2.5的技术路线和Kimi K2.5也不同。Kimi K2.5除了编码能力和视觉理解能力升级外,最大的不同是首次引入“Agent集群”能力,也就是根据任务需求,现场可以调度多达100个分身,并行处理1500个步骤。这也让Kimi K2.5在处理复杂任务时,具备更快的速度和效率。

MiniMax的M2.5同样强调深度搜索能力和token消耗的效率,在这方面,它公布的路径不同于Kimi K2.5,而是强调用更精准的搜索轮次,降低无效搜索,优化真实效果。

很明显,一个用并行算力换取任务完成率和速度,用规模解决复杂性,另一个是通过路径优化降低复杂性。这是2025年模型行业产生的巨大分化。

闫俊杰的商业感觉再次得到证明。一位MiniMax内部人告诉我们:“M2.5只是M2大版本里迭代出的小版本,OpenClaw智能体爆发,带来市场对token的需求激增,市场也急需要一个能够满足需求、而token消耗小的模型。所以迅速推出M2.5。”

闫俊杰迅速给M2.5定义,称其为第一个能支持agent无限运行、没有成本负担的模型。

这也意味着MiniMax的叙事主线,依然是押注token效率,而不是智能上限。这个token效率,最终反映到MiniMax2025年的年报里,成了漂亮的数字。MiniMax用428名员工,花了2.5亿美金训练支出,创造了8000万美元收入。

03

潜在的代价

MiniMax追求技术效率的路线,相比以往,也不是完全没有潜在的代价。

在当前技术范式下,参数规模更大的模型,仍然具备更高的知识容量,也具备更复杂的推理潜力和更强的跨任务泛化能力。一旦头部万亿级模型形成代际差距,MiniMax 的效率优势可能会被断层碾压。

不少业内人士认为,模型性能效果上,仍然存在一分价钱一分货的铁律。大就是好,参数越大就会越聪明。

多位部署OpenClaw的技术人员告诉我们,体验完更便宜的M2.5模型,发现它推理表现不错,但在代码能力上容易出问题,复杂任务的成功率也不高。

我们获悉,2026年MiniMax仍会重点发力多模态,M3模型将会加速多模态融合,具备视觉理解能力。

这个赛道也非常拥挤,拥有更多资源、人才和生态优势的字节、阿里、腾讯和百度,都相继推出原生多模态模型。早在去年4月,豆包深度思考模型已具备视觉推理能力,今年2月,字节发布首个原生支持文本、图像、音频与视频四模态输入的生成模型Seedance2.0,成为2026年开春真正的现象级产品。

去年11月,百度推出全新一代原生全模态文心5.0,支持全模态输入和输出。今年1月底,Kimi发布的K2.5,就是原生多模态架构的多模态模型,拥有万亿参数,具备视觉理解能力。2月16日,阿里也推出的Qwen3.5,主打多模态和自动干活。

中国模型独立厂商里,最大变量还有即将发布V4的DeepSeek,作为一个从去年7月一直推迟至今的模型,国内外技术圈都对其抱有极高的期待,期望它能再将模型的极致质价比推到更高的台阶。

假如DeepSeek超出预期,又会重新迎来大模型格局的变动。外媒传出,DeepSeek将在3月第一周发布新模型,而MiniMax 率先选择在3月2日发布财报,大概率是为了躲避DeepSeek新模型可能带来的流量冲击。

据雷锋网报道,3年前闫俊杰在杭州和梁文锋约过一顿饭。闫俊杰直言,自己和梁文锋还有不小的认知差距。后来梁文锋带着DeepSeek R1杀进市场,闫俊杰和MiniMax 遭受“DeepSeek 即将杀死大模型竞争”的舆论轰炸。

接下来DeepSeek新模型发布后又会带来什么,可能没人比闫俊杰更焦虑。

撰写|柳嘉

编辑|八尺

「白鲸实验室」原创文章