商人闫俊杰，找到捷径|kimi|minimax|复杂性|模态|闫俊杰

截至昨天下午，OpenClaw仅用一百天，已经超越所有GitHub开源软件项目的星标数，成为史上最受欢迎开源项目。

这一世界顶流项目，意外成为中国模型厂商对外叙事的加速器。刚过去不久的春节，被视为资本预期的集中表达窗口，叠加模型厂商的竞赛，Kimi估值从40多亿美金上涨到百亿美元，近20天累计收入已超过2025年全年总收入。

MiniMax和智谱市值也飙升到3000多亿港币，不过截止目前，MiniMax市值已回落到2500多亿港元。

昨天MiniMax发布年报称，2025年中国内地收入2138万美元，占比27.0%，海外收入5766万美元，占比73.0%。MiniMax2月ARR也已突破1.5亿美元。

值得关注的是，除了原有C端产品收入外，体现B端收入的开放平台及其他企业服务收入达到近2600万美元，占比接近三分之一，增速最快。这被视为MinMax有了更稳定的收入结构。

MinMax创始人闫俊杰是个追求极致效率的人，其中包括模型迭代效率，token消耗效率，甚至还体现在他仅用四年就带领MiniMax成功上市。外界通常认为他是一位纯粹的技术人员，实际上他的商业嗅觉也异常灵敏。

闫俊杰依靠token经济学，在过去追求智能上限的全方位叙事中，分化出一条自己的道路。他也因此提出了一个新问题，优先成本考虑的技术路线，在追求智能上限的道路上是否是一个更优的选择。

至少2026年春节，模型厂商的集体冲榜，已经给出了某些信号。

模型免费策略冲榜

今年1月初，MiniMax为了推广新模型M2.1，找到许多开发者推广，最知名的一位是OpenClaw创始人Peter。早在Peter的龙虾项目尚未火爆前，MiniMax就曾邀约Peter免费体验M2.1模型，自此建立连接。

Peter感慨于MiniMax M2.1的低价，多次发布X帖子推荐使用M2.1模型，还在和网友互动中大力推荐MiniMax。“Claude opus是王者，MiniMax是个不错的备选。”Peter也有推荐Kimi K2.5和智谱的GLM5，不过提及频率没有MiniMax高。

这或许有个人偏好，也可能因为MiniMax 的工作人员和Peter互动更频繁。这种细致的经营策略，确实让MiniMax迅速在开发者出圈。

一位国内大厂技术人员告诉我们，他在部署龙虾项目时，就是因为看到Peter的推荐，所以充值了50刀MiniMax M2.1，M2.5发布后还购买了10刀/月的Coding Plan。

优惠力度也是一个重要策略。2月1日MiniMax宣布，直接为龙虾用户推出了7天免费方案。12天后，为了给M2.5新模型预热，MiniMax还联合AI编程工具Kilocode，推出一周免费试用体验。

OpeRouter数据显示，经过一周的免费方案后，MiniMax M2.5在龙虾上的调用量直线上升。从2月23日开始，原本排名第一的Kimi K2.5每日调用量有所下滑，M2.5反超K2.5，成为每天调用量最大的模型。

实际上，MiniMax的模型调用定价确实非常便宜。根据OpenRouter3月2日的数据，MiniMax M2.5的有效定价输入0.120美元/百万token，输出价格是1.37美元/百万token。而Kimi K2.5的有效定价输入0.232美元/百万token，输出价格是2.77美元/百万token，智谱的GLM5输入价格是0.669美元/百万token，输出价格是3.16美元/百万token。

对开发者而言，使用国产模型意味着量大管饱，成本几乎是海外顶级模型Claude Opus 4.6的1/20。

当然，MiniMax M2.5定价便宜，是因为它的参数量相比Kimi、智谱要小得多。通常而言，参数量越小模型的聪明程度相对越低，消耗的算力成本也更低。

不过短期来看，MiniMax 的策略取得不错的效果。OpenRouter数据显示，2月token调用量总排名中，M2.5以5.64T tokens的数据排名第一。

冲榜OpenRouter 获得较高的排名，与其说是模型能力的胜利，不如说是一种商业策略的成功。

一位创业者告诉我们，OpenRouter并不能代表AI调用量的整体情况，因为它只是一个中转平台。大部分请求还是直接使用官方接口。他根据Claude模型营收和token单价的方式去估算，OpenRouter的流量只占Claude模型总流量的5%。

国产模型厂商集体冲榜OpenRouter，是因为这是唯一公开排行数据的中转平台，冲榜背后看中的更是开发者生态以及商业收入叙事。它会扩大开发者使用口碑，迅速在海外出圈。

这一点对MiniMax尤为重要。当MiniMax的市值冲上3000亿甚至更高时，它需要证明自己的造血能力，打消外界对其PS高达数百倍的质疑。

极度精明和务实

尽管闫俊杰一再强调，MiniMax是一家技术驱动的公司，他也被塑造成AGI信徒，事实上MiniMax底层逻辑依然更偏重商业化考量。

这或许和闫俊杰早年在商汤工作的经历有关，商汤成立7年才上市，长期高投入低盈利。MiniMax仅用4年就迅速上市，试图用二级市场资金反哺研发，避免走商汤式“长期烧钱、盈利滞后”的老路。

根据公开资料梳理，闫俊杰在模型发展路径上的核心理念与追求AGI的厂商存在显著差异。他更早地将战略重心从单纯追求模型“更聪明”，转向聚焦可量化的“效果”产出。而效果直接与商业化收入挂钩。

对闫俊杰来说，追求token效率已经大于追求智能上限。

2025年1月，MiniMax发布文本模型MiniMax-Text-01，押注长上下文，自称开启Agent时代。该模型放弃业界普遍使用的Transformer架构，改用线性注意力结构。这个新架构相当于简化计算过程，当文本非常长所需算力更小，但在捕捉复杂依赖关系上不如非线性注意力机制。

MiniMax-Text-01模型只强调Agent能力，代码能力不足。从投入产出策略上看，代码能力赛道强者如云，对算法要求也更高，Benchmark排名极易形成压制叙事。一直到9个月后M2模型公布时，MiniMax方补齐代码能力。

闫俊杰对成本效率的极致追求，也体现在后来发布的M2模型上。闫俊杰曾提出“不可能三角”理论，高度评价M2是“大巧若拙”。

“海外最好的模型可以有不错的效果，但是价格非常贵且推理速度比较慢；国内的模型价格也相对便宜，但是效果和推理速度有差距。”闫俊杰称，能不能有一款模型能在效果、价格和速度上能取得比较好的平衡，从而让更多的人能受益于Agent时代的智能提升，M2正是不可能三角平衡下的产物。

后续M2模型的更新迭代中，MiniMax没有追求高参数，而是继续选择在算力优化下的性能提升。2025年1月发布的MiniMax-01是4000亿参数，而一年后发布M2.5总参数量只有2300亿，相当于同时期发布的Kimi K2.5(1万亿)的1/5，智谱GLM5的1/3。

即使在智能体能力上，MiniMax M2.5的技术路线和Kimi K2.5也不同。Kimi K2.5除了编码能力和视觉理解能力升级外，最大的不同是首次引入“Agent集群”能力，也就是根据任务需求，现场可以调度多达100个分身，并行处理1500个步骤。这也让Kimi K2.5在处理复杂任务时，具备更快的速度和效率。

MiniMax的M2.5同样强调深度搜索能力和token消耗的效率，在这方面，它公布的路径不同于Kimi K2.5，而是强调用更精准的搜索轮次，降低无效搜索，优化真实效果。

很明显，一个用并行算力换取任务完成率和速度，用规模解决复杂性，另一个是通过路径优化降低复杂性。这是2025年模型行业产生的巨大分化。

闫俊杰的商业感觉再次得到证明。一位MiniMax内部人告诉我们：“M2.5只是M2大版本里迭代出的小版本，OpenClaw智能体爆发，带来市场对token的需求激增，市场也急需要一个能够满足需求、而token消耗小的模型。所以迅速推出M2.5。”

闫俊杰迅速给M2.5定义，称其为第一个能支持agent无限运行、没有成本负担的模型。

这也意味着MiniMax的叙事主线，依然是押注token效率，而不是智能上限。这个token效率，最终反映到MiniMax2025年的年报里，成了漂亮的数字。MiniMax用428名员工，花了2.5亿美金训练支出，创造了8000万美元收入。

潜在的代价

MiniMax追求技术效率的路线，相比以往，也不是完全没有潜在的代价。

在当前技术范式下，参数规模更大的模型，仍然具备更高的知识容量，也具备更复杂的推理潜力和更强的跨任务泛化能力。一旦头部万亿级模型形成代际差距，MiniMax 的效率优势可能会被断层碾压。

不少业内人士认为，模型性能效果上，仍然存在一分价钱一分货的铁律。大就是好，参数越大就会越聪明。

多位部署OpenClaw的技术人员告诉我们，体验完更便宜的M2.5模型，发现它推理表现不错，但在代码能力上容易出问题，复杂任务的成功率也不高。

我们获悉，2026年MiniMax仍会重点发力多模态，M3模型将会加速多模态融合，具备视觉理解能力。

这个赛道也非常拥挤，拥有更多资源、人才和生态优势的字节、阿里、腾讯和百度，都相继推出原生多模态模型。早在去年4月，豆包深度思考模型已具备视觉推理能力，今年2月，字节发布首个原生支持文本、图像、音频与视频四模态输入的生成模型Seedance2.0，成为2026年开春真正的现象级产品。