2026年春节前这周,可以称为中国 AI 全年成果大展。

一个接一个,根本停不下来。

昨天 MiniMax 也发布了 M2.5,激活参数和 M2.1 一样只有 10B。

M2.1 是小龙虾作者 Peter 最推荐的开源模型。

M2.5 相比 M2.1 是一次快速的进化,在编程领域最具代表性的 SWE-Bench Verified 上,M2 系列的进步速度是所有模型系列里最快的,超过了 Claude、GPT 和 Gemini。

打开网易新闻 查看精彩图片

Peter 把 Opus 作为主力模型,MiniMax 作为 fallback,当 Opus 的 token 用完了,自动切换到 MiniMax 继续跑。

而且他不只是云端调用。他在自己的 2 台 Mac Studio 上用 MiniMax 跑本地推理,不依赖模型厂的套餐,完全本地化,龙虾永远不掉线。

能在本地跑起来,靠的是 M2.5 在一系列旗舰模型里,拥有最小的激活参数。

M2.5 的激活参数只有 10B。作为对比,GLM-5 激活 40B,Kimi K2.5 大约 50B,DeepSeek V3.2 大约 30B。

模型的激活参数虽小,但 Agent 能力却不俗,Peter 以及很多用户实测下来,MiniMax 是小龙虾里效果最好的开源模型。

参数小带来的好处是连锁反应:推理速度达到 100 TPS,几乎是主流旗舰模型的两倍。以这个速度连续工作一小时,成本只要 1 美金。如果降到 50 TPS,只要 0.3 美金。

这意味着让一个复杂 Agent 无限运行下去,在经济上变得完全可行了。

Agent 和工具调用
打开网易新闻 查看精彩图片
Agent 和工具调用

M2.5 的工具调用能力非常强悍,在多项工具调用的指标均为头部水平。搜索是 Agent 最常用的工具,MiniMax 为此还自建了一个评测集 RISE(Realistic Interactive Search Evaluation),专门测真实专业任务上的搜索能力。

相比 M2.1 的提升也非常明显。在 BrowseComp、Wide Search、RISE 多项任务上,M2.5 用更少的搜索轮次拿到了更好的结果,轮次消耗少了大约 20%。模型学会了用更短的路径逼近答案。

打开网易新闻 查看精彩图片

海外开发者 Tom Osman 用 Clawdbot × MiniMax 重构日常工作流。他在 Telegram、Slack、WhatsApp、iMessage 上都部署了龙虾,通过语音或文字随时下指令。一个典型的工作日里,他会让龙虾分析网站、调研信息、撰写博客、更新元数据、起草社交帖子、发送邮件,所有任务并行跑,他只需要在不同的 Agent 之间切换对话。

他对 MiniMax 的评价是:在工具调用方面表现非常出色,而且相当准确。用的是每月 10 美金的 Coding Plan,用量远没到上限。

10B 的尺寸天然适合这类场景。Agent 要 7×24 小时不停地跑,模型越小,持续运行的成本越低,可行性越高。龙虾作者 Peter 选 MiniMax 做 Opus 的 fallback,本质上就是看中了这一点:

当你需要一个 Agent 一直跑下去的时候,10B 的模型能让你真的跑得起。

在我的实际测试中,我让 Minimax M2.5 来跑一个测试任务。

去监控一下每天有哪些热度最高的小龙虾的 skill,它完成得非常好。

编程和泛用性

编程方面,M2.5 相比 M2.1 的进步巨大,SWE-bench Verified 80.2%,Multi-SWE-Bench 51.3% 拿了全行业第一。

在提升能力的同时,还同时提升了推理速度。端到端完成 SWE-bench 任务从 M2.1 的 31.3 分钟降到 22.8 分钟,快了 37%,跟 Opus 4.6 的 22.9 分钟几乎一样。每个任务的 token 消耗从 3.72M 降到 3.52M。变快了,还变省了。

打开网易新闻 查看精彩图片

还有个很有趣的点是 M2.5 在不同编程客户端里的泛用性很强。在 Droid 上跑 SWE-Bench,M2.5 是 79.7(Opus 4.6 是 78.9);在 OpenCode 上是 76.1(Opus 4.6 是 75.9),这样也就不太依赖 Claude Code 这而已的闭源脚手架了。

能提升对 OpenCode 的支持真的是很好的一件事。

OpenCode 是 Claude Code 的开源平替,安装简单,上手容易。

而且里面的 MiniMax M2.5 是限时免费的,都不需要配置。

我让它写了一个 2026 年的春运实时监控,每小时自动监控并更新网页,得到的网页是这样的:

从工具到同事:Agent 的下一步
打开网易新闻 查看精彩图片
从工具到同事:Agent 的下一步

MiniMax 给 M2.5 的定位是真实世界的好同事。

这是因为 Agent 是未来软件的使用者,是每个团队里都会有的新同事。

这个转变一旦发生,对模型的要求就彻底变了。

自主 Agent 时代,Agent 要 7×24 小时不停地跑,一天几百次推理调用,你在乎的是:能力够不够用、速度快不快、成本扛不扛得住。

那雇佣 Agent 一年大概需要多少钱呢?

M2.5 有两个版本,快速版本在以每秒输出 100 个 token 的情况下,连续工作一小时只需要 1 美金,而慢速版在每秒输出 50 个 token 的情况下,只需要 0.3 美金。

算下来,雇佣 Agent 让它们 7x24 地工作,每个 Agent 的月薪才 200 美金,你只需要花一万美金,就能获得四个永不休息的同事。

未来几年算力供给是线性增长,需求是指数增长,Token 只会越来越稀缺。

在这个大背景下,自主 Agent 时代能 7x24 持续运转极为重要。

因为只有这样,Agent 才能走向真实世界,成为你真正的同事。