MiniMax M2.5：龙虾御用，Agent 永不停机|agent|m2.5|minimax|编程|调用|龙虾

2026年春节前这周，可以称为中国 AI 全年成果大展。

一个接一个，根本停不下来。

昨天 MiniMax 也发布了 M2.5，激活参数和 M2.1 一样只有 10B。

M2.1 是小龙虾作者 Peter 最推荐的开源模型。

M2.5 相比 M2.1 是一次快速的进化，在编程领域最具代表性的 SWE-Bench Verified 上，M2 系列的进步速度是所有模型系列里最快的，超过了 Claude、GPT 和 Gemini。

Peter 把 Opus 作为主力模型，MiniMax 作为 fallback，当 Opus 的 token 用完了，自动切换到 MiniMax 继续跑。

而且他不只是云端调用。他在自己的 2 台 Mac Studio 上用 MiniMax 跑本地推理，不依赖模型厂的套餐，完全本地化，龙虾永远不掉线。

能在本地跑起来，靠的是 M2.5 在一系列旗舰模型里，拥有最小的激活参数。

M2.5 的激活参数只有 10B。作为对比，GLM-5 激活 40B，Kimi K2.5 大约 50B，DeepSeek V3.2 大约 30B。

模型的激活参数虽小，但 Agent 能力却不俗，Peter 以及很多用户实测下来，MiniMax 是小龙虾里效果最好的开源模型。

参数小带来的好处是连锁反应：推理速度达到 100 TPS，几乎是主流旗舰模型的两倍。以这个速度连续工作一小时，成本只要 1 美金。如果降到 50 TPS，只要 0.3 美金。

这意味着让一个复杂 Agent 无限运行下去，在经济上变得完全可行了。

M2.5 的工具调用能力非常强悍，在多项工具调用的指标均为头部水平。搜索是 Agent 最常用的工具，MiniMax 为此还自建了一个评测集 RISE（Realistic Interactive Search Evaluation），专门测真实专业任务上的搜索能力。

相比 M2.1 的提升也非常明显。在 BrowseComp、Wide Search、RISE 多项任务上，M2.5 用更少的搜索轮次拿到了更好的结果，轮次消耗少了大约 20%。模型学会了用更短的路径逼近答案。

海外开发者 Tom Osman 用 Clawdbot × MiniMax 重构日常工作流。他在 Telegram、Slack、WhatsApp、iMessage 上都部署了龙虾，通过语音或文字随时下指令。一个典型的工作日里，他会让龙虾分析网站、调研信息、撰写博客、更新元数据、起草社交帖子、发送邮件，所有任务并行跑，他只需要在不同的 Agent 之间切换对话。

他对 MiniMax 的评价是：在工具调用方面表现非常出色，而且相当准确。用的是每月 10 美金的 Coding Plan，用量远没到上限。

10B 的尺寸天然适合这类场景。Agent 要 7×24 小时不停地跑，模型越小，持续运行的成本越低，可行性越高。龙虾作者 Peter 选 MiniMax 做 Opus 的 fallback，本质上就是看中了这一点：

当你需要一个 Agent 一直跑下去的时候，10B 的模型能让你真的跑得起。

在我的实际测试中，我让 Minimax M2.5 来跑一个测试任务。

去监控一下每天有哪些热度最高的小龙虾的 skill，它完成得非常好。

编程和泛用性

编程方面，M2.5 相比 M2.1 的进步巨大，SWE-bench Verified 80.2%，Multi-SWE-Bench 51.3% 拿了全行业第一。

在提升能力的同时，还同时提升了推理速度。端到端完成 SWE-bench 任务从 M2.1 的 31.3 分钟降到 22.8 分钟，快了 37%，跟 Opus 4.6 的 22.9 分钟几乎一样。每个任务的 token 消耗从 3.72M 降到 3.52M。变快了，还变省了。