今天这篇本来早上就该发的

MiniMax 凌晨发了 M2.5,一看数据就知道得写,但这两天实在有点累,拖到晚上才弄出来。先跟 MiniMax 的朋友们说一句,恭喜,这次发的东西确实硬

有个事情官方没说:M2.5 为 229B,激活只有 10B

 https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json
打开网易新闻 查看精彩图片
https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json

但在SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3%(第一),BrowseComp 76.3%。编程跟 Opus 4.6 基本持平,多语言编程直接拿了全行业最高。搜索和工具调用也到了顶尖水平

 M2.5 核心 benchmark 一览
打开网易新闻 查看精彩图片
M2.5 核心 benchmark 一览

第一梯队里参数规模最小的旗舰模型。10B 激活参数打到了跟 Opus 4.6 一个级别。做私有化部署的朋友可以品品这个显存占用和推理能效比

看看经济账:M2.5 有两个版本,能力完全一样,速度和价格不同

快的叫 M2.5-Lightning,100 TPS,每百万 token 输入 0.3 美金、输出 2.4 美金。
慢的叫 M2.5,50 TPS,价格再砍一半,每百万 token 输入 0.3 美金、输出 1.2 美金。

两个版本都支持缓存,按输出价格算,M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20

打开网易新闻 查看精彩图片

换成更具象的数字:在以每秒输出 100 个 token 的情况下,连续工作一小时只需要 1 美金,而在每秒输出 50 个 token 的情况下,只需要 0.3 美金。

1 万美金,够一个 Agent 连续跑 4 年

这个账算得过来之后,很多之前「舍不得让 Agent 长时间跑」的场景就打开了。跑完一整套 SWE-Bench Verified 评测,M2.5 单任务的总成本只有 Opus 4.6 的 10%

 编程 benchmark
打开网易新闻 查看精彩图片
编程 benchmark

有个细节挺有意思。M2.5 在训练过程中自己演化出了一个「写 Spec」的行为,动手写代码之前会先从架构师视角把功能、结构、UI 设计全部拆解规划一遍。这个行为是涌现出来的,不是手动设计的

训练覆盖了 10 多种语言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby),在超过 20 万个真实环境上跑

能力不只是修 bug,从 0 到 1 的系统设计、1 到 10 的开发、10 到 90 的功能迭代、90 到 100 的 code review 和系统测试,全流程都能接。覆盖 Web、Android、iOS、Windows 的全栈项目,包含 Server 端 API、业务逻辑、数据库

MiniMax 把 VIBE benchmark 升级了一个 Pro 版,任务复杂度和领域覆盖度都拉高了不少。在 VIBE Pro 上,M2.5 跟 Opus 4.5 表现相当

 VIBE Pro 对比
打开网易新闻 查看精彩图片
VIBE Pro 对比

脚手架泛化性也验过了。在 Droid 上跑 SWE-Bench,M2.5 是 79.7,Opus 4.6 是 78.9。在 OpenCode 上,M2.5 是 76.1,Opus 4.6 是 75.9。换了脚手架照样打

 搜索 benchmark
打开网易新闻 查看精彩图片
搜索 benchmark

MiniMax 自建了一个评测集叫 RISE(Realistic Interactive Search Evaluation),专门测真实专业任务上的搜索能力。逻辑是这样的:人类专家做搜索任务的时候,用搜索引擎本身只占一小部分,大量工作是在专业网页里深度探索。M2.5 在这类场景上表现很强

比上一代还省。在 BrowseComp、Wide Search、RISE 多项任务上,M2.5 用更少的搜索轮次拿到了更好的结果,轮次消耗比 M2.1 少了大约 20%

模型学会了用更短的路径逼近答案

 办公场景对比
打开网易新闻 查看精彩图片
办公场景对比

这块 MiniMax 找了金融、法律、社科领域的资深从业者一起做训练数据,把行业的隐性知识带进了模型训练。Word 排版、PPT 编辑、Excel 金融建模这些场景上有明显提升

他们内部的 GDPval-MM 评测框架会同时评交付质量和 Agent 执行轨迹的专业性,还监控全流程 token 成本。对比主流模型平均胜率 59.0%

速度

M2.5 比 M2.1 完成 SWE-Bench 任务快了 37%

具体来说:端到端运行时间从平均 31.3 分钟降到 22.8 分钟,跟 Opus 4.6 的 22.9 分钟几乎一样。每个任务的 token 消耗从 3.72M 降到了 3.52M

变快了,还变省了

迭代速度

108 天,M2、M2.1、M2.5 三个版本

在 SWE-Bench Verified 上,M2 系列的进步曲线斜率比 Claude、GPT、Gemini 系列都陡

 M2 系列 vs 同行的进步速度,自己看斜率
打开网易新闻 查看精彩图片
M2 系列 vs 同行的进步速度,自己看斜率

MiniMax 说「行业最快的进步速度」,从这张图看,不虚

Agent RL

技术层面简单记几个点

M2.5 的核心训练框架叫 Forge,原生 Agent RL 框架。通过引入中间层完全解耦了训推引擎和 Agent,支持任意 Agent 脚手架接入。这让模型在不同编程工具和 Agent 环境之间的泛化性很强

 Forge 架构
打开网易新闻 查看精彩图片
Forge 架构

算法上用的是他们去年初提出的 CISPO 算法保障 MoE 模型训练稳定性,加上 Process Reward 做全链路监控,再用真实任务耗时作为 Reward 来平衡效果和速度。训练侧通过树状合并样本实现了大约 40 倍加速

 Agent RL 算法与 Reward 设计
打开网易新闻 查看精彩图片
Agent RL 算法与 Reward 设计

MiniMax 说后续会单独发一篇技术博客详细讲 RL scaling,到时候可以再看看

MiniMax 内部在用

MiniMax 内部已经全面上线 M2.5,覆盖研发、产品、销售、HR、财务
整体任务的 30% 由 M2.5 自主完成,编程场景里新提交代码的 80% 由模型生成

产品侧,MiniMax Agent 做了一套标准化的 Office Skills,在 MAX 模式下会根据文件类型自动加载对应能力。用户还可以把 Office Skills 和行业经验结合起来创建可复用的「专家」(Expert),目前平台上已经有超过 1 万个用户创建的 Expert

模型权重会在 HuggingFace 开源,支持本地部署

 更多 benchmark 还没完...但先碎觉
打开网易新闻 查看精彩图片
更多 benchmark 还没完...但先碎觉

这两天,国产模型扎堆发布,GLM-5、DeepSeek 更新、M2.5,春节前的密度有点离谱

以及....这些 AI 厂的春节发布,还没完

然后...晚安...碎觉...