MiniMax M2.5 发布：10B 激活参数，打进头部模型|m2.5|minimax|大模型|算法|编程

今天这篇本来早上就该发的

MiniMax 凌晨发了 M2.5，一看数据就知道得写，但这两天实在有点累，拖到晚上才弄出来。先跟 MiniMax 的朋友们说一句，恭喜，这次发的东西确实硬

有个事情官方没说：M2.5 为 229B，激活只有 10B

https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json

但在SWE-Bench Verified 80.2%，Multi-SWE-Bench 51.3%（第一），BrowseComp 76.3%。编程跟 Opus 4.6 基本持平，多语言编程直接拿了全行业最高。搜索和工具调用也到了顶尖水平

第一梯队里参数规模最小的旗舰模型。10B 激活参数打到了跟 Opus 4.6 一个级别。做私有化部署的朋友可以品品这个显存占用和推理能效比

看看经济账：M2.5 有两个版本，能力完全一样，速度和价格不同

快的叫 M2.5-Lightning，100 TPS，每百万 token 输入 0.3 美金、输出 2.4 美金。
慢的叫 M2.5，50 TPS，价格再砍一半，每百万 token 输入 0.3 美金、输出 1.2 美金。

两个版本都支持缓存，按输出价格算，M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20

换成更具象的数字：在以每秒输出 100 个 token 的情况下，连续工作一小时只需要 1 美金，而在每秒输出 50 个 token 的情况下，只需要 0.3 美金。

1 万美金，够一个 Agent 连续跑 4 年

这个账算得过来之后，很多之前「舍不得让 Agent 长时间跑」的场景就打开了。跑完一整套 SWE-Bench Verified 评测，M2.5 单任务的总成本只有 Opus 4.6 的 10%

有个细节挺有意思。M2.5 在训练过程中自己演化出了一个「写 Spec」的行为，动手写代码之前会先从架构师视角把功能、结构、UI 设计全部拆解规划一遍。这个行为是涌现出来的，不是手动设计的

训练覆盖了 10 多种语言（Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby），在超过 20 万个真实环境上跑

能力不只是修 bug，从 0 到 1 的系统设计、1 到 10 的开发、10 到 90 的功能迭代、90 到 100 的 code review 和系统测试，全流程都能接。覆盖 Web、Android、iOS、Windows 的全栈项目，包含 Server 端 API、业务逻辑、数据库

MiniMax 把 VIBE benchmark 升级了一个 Pro 版，任务复杂度和领域覆盖度都拉高了不少。在 VIBE Pro 上，M2.5 跟 Opus 4.5 表现相当

脚手架泛化性也验过了。在 Droid 上跑 SWE-Bench，M2.5 是 79.7，Opus 4.6 是 78.9。在 OpenCode 上，M2.5 是 76.1，Opus 4.6 是 75.9。换了脚手架照样打

MiniMax 自建了一个评测集叫 RISE（Realistic Interactive Search Evaluation），专门测真实专业任务上的搜索能力。逻辑是这样的：人类专家做搜索任务的时候，用搜索引擎本身只占一小部分，大量工作是在专业网页里深度探索。M2.5 在这类场景上表现很强

比上一代还省。在 BrowseComp、Wide Search、RISE 多项任务上，M2.5 用更少的搜索轮次拿到了更好的结果，轮次消耗比 M2.1 少了大约 20%

模型学会了用更短的路径逼近答案

这块 MiniMax 找了金融、法律、社科领域的资深从业者一起做训练数据，把行业的隐性知识带进了模型训练。Word 排版、PPT 编辑、Excel 金融建模这些场景上有明显提升

他们内部的 GDPval-MM 评测框架会同时评交付质量和 Agent 执行轨迹的专业性，还监控全流程 token 成本。对比主流模型平均胜率 59.0%

速度

M2.5 比 M2.1 完成 SWE-Bench 任务快了 37%

具体来说：端到端运行时间从平均 31.3 分钟降到 22.8 分钟，跟 Opus 4.6 的 22.9 分钟几乎一样。每个任务的 token 消耗从 3.72M 降到了 3.52M

变快了，还变省了

迭代速度

108 天，M2、M2.1、M2.5 三个版本

在 SWE-Bench Verified 上，M2 系列的进步曲线斜率比 Claude、GPT、Gemini 系列都陡

MiniMax 说「行业最快的进步速度」，从这张图看，不虚

Agent RL

技术层面简单记几个点

M2.5 的核心训练框架叫 Forge，原生 Agent RL 框架。通过引入中间层完全解耦了训推引擎和 Agent，支持任意 Agent 脚手架接入。这让模型在不同编程工具和 Agent 环境之间的泛化性很强

算法上用的是他们去年初提出的 CISPO 算法保障 MoE 模型训练稳定性，加上 Process Reward 做全链路监控，再用真实任务耗时作为 Reward 来平衡效果和速度。训练侧通过树状合并样本实现了大约 40 倍加速

MiniMax 说后续会单独发一篇技术博客详细讲 RL scaling，到时候可以再看看

MiniMax 内部在用

MiniMax 内部已经全面上线 M2.5，覆盖研发、产品、销售、HR、财务
整体任务的 30% 由 M2.5 自主完成，编程场景里新提交代码的 80% 由模型生成

产品侧，MiniMax Agent 做了一套标准化的 Office Skills，在 MAX 模式下会根据文件类型自动加载对应能力。用户还可以把 Office Skills 和行业经验结合起来创建可复用的「专家」（Expert），目前平台上已经有超过 1 万个用户创建的 Expert

模型权重会在 HuggingFace 开源，支持本地部署

这两天，国产模型扎堆发布，GLM-5、DeepSeek 更新、M2.5，春节前的密度有点离谱

以及....这些 AI 厂的春节发布，还没完

然后...晚安...碎觉...

MiniMax M2.5 发布：10B 激活参数，打进头部模型

热搜

热门跟贴

热搜

热门跟贴

相关推荐

10倍速的一夜：智谱GLM-5官宣，MiniMax与DeepSeek的暗战

智谱GLM-5和Seedance 2.0，我愿看作国产大模型的双子星

iPhone20ProMax设计太猛，这次真的封神了

什么信号？元宝、豆包、千问、智谱、MiniMax陆陆续续发布新版本，华尔街，紧急发声！

连0.02头发丝也插不进，间隙只有几微米，这模具直接封神了

小米发布并开源首代机器VLA大模型！刷新多项SOTA

小米17Max或上半年发布：骁龙8E5+8K大电池+潜望镜，主打高性价比

全球首秀！英特尔亮出ZAM内存原型：单芯 512GB、功耗砍半，正面硬刚HBM

内存涨价吞噬订单，“黑天鹅”突袭手机、PC芯片产业

一夜暴涨至2100亿！开源新王MiniMax M2.5，革了Opus 4.6的命

春节档国产AI模型混战开打，MiniMax-M2.5上线，随手做“苹果系统”

你追我赶！国产大模型春节档密集上新

现在的女coser拍照，已经这么逼真，脸都成了建模

“春节档”新品密集上新，给了AI应用“做多”的理由｜行业风向标

老牌军事网文平台铁血读书宣布关停

这个春节，三亚彻底火了！游客8499元订的民宿被临时毁约，附近民宿涨到三四万，机票价同比翻倍！95后、00后也多起来了

应急管理部：加强烟花爆竹非法制售、储存的排查打击

7.6元网购2500克土豆，男子食用后连续两年饱受折磨！医生提醒

初恋重逢，14年后的不同人生轨迹

王毅会见美国国务卿鲁比奥