编辑|Panda、冷猫
MiniMax M3来了,而且很震撼!
看到 MiniMax M3 的发布公告,我们第一反应不是「又一个国产模型」,而是:Frontier 三件套同时开源,这是真的吗?
按照 MiniMax 的定义,Frontier 三件套是指三项模型能力:前沿 Coding/Agentic 能力百万 token 级长上下文窗口原生多模态
在此之前,能同时满足三项的只有 Claude Opus 4.7、Gemini 3.1、GPT-5.5 这类头部闭源模型。而 MiniMax M3 宣称自己是第一个做到这一点的开源模型(模型权重将在几天后与技术报告一起发布),并且也是第一做到这一点的国产模型。
这个命题太大,得自己验证才放心。于是我们直接上手,带着三个问题去验证:Coding 和 Agentic 能力到底能不能打?1M 上下文是不是真好用,还是只是数字?多模态理解对实际工作任务有没有帮助?
先说结论:比我们预期的要强,并且 Frontier 三件套都很强。
首个集齐 Frontier 三件套的国产和开源模型
要理解这件事的意义,我们需要先厘清「Frontier 三件套」这个概念为什么重要。
过去两年,顶级闭源模型之间的竞争,逐渐收敛出一套事实标准:要想被认为是真正的前沿模型,必须同时具备三项能力:
- 强大的 Coding/Agentic 能力(能接管真实软件工程任务)
- 超长上下文窗口(百万 token 级)
- 原生多模态(从预训练阶段开始融合视觉信息,而非事后接插件)
三者缺一,在真实复杂任务上就会露出明显短板。
MiniMax M3 是第一个把这三块拼图同时拿到手的国产开源模型。
前沿 Coding 与 Agentic 能力
从官方披露的基准数据看,M3 的 Coding 表现已属国际第一梯队:SWE-Bench Pro(衡量真实软件工程任务解决能力)59.0%,超过 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7;Terminal Bench 2.1 得分 66.0%;KernelBench Hard 28.8%;面向自主 Agent 端到端评测的 Claw-Eval 上,M3 排名第一。
但数字之外,还有一个更值得关注的细节。M3 不仅能生成代码,还能在长线程任务中持续迭代、自我验证、拒绝放弃
在 MiniMax 内部的 CUDA 算子优化测试中,他们让 M3 从一份残缺的 Triton 骨架出发,在 NVIDIA Hopper 架构 GPU 上独立优化 FP8 矩阵乘法 kernel。这类任务通常需要资深团队一两周集中投入。M3 自主运行约 24 小时,完成了 147 次 benchmark 提交和 1959 次工具调用,将硬件峰值利用率从 7.6% 推进至 71.3%,实现 9.4 倍加速。
更耐人寻味的是,M3 的最优解出现在第 145 次提交。在此之前,模型经历了多个性能「平台期」,但没有选择退出,而是继续探索新的优化路径。相比之下,其余大多数模型在前 30 次提交后便主动停止。这种「坚持探索」的行为,在某种程度上比单次代码生成的质量更能说明问题。
训练侧,MiniMax 构建了一套「交互式用户模拟器框架」,让模型在训练阶段就接触到接近真实生产环境的协作场景:不只是单轮指令执行,而是需要在同一个 Session 里持续澄清需求、根据反馈调整方案、跨任务切换。这使得 M3 的 Agent 能力更贴近真实使用体验,而非只是针对 benchmark 调优。
100 万 token 上下文窗口
100 万 token 的上下文窗口意味着什么?大约相当于 15 本普通长篇小说的文字量,或数万行代码加上完整的项目文档。对于律师审合同、研究员分析学术文献、开发者排查大型代码库来说,这是质的跃升,而非量的叠加。
更重要的是,100 万 token 上下文是一项基础设施。所有长程 Agent、长视频理解、复杂多轮协作任务,都建立在它之上。没有这个底座,很多「高阶能力」在实际应用中根本站不住脚。
原生多模态
M3 的多模态不是「事后接入」的视觉模块,而是从训练第一步起就混合了文本、图文交织(Interleaved)数据、图文对(Caption)和视频数据。这种原生路线让文本与视觉的语义空间高度对齐,处理需要同时理解公式图表、代码注释、实验结果的复杂任务时,表现更为自然流畅。
整体预训练数据规模已扩充至100T(百万亿)token 量级
我们上手测了测
数据这么强,实际表现又如何呢?带着最初的三个问题,我们直接上手测试。
首先,针对 Coding 与 Agentic 能力,我们直接使用 MiniMax Code,选择 MiniMax M3 模型,然后给它委派了一个有点「刁难」性质的任务:调研目前主流 LLM 提供商的 token plan(至少包含 OpenAI、Anthropic、MiniMax、DeepSeek),将数据整理后构建一个网页比价工具,对比各家的 token plan。
这个任务的难点不是写代码,而是「信息获取+工程实现」的完整链路必须一气呵成,中间如果卡壳就得来问我们。
M3 没有来问我们。它自主检索了各家定价页面、完成数据整理,并交付了一个网页比价工具。而让我们没想到的是,它还自作主张加了几个原本提示词里没有要求的功能:分组对比、汇率换算、主题切换。这不是「按要求完成任务」,这是「把任务做得比要求更好」。
可以看到,MiniMax 的 token plan 定价相当有竞争力,其中Max 套餐在 token 单价指标上被认为是当前市场上最划算的方案
接下来我们想试试 M3 对多模态输入的理解能力,以及它在创意性 UI 构建上的表现。于是把 M3 接进了我们自己的 Claude Code 环境,下了一道稍微有点异想天开的指令:构建一个可爱的音乐播放器,它的背景是我提供的猫图片,并且让猫跟随我的光标转动。它不仅能播放本地音乐,还能自动检索当前播放音乐的专辑封面和歌词。
音乐播放、专辑封面、歌词检索,全部实现。M3 还自己加了一个点击歌词可以直接跳转到对应播放节点的功能,这个我们没要求,它判断加上的。界面配色也是直接从猫图片里提取的,看起来相当协调 —— 这是多模态能力在发挥作用,不是凑巧。
最后是我们私心测得最认真的一项,因为它和我们的日常工作直接相关:能不能把一段视频直接变成一篇像样的报道?
我们丢给 M3 一个 40 分钟、270MB 大小的视频文件 ——Andrej Karpathy 的《AI 时代的软件》演讲,以及一句提示词:读取分析文件夹中的 Kaparthy 演讲视频,将其中的内容整理成一份 5000 字左右的媒体报道文章。注意适当划分章节,还要给文章搭配上合适的配图,使用视频中的截图即可。
没有大纲,没有格式要求,没有样例参考。就这一句话,剩下的全交给 M3。
16 分钟的处理之后,我们得到了一个 md 文件和一个图片文件夹,看看效果:
M3 生成的报道文章节选,上下滑动查看
我们翻完第一遍的反应是:…… 这好像能直接发?
章节结构清晰,截图选取和段落节奏对得上,没有那种一眼就能认出来的「AI 腔」。对媒体编辑来说,最高的评价不是「写得很好」,而是「不用改」。这篇基本达到了这个标准。
或许很快,你就能看到 MiniMax M3 出现在我们的作者署名中 —— 让人很兴奋,也让我们有点慌……
技术解读
MSA 架构创新:让上下文可被 Scale
MiniMax M3 支持 1M 上下文窗口,背后是一个全新设计的注意力模块:MiniMax Sparse Attention(MSA)
标准 Transformer 使用的全注意力机制,要求每个 token 都和序列中所有其他 token 做一次交互计算。这意味着上下文从 32K 扩展到 1M 时,计算量会膨胀近 1000 倍。这就是为什么过去大多数模型的上下文窗口被卡在 128K 以内。
要让百万级上下文真正可用,必须从最底层的注意力机制入手,让模型学会「有选择地看」。
MSA 属于稀疏注意力(Sparse Attention)的范畴,是一种 Blockwise Sparse Attention,简洁且易于扩展。
目前业界已有多种稀疏注意力方案,比如 DeepSeek 的 DSA 和 Kimi 的 MoBA。它们的共同思路是把长序列的 KV cache 切成若干块,然后用某种打分机制选出最重要的块。
MSA 的做法也是分块,但在「怎么分」和「怎么选」上做了更精细的设计。具体来说,MSA 对 KV 的分块粒度更精确,能够更好地覆盖有效上下文。打个比方:如果把百万 token 的上下文想象成一本厚书, MSA 可以按段落级别精准定位,既不会遗漏关键信息,也不会在无关内容上浪费算力。
在算子层面,MiniMax 也做了直接优化:采用以 KV 块为外层来聚合命中 query 的 KV outer gather Q 策略。每块只读一次、访存连续,在 M3 的 head 配比下计算访存比显著优于通行方法,比开源的 Flash-Sparse-Attention、FlashMoBA 快 4 倍以上。
效率提升的数据非常直观:
- 在 100 万上下文下,M3 每 token 计算量仅为上代模型的 1/20
- Prefilling 阶段加速超过 9 倍
- Decoding 阶段加速超过 15 倍
训练侧同样值得关注。通过优化训练过程中的梯度流,MSA 在整个训练过程中没有出现任何 loss spike,并支持原生 32K 乃至更长上下文的预训练。多组对照实验中,MSA 的绝大部分能力与 full attention 打平。
1M 上下文本身就是一项基础设施。后面所有长程 Agent、长程 Coding、长视频理解能力,都建立在它之上。
原生多模态:从 Step 0 开始的百万亿 Token 混合训练
M3 是一个从 Step 0 开始进行多模态混合训练的模型。这种原生多模态的路线能让不同模态数据的语义空间更天然、更高度地融合。
在数据配比和构成上,MiniMax 的大量实验揭示了一个重要发现:Interleaved data(交错数据)对模型性能带来的提升,比一般认为的更加关键。
什么是交错数据?简单来说,就是文本和图像在训练序列中交替自然排列的数据。比如一篇带插图的技术文档,文字描述和对应的图表交替出现。这类数据的特点是:图文之间有天然的语义关联和位置关系,模型在学习过程中能自然地建立跨模态的对应。
MiniMax 的实验表明,大规模引入交错数据后,模型对图像的理解会从「看图说话」升级为「在上下文中理解视觉信息」,这对于复杂任务至关重要。
为此,MiniMax 重构了整套数据管线,将纯文本数据、图文交织数据、图文对以及视频数据等预训练数据的整体规模扩充至 100T(百万亿)量级。
M3 的文本和视觉语义空间高度对齐,支持图片和视频的输入,并能操作电脑桌面。在多模态测试集 OmniDocBench 上,M3 得分超过 Gemini 3.1 Pro,验证了这条路线的有效性。
MiniMax Code 与 Token Plan
模型之外,MiniMax 还同步推出了两个配套产品。
MiniMax Code是专为 M3 设计、并与 M3 一起训练的 Agent 产品,核心亮点是 Agent Team 工作流:大型任务会被拆解为多阶段、可并发、可动态调整的子任务,通过 Producer + Verifier 对抗式循环持续产出和自我修正,理论上可无人干预运行数天。我们在评测中配置过,整体体验和 M3 的能力上限高度匹配。
定价上,Token PlanPlus档 ¥49 / 月提供 6 亿 token,Max档 ¥119 / 月提供 18 亿 token,Ultra档 ¥469 / 月提供 55 亿 token,按相同价格折算约是 Claude 订阅的 15 倍用量。M3 API 现已开放,同时支持 thinking 和 non-thinking 两种模式,按上下文长度分两档计价。
感觉 MiniMax 官方的宣传有点佛系 —— 如此能打的性价比,竟然还没做到人尽皆知。
结语
测完 M3 之后,我们的感受可以用一句话来概括:这是第一次,一个开源模型让我们觉得闭源的护城河正在变窄。
Frontier 三件套不再是 Opus、Gemini、GPT 的专属标配。这个事实本身就足以改变开发者在选型时的默认逻辑。更重要的是,开源意味着这些能力可以被本地部署、被微调、被集成进各类垂直场景,而不是永远被 API 调用的方式锁住。
接下来 10 天内,MiniMax 会更新模型的技术报告,并开源对应的模型权重。我们也会持续关注。
热门跟贴