MiniMax M3来了！|minimax|上下文|代码|文章|新论文|模态|调用

编辑｜Panda、冷猫

MiniMax M3来了，而且很震撼！

看到 MiniMax M3 的发布公告，我们第一反应不是「又一个国产模型」，而是：Frontier 三件套同时开源，这是真的吗？

按照 MiniMax 的定义，Frontier 三件套是指三项模型能力：前沿 Coding/Agentic 能力百万 token 级长上下文窗口原生多模态

在此之前，能同时满足三项的只有 Claude Opus 4.7、Gemini 3.1、GPT-5.5 这类头部闭源模型。而 MiniMax M3 宣称自己是第一个做到这一点的开源模型（模型权重将在几天后与技术报告一起发布），并且也是第一做到这一点的国产模型。

这个命题太大，得自己验证才放心。于是我们直接上手，带着三个问题去验证：Coding 和 Agentic 能力到底能不能打？1M 上下文是不是真好用，还是只是数字？多模态理解对实际工作任务有没有帮助？

先说结论：比我们预期的要强，并且 Frontier 三件套都很强。

首个集齐 Frontier 三件套的国产和开源模型

要理解这件事的意义，我们需要先厘清「Frontier 三件套」这个概念为什么重要。

过去两年，顶级闭源模型之间的竞争，逐渐收敛出一套事实标准：要想被认为是真正的前沿模型，必须同时具备三项能力：

强大的 Coding/Agentic 能力（能接管真实软件工程任务）
超长上下文窗口（百万 token 级）
原生多模态（从预训练阶段开始融合视觉信息，而非事后接插件）

三者缺一，在真实复杂任务上就会露出明显短板。

MiniMax M3 是第一个把这三块拼图同时拿到手的国产开源模型。

前沿 Coding 与 Agentic 能力

从官方披露的基准数据看，M3 的 Coding 表现已属国际第一梯队：SWE-Bench Pro（衡量真实软件工程任务解决能力）59.0%，超过 GPT-5.5 和 Gemini 3.1 Pro，接近 Opus 4.7；Terminal Bench 2.1 得分 66.0%；KernelBench Hard 28.8%；面向自主 Agent 端到端评测的 Claw-Eval 上，M3 排名第一。

但数字之外，还有一个更值得关注的细节。M3 不仅能生成代码，还能在长线程任务中持续迭代、自我验证、拒绝放弃

在 MiniMax 内部的 CUDA 算子优化测试中，他们让 M3 从一份残缺的 Triton 骨架出发，在 NVIDIA Hopper 架构 GPU 上独立优化 FP8 矩阵乘法 kernel。这类任务通常需要资深团队一两周集中投入。M3 自主运行约 24 小时，完成了 147 次 benchmark 提交和 1959 次工具调用，将硬件峰值利用率从 7.6% 推进至 71.3%，实现 9.4 倍加速。

更耐人寻味的是，M3 的最优解出现在第 145 次提交。在此之前，模型经历了多个性能「平台期」，但没有选择退出，而是继续探索新的优化路径。相比之下，其余大多数模型在前 30 次提交后便主动停止。这种「坚持探索」的行为，在某种程度上比单次代码生成的质量更能说明问题。

训练侧，MiniMax 构建了一套「交互式用户模拟器框架」，让模型在训练阶段就接触到接近真实生产环境的协作场景：不只是单轮指令执行，而是需要在同一个 Session 里持续澄清需求、根据反馈调整方案、跨任务切换。这使得 M3 的 Agent 能力更贴近真实使用体验，而非只是针对 benchmark 调优。

100 万 token 上下文窗口

100 万 token 的上下文窗口意味着什么？大约相当于 15 本普通长篇小说的文字量，或数万行代码加上完整的项目文档。对于律师审合同、研究员分析学术文献、开发者排查大型代码库来说，这是质的跃升，而非量的叠加。

更重要的是，100 万 token 上下文是一项基础设施。所有长程 Agent、长视频理解、复杂多轮协作任务，都建立在它之上。没有这个底座，很多「高阶能力」在实际应用中根本站不住脚。

原生多模态

M3 的多模态不是「事后接入」的视觉模块，而是从训练第一步起就混合了文本、图文交织（Interleaved）数据、图文对（Caption）和视频数据。这种原生路线让文本与视觉的语义空间高度对齐，处理需要同时理解公式图表、代码注释、实验结果的复杂任务时，表现更为自然流畅。

整体预训练数据规模已扩充至100T（百万亿）token 量级

我们上手测了测

数据这么强，实际表现又如何呢？带着最初的三个问题，我们直接上手测试。

首先，针对 Coding 与 Agentic 能力，我们直接使用 MiniMax Code，选择 MiniMax M3 模型，然后给它委派了一个有点「刁难」性质的任务：调研目前主流 LLM 提供商的 token plan（至少包含 OpenAI、Anthropic、MiniMax、DeepSeek），将数据整理后构建一个网页比价工具，对比各家的 token plan。

这个任务的难点不是写代码，而是「信息获取+工程实现」的完整链路必须一气呵成，中间如果卡壳就得来问我们。

M3 没有来问我们。它自主检索了各家定价页面、完成数据整理，并交付了一个网页比价工具。而让我们没想到的是，它还自作主张加了几个原本提示词里没有要求的功能：分组对比、汇率换算、主题切换。这不是「按要求完成任务」，这是「把任务做得比要求更好」。

可以看到，MiniMax 的 token plan 定价相当有竞争力，其中Max 套餐在 token 单价指标上被认为是当前市场上最划算的方案

接下来我们想试试 M3 对多模态输入的理解能力，以及它在创意性 UI 构建上的表现。于是把 M3 接进了我们自己的 Claude Code 环境，下了一道稍微有点异想天开的指令：构建一个可爱的音乐播放器，它的背景是我提供的猫图片，并且让猫跟随我的光标转动。它不仅能播放本地音乐，还能自动检索当前播放音乐的专辑封面和歌词。

音乐播放、专辑封面、歌词检索，全部实现。M3 还自己加了一个点击歌词可以直接跳转到对应播放节点的功能，这个我们没要求，它判断加上的。界面配色也是直接从猫图片里提取的，看起来相当协调 —— 这是多模态能力在发挥作用，不是凑巧。

最后是我们私心测得最认真的一项，因为它和我们的日常工作直接相关：能不能把一段视频直接变成一篇像样的报道？

我们丢给 M3 一个 40 分钟、270MB 大小的视频文件 ——Andrej Karpathy 的《AI 时代的软件》演讲，以及一句提示词：读取分析文件夹中的 Kaparthy 演讲视频，将其中的内容整理成一份 5000 字左右的媒体报道文章。注意适当划分章节，还要给文章搭配上合适的配图，使用视频中的截图即可。

没有大纲，没有格式要求，没有样例参考。就这一句话，剩下的全交给 M3。

16 分钟的处理之后，我们得到了一个 md 文件和一个图片文件夹，看看效果：

M3 生成的报道文章节选，上下滑动查看

我们翻完第一遍的反应是：…… 这好像能直接发？

章节结构清晰，截图选取和段落节奏对得上，没有那种一眼就能认出来的「AI 腔」。对媒体编辑来说，最高的评价不是「写得很好」，而是「不用改」。这篇基本达到了这个标准。

或许很快，你就能看到 MiniMax M3 出现在我们的作者署名中 —— 让人很兴奋，也让我们有点慌……

技术解读

MSA 架构创新：让上下文可被 Scale

MiniMax M3 支持 1M 上下文窗口，背后是一个全新设计的注意力模块：MiniMax Sparse Attention（MSA）

标准 Transformer 使用的全注意力机制，要求每个 token 都和序列中所有其他 token 做一次交互计算。这意味着上下文从 32K 扩展到 1M 时，计算量会膨胀近 1000 倍。这就是为什么过去大多数模型的上下文窗口被卡在 128K 以内。

要让百万级上下文真正可用，必须从最底层的注意力机制入手，让模型学会「有选择地看」。

MSA 属于稀疏注意力（Sparse Attention）的范畴，是一种 Blockwise Sparse Attention，简洁且易于扩展。

目前业界已有多种稀疏注意力方案，比如 DeepSeek 的 DSA 和 Kimi 的 MoBA。它们的共同思路是把长序列的 KV cache 切成若干块，然后用某种打分机制选出最重要的块。

MSA 的做法也是分块，但在「怎么分」和「怎么选」上做了更精细的设计。具体来说，MSA 对 KV 的分块粒度更精确，能够更好地覆盖有效上下文。打个比方：如果把百万 token 的上下文想象成一本厚书， MSA 可以按段落级别精准定位，既不会遗漏关键信息，也不会在无关内容上浪费算力。

在算子层面，MiniMax 也做了直接优化：采用以 KV 块为外层来聚合命中 query 的 KV outer gather Q 策略。每块只读一次、访存连续，在 M3 的 head 配比下计算访存比显著优于通行方法，比开源的 Flash-Sparse-Attention、FlashMoBA 快 4 倍以上。

效率提升的数据非常直观：

在 100 万上下文下，M3 每 token 计算量仅为上代模型的 1/20
Prefilling 阶段加速超过 9 倍
Decoding 阶段加速超过 15 倍

训练侧同样值得关注。通过优化训练过程中的梯度流，MSA 在整个训练过程中没有出现任何 loss spike，并支持原生 32K 乃至更长上下文的预训练。多组对照实验中，MSA 的绝大部分能力与 full attention 打平。

1M 上下文本身就是一项基础设施。后面所有长程 Agent、长程 Coding、长视频理解能力，都建立在它之上。

原生多模态：从 Step 0 开始的百万亿 Token 混合训练

M3 是一个从 Step 0 开始进行多模态混合训练的模型。这种原生多模态的路线能让不同模态数据的语义空间更天然、更高度地融合。

在数据配比和构成上，MiniMax 的大量实验揭示了一个重要发现：Interleaved data（交错数据）对模型性能带来的提升，比一般认为的更加关键。

什么是交错数据？简单来说，就是文本和图像在训练序列中交替自然排列的数据。比如一篇带插图的技术文档，文字描述和对应的图表交替出现。这类数据的特点是：图文之间有天然的语义关联和位置关系，模型在学习过程中能自然地建立跨模态的对应。

MiniMax 的实验表明，大规模引入交错数据后，模型对图像的理解会从「看图说话」升级为「在上下文中理解视觉信息」，这对于复杂任务至关重要。

为此，MiniMax 重构了整套数据管线，将纯文本数据、图文交织数据、图文对以及视频数据等预训练数据的整体规模扩充至 100T（百万亿）量级。

M3 的文本和视觉语义空间高度对齐，支持图片和视频的输入，并能操作电脑桌面。在多模态测试集 OmniDocBench 上，M3 得分超过 Gemini 3.1 Pro，验证了这条路线的有效性。

MiniMax Code 与 Token Plan

模型之外，MiniMax 还同步推出了两个配套产品。

MiniMax Code是专为 M3 设计、并与 M3 一起训练的 Agent 产品，核心亮点是 Agent Team 工作流：大型任务会被拆解为多阶段、可并发、可动态调整的子任务，通过 Producer + Verifier 对抗式循环持续产出和自我修正，理论上可无人干预运行数天。我们在评测中配置过，整体体验和 M3 的能力上限高度匹配。

定价上，Token PlanPlus档￥49 / 月提供 6 亿 token，Max档￥119 / 月提供 18 亿 token，Ultra档￥469 / 月提供 55 亿 token，按相同价格折算约是 Claude 订阅的 15 倍用量。M3 API 现已开放，同时支持 thinking 和 non-thinking 两种模式，按上下文长度分两档计价。