MiniMax推出百万token开源模型M3，性能叫板闭源顶尖|minimax|token|上下文|开源模型

国产AI公司MiniMax刚刚放出一个开源模型M3，直接把顶级编程能力、百万token上下文窗口和原生多模态打包在了一起。按照官方说法，这套组合此前只有Opus 4.7、GPT-5.5这类闭源系统才敢给，开源模型根本摸不着边儿。

支撑这个超高上下文窗口的是新提出的“MiniMax稀疏注意力”（MiniMax Sparse Attention）架构。它只处理与当前任务相关的数据块，算力消耗降到原来的二十分之一，输入处理速度提升超过九倍，从而在成本和效率上控制住了百万token级别的推理开销。

从跑分来看，M3已经进入了闭源模型的领地。在软件工程评测SWE-Bench Pro上，MiniMax给出的成绩是59%，超过GPT-5.5和Gemini 3.1 Pro，仅略微落后于Opus 4.7。在终端任务和工具调用场景，M3同样处于同一梯队。在自主网页搜索的BrowseComp测试中，M3拿到83.5分，压过Opus 4.7的79.3分——当然，Anthropic后来又推出了更强的Opus 4.8。

为了让模型更贴近真实开发流程，MiniMax专门搭建了一个模拟器框架，模拟需求细化、方案讨论、对中间结果做出反应、跨上下文推进等典型行为。这就不是只拿单一明确的提示词练手，而是让模型在训练时适应多轮协作的节奏。

内部还做了三个实验来展示这种持续自主工作能力。第一个实验里，团队让M3独立复现一篇关于大语言模型微调方向的论文。模型在将近十二小时内完全自主运作，产出18次提交和23幅图表，最终确认了论文的关键发现。

第二个实验让M3为一款在英伟达Hopper GPU上运行的矩阵乘法计算内核做优化。这类任务通常需要一个有经验的团队花上一到两周时间。M3只拿到任务描述、一个基准脚本和一个不可运行的空代码框架，没有参考答案可抄。大约24小时后，模型把Hopper硬件的利用率从7.6%提升到71.3%。而多数其他受测模型在早期阶段就放弃了。

目前M3已经通过API提供服务，模型权重也将在近期公开。