6月1日,MiniMax正式发布新一代旗舰大模型MiniMax M3。这家已于上周向上海证监局提交上市辅导备案的公司,在儿童节当天公布了一系列技术指标。

在真实软件工程能力基准SWE-Bench Pro上,MiniMax M3的表现小幅度超过GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7。模型采用全新稀疏注意力架构MSA(MiniMax Sparse Attention),这一架构的引入让MiniMax M3得以支持100万上下文窗口。与上一代采用全注意力机制的MiniMax M2相比,M3在预填充阶段实现超过9倍的加速倍率,解码阶段加速倍率超过15倍。模型在100万上下文长度下,M3每token计算量仅为上代模型的二十分之一。

但更值得关注的,是M3在模型自主迭代能力上的突破。

12小时无人干预,从零训练4个模型

在考察模型后训练能力的PostTrainBench测试中,研究团队给M3设定了一项挑战:12小时内,从零开始训练4个仅有预训练基座的模型。全程无人干预,M3自主完成了“数据合成—训练—评测—迭代”的完整闭环。

最终,这4个模型在数学推理、工具调用、代码生成等五项任务上习得基本能力。M3最终得分0.37,仅次于GPT-5.5(0.39)与Opus 4.7(0.42),并大幅领先其他参评模型。

在另一项测试中,M3连续工作24小时,完成147次benchmark提交、1959次工具调用,将Hopper FP8硬件峰值利用率从首版的7.6%提升至71.3%,实现相较于原始版本9.4倍的CUDA内核加速。

MSA稀疏注意力:计算量削减95%

M3在架构层面的创新值得深入分析。上一代M2选择回归全注意力机制,MiniMax彼时给出的理由是基础设施成熟度不足、评估困难等。到了M3,团队推出了自研的MSA稀疏注意力方案。

全注意力机制的计算复杂度呈平方级增长,稀疏注意力通过引入初筛环节缓解这一问题。与DSA、MoBA等现有方案相比,MSA能够更精确地对KV进行分块,实现更高的有效上下文覆盖。与此同时,MiniMax团队在算子层面采用“KV outer gather Q”策略——每个块仅读取一次,访存连续。在M3当前的head配比下,这一设计的计算访存比优于主流方法,比开源的Flash-Sparse-Attention和FlashMoBA快4倍以上。

在100万上下文长度下,M3每token计算量仅为上代模型的二十分之一,预填充阶段加速超9倍,解码阶段加速超15倍。多个对照实验显示,MSA的绝大部分能力可与全注意力机制持平。

原生多模态:视觉描述详尽,推理能力待提升

M3是一个从“Step 0”开始进行多模态混合训练的原生多模态模型,支持图片和视频输入,并能操作电脑桌面。在多模态测试集OmniDocBench上,M3得分超过Gemini 3.1 Pro;在面向自主Agent的端到端评测框架Claw-Eval上,MiniMax M3获得最高分。

在多模态任务中,M3的表现并不均衡。在地点识别任务中,模型对图片内容进行了详细分析,能够观察到高楼层、防尘网等细节,但在缺乏具体地理标志物的情况下,无法直接锁定具体位置。而在需要结合常识推理的视觉问答任务上,与头部模型相比仍存在一定差距。总体而言,M3原生多模态的视觉描述能力扎实,但推理能力仍有提升空间。

编程Agent:理解协作流程,完成度有待提升

编程与Agent能力是M3本次性能提升的重点。MiniMax指出,主流编程测试基准存在明显局限——假设任务为单轮完成。但实际开发场景中,开发者往往需要反复沟通需求、持续调整方案、多任务并行推进。

为缩小测试基准与真实体验之间的差距,MiniMax构建了一个交互式用户模拟器框架,使模型在训练及评测阶段即可接触更接近实际工作环境的交互场景。

从实际测试来看,M3在编程Agent任务中表现出了对真实协作流程的理解。在网页游戏生成任务中,模型能够完成基础的视觉呈现;在更复杂的协作系统开发任务中,M3会主动与用户讨论技术选型,给出完整的项目规划,同时考虑单元测试环节及关键风险点。从执行过程来看,M3能够在任务中不断反思、修改代码,展现出自我纠错与持续优化能力。总体而言,M3在编程Agent任务中确实理解并模拟了真实协作流程——能够主动沟通、迭代优化,但任务的完成度仍有提升空间。

结语:架构创新成突围方向,商业化考验尚待跨越

M3发布的时间点值得注意。就在上周,MiniMax向上海证监局提交了上市辅导备案报告,开启A股上市进程。

从技术层面看,从M2回归全注意力到M3推出MSA稀疏注意力,MiniMax在架构创新上的探索正在见效。M3的API定价也已公布:512k以内上下文,标准模式下输入价格为2.1元/百万tokens、输出价格为8.4元/百万tokens,缓存读取价格为0.42元/百万tokens,上线初期提供7天限时五折优惠。MiniMax Code计划在未来开源。

越来越多中国大模型厂商正通过架构维度的创新实现突围。稀疏注意力、原生多模态混合训练、Agent端到端能力——这些技术方向预计将成为下一阶段大模型发展的主流趋势。但对MiniMax而言,技术实力能否转化为可持续的商业收入和盈利能力,仍是资本市场关注的焦点。上市辅导备案已提交,市场等待的是可验证的商业化成果,而不仅是技术参数。